anonymize.today的工作原理

确定性、基于正则表达式的PII检测,提供100%可重复的结果。相同输入,相同输出——每次都是。没有AI,没有猜测,只有透明的模式匹配。

为什么选择正则表达式,而不是AI?

我们的方式

  • 100%可重复的结果
  • 完全可审计以符合合规要求
  • 无需训练数据
  • 透明的决策过程
  • 快速、可预测的性能
  • 无模型漂移

AI/ML方法

  • 结果在不同运行间变化
  • 黑箱决策过程
  • 需要训练数据
  • 难以审计
  • 更高的计算成本
  • 模型随时间漂移

10步流程

从输入到输出,您的文档究竟发生了什么

1

输入文本

通过网页界面、API或Word插件提交您的文档

2

语言检测

系统识别文档语言以实现最佳处理

3

标记化

文本被分解为标记以进行模式匹配

4

模式匹配

正则表达式模式扫描256种实体类型

5

上下文分析

周围文本提高检测准确性

6

置信度评分

每个检测都获得一个置信度评分

7

实体分类

检测到的项目按类型分类

8

查看结果

查看所有检测结果及其位置和评分

9

应用匿名化

选择您的方法:替换、编辑、哈希、加密或掩码

10

输出文档

下载您的匿名化文档

常见问题

为什么anonymize.today使用正则表达式而不是AI进行PII检测?
基于正则表达式的检测提供100%可重复的结果——相同的输入总是产生相同的输出。AI和机器学习模型在运行之间可能产生不同的结果,随着时间的推移可能会出现模型漂移,并且作为黑箱操作,难以审计。为了满足GDPR和ISO 27001的合规性,组织需要可解释、可重复的流程,而这正是基于正则表达式的模式匹配所提供的。
PII检测的准确性如何?
anonymize.today为每次检测提供从0.0到1.0的置信度评分。用户可以设置最小置信度阈值以控制敏感性。基于模式的实体,如信用卡号码和社会安全号码,准确率达到95-99%;而基于NLP的实体,如姓名和地点,准确率达到85-95%。该平台支持256种实体类型,每种类型都有精心设计的模式。
我可以审计anonymize.today如何处理我的数据吗?
可以,anonymize.today中的每次检测都显示匹配的确切模式、置信度评分和识别的实体类型。分析器使用特定类别的颜色和文本中的位置突出显示检测到的实体。这种完全透明性使得向审计员、合规官或数据保护机构解释检测决策变得简单明了。
在处理过程中我的数据会发生什么?
提交给anonymize.today的文本通过TLS 1.3加密连接发送到位于德国的ISO 27001认证服务器。文本在内存中使用Microsoft Presidio进行处理,结果立即返回。处理后,服务器上不会存储任何用户内容。数据永远不会离开欧盟。
anonymize.today如何处理一段文本中的多种语言?
anonymize.today支持自动语言检测,以识别文档的主要语言。对于多语言文本,用户可以创建跨语言边界组合实体类型的自定义预设。该平台支持27种PII检测语言,使用spaCy、Stanza和Transformer模型,使得在同一文档中检测特定国家的实体,如德国税号、法国NIR号码或日本我的号码ID成为可能。

亲自体验

免费试用我们的PII检测和匿名化,每月300个标记。