为什么选择正则表达式,而不是AI?
我们的方式
- 100%可重复的结果
- 完全可审计以符合合规要求
- 无需训练数据
- 透明的决策过程
- 快速、可预测的性能
- 无模型漂移
AI/ML方法
- 结果在不同运行间变化
- 黑箱决策过程
- 需要训练数据
- 难以审计
- 更高的计算成本
- 模型随时间漂移
10步流程
从输入到输出,您的文档究竟发生了什么
1
输入文本
通过网页界面、API或Word插件提交您的文档
2
语言检测
系统识别文档语言以实现最佳处理
3
标记化
文本被分解为标记以进行模式匹配
4
模式匹配
正则表达式模式扫描256种实体类型
5
上下文分析
周围文本提高检测准确性
6
置信度评分
每个检测都获得一个置信度评分
7
实体分类
检测到的项目按类型分类
8
查看结果
查看所有检测结果及其位置和评分
9
应用匿名化
选择您的方法:替换、编辑、哈希、加密或掩码
10
输出文档
下载您的匿名化文档
常见问题
为什么anonymize.today使用正则表达式而不是AI进行PII检测?
基于正则表达式的检测提供100%可重复的结果——相同的输入总是产生相同的输出。AI和机器学习模型在运行之间可能产生不同的结果,随着时间的推移可能会出现模型漂移,并且作为黑箱操作,难以审计。为了满足GDPR和ISO 27001的合规性,组织需要可解释、可重复的流程,而这正是基于正则表达式的模式匹配所提供的。
PII检测的准确性如何?
anonymize.today为每次检测提供从0.0到1.0的置信度评分。用户可以设置最小置信度阈值以控制敏感性。基于模式的实体,如信用卡号码和社会安全号码,准确率达到95-99%;而基于NLP的实体,如姓名和地点,准确率达到85-95%。该平台支持256种实体类型,每种类型都有精心设计的模式。
我可以审计anonymize.today如何处理我的数据吗?
可以,anonymize.today中的每次检测都显示匹配的确切模式、置信度评分和识别的实体类型。分析器使用特定类别的颜色和文本中的位置突出显示检测到的实体。这种完全透明性使得向审计员、合规官或数据保护机构解释检测决策变得简单明了。
在处理过程中我的数据会发生什么?
提交给anonymize.today的文本通过TLS 1.3加密连接发送到位于德国的ISO 27001认证服务器。文本在内存中使用Microsoft Presidio进行处理,结果立即返回。处理后,服务器上不会存储任何用户内容。数据永远不会离开欧盟。
anonymize.today如何处理一段文本中的多种语言?
anonymize.today支持自动语言检测,以识别文档的主要语言。对于多语言文本,用户可以创建跨语言边界组合实体类型的自定义预设。该平台支持27种PII检测语言,使用spaCy、Stanza和Transformer模型,使得在同一文档中检测特定国家的实体,如德国税号、法国NIR号码或日本我的号码ID成为可能。