anonymize.today的工作原理

确定性、基于正则表达式的PII检测，提供100%可重复的结果。相同输入，相同输出——每次都是。没有AI，没有猜测，只有透明的模式匹配。

免费试用技术文档

为什么选择正则表达式，而不是AI？

我们的方式

100%可重复的结果
完全可审计以符合合规要求
无需训练数据
透明的决策过程
快速、可预测的性能
无模型漂移

AI/ML方法

结果在不同运行间变化
黑箱决策过程
需要训练数据
难以审计
更高的计算成本
模型随时间漂移

了解更多关于我们的技术

10步流程

从输入到输出，您的文档究竟发生了什么

输入文本

通过网页界面、API或Word插件提交您的文档

语言检测

系统识别文档语言以实现最佳处理

标记化

文本被分解为标记以进行模式匹配

模式匹配

正则表达式模式扫描256种实体类型

上下文分析

周围文本提高检测准确性

置信度评分

每个检测都获得一个置信度评分

实体分类

检测到的项目按类型分类

查看结果

查看所有检测结果及其位置和评分

应用匿名化

选择您的方法：替换、编辑、哈希、加密或掩码

输出文档

下载您的匿名化文档

进一步探索

技术

深入了解基于正则表达式的检测及其为何更适合合规性

架构

系统架构及其组件如何协同工作

安全性

五层安全保护您的数据，确保每一步的安全

常见问题

为什么anonymize.today使用正则表达式而不是AI进行PII检测？

基于正则表达式的检测提供100%可重复的结果——相同的输入总是产生相同的输出。AI和机器学习模型在运行之间可能产生不同的结果，随着时间的推移可能会出现模型漂移，并且作为黑箱操作，难以审计。为了满足GDPR和ISO 27001的合规性，组织需要可解释、可重复的流程，而这正是基于正则表达式的模式匹配所提供的。

PII检测的准确性如何？

anonymize.today为每次检测提供从0.0到1.0的置信度评分。用户可以设置最小置信度阈值以控制敏感性。基于模式的实体，如信用卡号码和社会安全号码，准确率达到95-99%；而基于NLP的实体，如姓名和地点，准确率达到85-95%。该平台支持256种实体类型，每种类型都有精心设计的模式。

我可以审计anonymize.today如何处理我的数据吗？

可以，anonymize.today中的每次检测都显示匹配的确切模式、置信度评分和识别的实体类型。分析器使用特定类别的颜色和文本中的位置突出显示检测到的实体。这种完全透明性使得向审计员、合规官或数据保护机构解释检测决策变得简单明了。

在处理过程中我的数据会发生什么？

提交给anonymize.today的文本通过TLS 1.3加密连接发送到位于德国的ISO 27001认证服务器。文本在内存中使用Microsoft Presidio进行处理，结果立即返回。处理后，服务器上不会存储任何用户内容。数据永远不会离开欧盟。

anonymize.today如何处理一段文本中的多种语言？

anonymize.today支持自动语言检测，以识别文档的主要语言。对于多语言文本，用户可以创建跨语言边界组合实体类型的自定义预设。该平台支持27种PII检测语言，使用spaCy、Stanza和Transformer模型，使得在同一文档中检测特定国家的实体，如德国税号、法国NIR号码或日本我的号码ID成为可能。

亲自体验

免费试用我们的PII检测和匿名化，每月300个标记。

创建免费账户快速入门指南