common.skipToContent

PII 分析器

检测您文本中的个人可识别信息

PII 分析器扫描您的文本并识别敏感信息,如姓名、电子邮件、电话号码、地址等。


工作原理

分析器使用多种检测方法来识别个人信息(PII):

模式匹配

正则表达式以高准确率检测结构化数据,如电子邮件地址、电话号码、信用卡和国际银行账号(IBAN)。

机器学习(NER)

命名实体识别模型使用spaCy、Stanza和Transformers识别依赖上下文的实体,如人名、组织和地点。

校验和验证

使用校验和算法(Luhn、MOD-97)验证信用卡、国际银行账号(IBAN)和其他金融标识符,以减少误报。


使用分析器

步骤 1:输入您的文本

  1. 导航到匿名化页面
  2. 在输入区域粘贴或输入您的文本
  3. 界面显示字符计数和标记估算

步骤 2:选择实体类型

选择要检测的个人信息(PII)类型:

实体类型我们支持 256 种实体类型,分为 10 类:文本 - 被识别为个人信息(PII)的实际文本
个人 - 姓名、电子邮件、电话号码、出生日期PERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
财务 - 信用卡、银行账户、IBAN、加密钱包CREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
位置 - 地址、城市、国家、坐标LOCATION, ADDRESS, COORDINATES123 Main St, New York
政府 - 社会安全号码、护照号码、驾驶执照、国家身份证SSN, PASSPORT, DRIVER_LICENSE123-45-6789
技术 - IP 地址、MAC 地址、设备 IDIP_ADDRESS, MAC_ADDRESS192.168.1.1

使用预设快速应用常见实体配置,如“GDPR合规”或“金融数据”,而不是手动选择实体。

Instead of selecting entities manually, use 预设 to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

步骤 3:选择语言

选择您的文本语言以获得最佳检测准确性:

  • 自动检测 - 让系统确定语言 - Let the system determine the language
  • 特定语言 - 从27种支持的语言中选择 - Select from 27 supported languages

语言选择很重要

选择正确的语言显著提高检测准确性,特别是对于人名和地点。

步骤 4:运行分析

  1. 点击分析按钮
  2. 等待分析完成(通常1-3秒)
  3. 在结果面板中查看检测到的实体

理解结果

分析后,每个检测到的实体显示:

PERSONJohn Doe置信度

位置:字符

结果字段

  • 实体类型 - 检测到的个人信息(PII)的类别(PERSON、EMAIL等) - The category of PII detected (PERSON, EMAIL, etc.)
  • 文本 - 被识别为个人信息(PII)的实际文本 - The actual text that was identified as PII
  • 置信度分数 - 系统的确定程度(0-100%) - How certain the system is (0-100%)
  • 位置 - 开始和结束字符位置 - Start and end character positions

置信度阈值

调整置信度阈值以控制灵敏度:

阈值效果最佳适用
检测到更多实体,更多误报最大覆盖,手动审核
默认平衡检测和准确性一般使用
检测到更少实体,置信度更高自动处理
非常高仅匹配非常自信的结果最小干预

选择结果

分析后,您可以细化要匿名化的实体:

全选/取消全选

  • 使用标题中的复选框选择或取消选择所有结果
  • 仅选中的实体将被匿名化

单独选择

  • 点击单个复选框以包含/排除特定实体
  • 当分析器检测到误报时很有用
  • 当您希望保留某些信息可见时很有用

按类型过滤

  • 点击实体类型徽章以按该类型过滤结果
  • 快速选择/取消选择特定类型的所有实体

在匿名化之前查看结果。分析器偶尔可能会检测到误报,特别是对于也常见的单词的人名。

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


令牌成本

分析操作根据以下内容消耗令牌:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = 文本长度
  • entities_enabled = 实体
  • entities_found = number of entities detected

典型成本

文本长度实体典型成本
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

令牌系统文档 Token System documentation for complete pricing details.


最佳实践

仅选择您需要的实体类型 - 减少成本和误报
使用特定语言的预设以提高非英语文本的准确性
在匿名化之前查看结果,特别是对于人名和地点
对自动处理使用更高的置信度阈值
将文本分成合理的块(少于10,000个字符)以获得最佳性能

故障排除

实体未检测到?

  • 确保在您的选择中启用了实体类型
  • 尝试降低置信度阈值
  • 检查所选语言是否正确
  • 验证文本格式是否与预期模式匹配

误报太多?

  • 提高置信度阈值
  • 取消选择广泛的实体类型,如地点
  • 使用特定实体的预设,而不是选择所有

分析花费太长时间?

  • 将大文本分成较小的块
  • 减少所选实体类型的数量
  • 使用预设以避免加载未使用的检测模型

Next Steps

最后更新:2026年3月