PII 分析器
检测您文本中的个人可识别信息
PII 分析器扫描您的文本并识别敏感信息,如姓名、电子邮件、电话号码、地址等。
工作原理
分析器使用多种检测方法来识别个人信息(PII):
模式匹配
正则表达式以高准确率检测结构化数据,如电子邮件地址、电话号码、信用卡和国际银行账号(IBAN)。
机器学习(NER)
命名实体识别模型使用spaCy、Stanza和Transformers识别依赖上下文的实体,如人名、组织和地点。
校验和验证
使用校验和算法(Luhn、MOD-97)验证信用卡、国际银行账号(IBAN)和其他金融标识符,以减少误报。
使用分析器
步骤 1:输入您的文本
- 导航到匿名化页面
- 在输入区域粘贴或输入您的文本
- 界面显示字符计数和标记估算
步骤 2:选择实体类型
选择要检测的个人信息(PII)类型:
| 实体类型 | 我们支持 256 种实体类型,分为 10 类: | 文本 - 被识别为个人信息(PII)的实际文本 |
|---|---|---|
| 个人 - 姓名、电子邮件、电话号码、出生日期 | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| 财务 - 信用卡、银行账户、IBAN、加密钱包 | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| 位置 - 地址、城市、国家、坐标 | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| 政府 - 社会安全号码、护照号码、驾驶执照、国家身份证 | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| 技术 - IP 地址、MAC 地址、设备 ID | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
使用预设快速应用常见实体配置,如“GDPR合规”或“金融数据”,而不是手动选择实体。
Instead of selecting entities manually, use 预设 to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
步骤 3:选择语言
选择您的文本语言以获得最佳检测准确性:
- 自动检测 - 让系统确定语言 - Let the system determine the language
- 特定语言 - 从27种支持的语言中选择 - Select from 27 supported languages
语言选择很重要
选择正确的语言显著提高检测准确性,特别是对于人名和地点。
步骤 4:运行分析
- 点击分析按钮
- 等待分析完成(通常1-3秒)
- 在结果面板中查看检测到的实体
理解结果
分析后,每个检测到的实体显示:
位置:字符
结果字段
- 实体类型 - 检测到的个人信息(PII)的类别(PERSON、EMAIL等) - The category of PII detected (PERSON, EMAIL, etc.)
- 文本 - 被识别为个人信息(PII)的实际文本 - The actual text that was identified as PII
- 置信度分数 - 系统的确定程度(0-100%) - How certain the system is (0-100%)
- 位置 - 开始和结束字符位置 - Start and end character positions
置信度阈值
调整置信度阈值以控制灵敏度:
| 阈值 | 效果 | 最佳适用 |
|---|---|---|
| 低 | 检测到更多实体,更多误报 | 最大覆盖,手动审核 |
| 默认 | 平衡检测和准确性 | 一般使用 |
| 高 | 检测到更少实体,置信度更高 | 自动处理 |
| 非常高 | 仅匹配非常自信的结果 | 最小干预 |
选择结果
分析后,您可以细化要匿名化的实体:
全选/取消全选
- 使用标题中的复选框选择或取消选择所有结果
- 仅选中的实体将被匿名化
单独选择
- 点击单个复选框以包含/排除特定实体
- 当分析器检测到误报时很有用
- 当您希望保留某些信息可见时很有用
按类型过滤
- 点击实体类型徽章以按该类型过滤结果
- 快速选择/取消选择特定类型的所有实体
在匿名化之前查看结果。分析器偶尔可能会检测到误报,特别是对于也常见的单词的人名。
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
令牌成本
分析操作根据以下内容消耗令牌:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= 文本长度entities_enabled= 实体entities_found= number of entities detected
典型成本
| 文本长度 | 实体 | 典型成本 |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
令牌系统文档 Token System documentation for complete pricing details.
最佳实践
故障排除
实体未检测到?
- 确保在您的选择中启用了实体类型
- 尝试降低置信度阈值
- 检查所选语言是否正确
- 验证文本格式是否与预期模式匹配
误报太多?
- 提高置信度阈值
- 取消选择广泛的实体类型,如地点
- 使用特定实体的预设,而不是选择所有
分析花费太长时间?
- 将大文本分成较小的块
- 减少所选实体类型的数量
- 使用预设以避免加载未使用的检测模型
Next Steps
最后更新:2026年3月