PII 分析器

检测您文本中的个人可识别信息

PII 分析器扫描您的文本并识别敏感信息，如姓名、电子邮件、电话号码、地址等。

工作原理

分析器使用多种检测方法来识别个人信息（PII）：

模式匹配

正则表达式以高准确率检测结构化数据，如电子邮件地址、电话号码、信用卡和国际银行账号（IBAN）。

机器学习（NER）

命名实体识别模型使用spaCy、Stanza和Transformers识别依赖上下文的实体，如人名、组织和地点。

校验和验证

使用校验和算法（Luhn、MOD-97）验证信用卡、国际银行账号（IBAN）和其他金融标识符，以减少误报。

使用分析器

步骤 1：输入您的文本

导航到匿名化页面
在输入区域粘贴或输入您的文本
界面显示字符计数和标记估算

步骤 2：选择实体类型

选择要检测的个人信息（PII）类型：

实体类型	我们支持 256 种实体类型，分为 10 类：	文本 - 被识别为个人信息（PII）的实际文本
个人 - 姓名、电子邮件、电话号码、出生日期	PERSON, EMAIL_ADDRESS, PHONE_NUMBER	John Doe, john@email.com
财务 - 信用卡、银行账户、IBAN、加密钱包	CREDIT_CARD, IBAN_CODE, SWIFT_CODE	4111-1111-1111-1111
位置 - 地址、城市、国家、坐标	LOCATION, ADDRESS, COORDINATES	123 Main St, New York
政府 - 社会安全号码、护照号码、驾驶执照、国家身份证	SSN, PASSPORT, DRIVER_LICENSE	123-45-6789
技术 - IP 地址、MAC 地址、设备 ID	IP_ADDRESS, MAC_ADDRESS	192.168.1.1

使用预设快速应用常见实体配置，如“GDPR合规”或“金融数据”，而不是手动选择实体。

Instead of selecting entities manually, use 预设 to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

步骤 3：选择语言

选择您的文本语言以获得最佳检测准确性：

自动检测 - 让系统确定语言 - Let the system determine the language
特定语言 - 从27种支持的语言中选择 - Select from 27 supported languages

语言选择很重要

选择正确的语言显著提高检测准确性，特别是对于人名和地点。

步骤 4：运行分析

点击分析按钮
等待分析完成（通常1-3秒）
在结果面板中查看检测到的实体

理解结果

分析后，每个检测到的实体显示：

PERSONJohn Doe置信度

位置：字符

结果字段

实体类型 - 检测到的个人信息（PII）的类别（PERSON、EMAIL等） - The category of PII detected (PERSON, EMAIL, etc.)
文本 - 被识别为个人信息（PII）的实际文本 - The actual text that was identified as PII
置信度分数 - 系统的确定程度（0-100%） - How certain the system is (0-100%)
位置 - 开始和结束字符位置 - Start and end character positions

置信度阈值

调整置信度阈值以控制灵敏度：

阈值	效果	最佳适用
低	检测到更多实体，更多误报	最大覆盖，手动审核
默认	平衡检测和准确性	一般使用
高	检测到更少实体，置信度更高	自动处理
非常高	仅匹配非常自信的结果	最小干预

选择结果

分析后，您可以细化要匿名化的实体：

全选/取消全选

使用标题中的复选框选择或取消选择所有结果
仅选中的实体将被匿名化

单独选择

点击单个复选框以包含/排除特定实体
当分析器检测到误报时很有用
当您希望保留某些信息可见时很有用

按类型过滤

点击实体类型徽章以按该类型过滤结果
快速选择/取消选择特定类型的所有实体

在匿名化之前查看结果。分析器偶尔可能会检测到误报，特别是对于也常见的单词的人名。

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.

令牌成本

分析操作根据以下内容消耗令牌：

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

text_k = 文本长度
entities_enabled = 实体
entities_found = number of entities detected

典型成本

文本长度	实体	典型成本
100 characters	3 types, 2 found	2 tokens
1,000 characters	5 types, 5 found	3 tokens
5,000 characters	10 types, 15 found	6 tokens
10,000 characters	15 types, 30 found	10 tokens

令牌系统文档 Token System documentation for complete pricing details.

最佳实践

✅仅选择您需要的实体类型 - 减少成本和误报

✅使用特定语言的预设以提高非英语文本的准确性

✅在匿名化之前查看结果，特别是对于人名和地点

✅对自动处理使用更高的置信度阈值

✅将文本分成合理的块（少于10,000个字符）以获得最佳性能

故障排除

实体未检测到？

确保在您的选择中启用了实体类型
尝试降低置信度阈值
检查所选语言是否正确
验证文本格式是否与预期模式匹配

误报太多？

提高置信度阈值
取消选择广泛的实体类型，如地点
使用特定实体的预设，而不是选择所有

分析花费太长时间？

将大文本分成较小的块
减少所选实体类型的数量
使用预设以避免加载未使用的检测模型

Next Steps

匿名化指南

了解如何匿名化检测到的实体

预设

保存和重用实体配置

最后更新：2026年3月