PII 匿名化器
在保护敏感数据的同时保持文本结构
PII 匿名化器使用各种方法转换检测到的实体,以保护敏感信息。
匿名化操作符
根据您的需求选择合适的操作符:
替换
用占位符文本如 [PERSON] 或 [EMAIL] 替换 PII。保持文本可读性。
John Doe → [PERSON]
最佳适用:人类可读的匿名文本
掩码
部分隐藏 PII,如 ****@email.com 或 John D***。显示格式同时隐藏值。
john@email.com → j***@email.com
最佳适用:保持部分可读性
删除
完全从文本中移除 PII。最激进的选项。
Contact John Doe at → Contact at
最佳适用:完全删除敏感数据
哈希
将 PII 转换为 SHA-256 哈希。相同的输入始终产生相同的哈希,适用于数据分析。
John Doe → a3f2b1c4d5...
最佳适用:在保持唯一性的同时进行数据分析
加密可逆
使用 AES-256-GCM 加密 PII。可以使用您的加密密钥在后续解密。
John Doe → [ENC:a3f2b1c4...]
最佳适用:临时匿名化以便将来恢复
操作符比较
| 操作符 | 可逆 | 保持格式 | 一致的输出 | 用例 |
|---|---|---|---|---|
| Replace | 否 | 否 | 是 | 共享匿名化文档 |
| Mask | 否 | 部分 | 是 | 客户支持、日志 |
| Redact | 否 | 否 | 是 | 法律文件、信息自由法案(FOIA) |
| Hash | 否 | 否 | 是* | 数据分析、去重 |
| Encrypt | 是 | 否 | 每个密钥 | 临时匿名化 |
* 哈希对相同输入值产生一致的输出
使用匿名化器
步骤 1:先分析
在进行匿名化之前,您必须分析您的文本以检测个人信息(PII)实体。匿名化器基于分析器的结果进行工作。
步骤 2:选择实体
查看并选择您想要匿名化的检测到的实体:
- 使用复选框选择/取消选择单个实体
- 未选中的实体将在输出中保持不变
- 点击实体类型徽章按类型批量选择/取消选择
步骤 3:选择操作符
选择匿名化方法:
- 全局操作符:对所有选定实体应用相同的方法 Applies the same method to all selected entities
- 逐个实体操作符:为不同实体类型设置不同的方法 Set different methods for different entity types
步骤 4:配置选项
每个操作符都有配置选项:
替换选项
new_value- The replacement text (default:[ENTITY_TYPE])
掩码选项
masking_char- Character to use for masking (default:*)chars_to_mask- Number of characters to maskfrom_end- Mask from end instead of beginning
哈希选项
hash_type- Algorithm to use (default:sha256)
加密选项
- Requires an encryption key configured in Settings
- Uses AES-256-GCM encryption
步骤 5:运行匿名化
- 点击匿名化按钮
- 查看匿名化输出
- 复制或下载结果
加密与去匿名化
加密操作符启用可逆匿名化。您可以使用相同的加密密钥恢复原始值。
设置加密密钥
- Go to Settings → Security
- Under "Encryption Keys," click Add Key
- Enter a name and your secret key (32+ characters recommended)
- Save the key securely - it's required for deanonymization
密钥安全
您的加密密钥在您的账户中以加密形式存储。如果您丢失密钥,则无法恢复加密数据。
去匿名化文本
- Go to the Deanonymize tab
- Paste text containing encrypted entities (e.g.,
[ENC:a3f2b1c4...]) - Select the encryption key used during anonymization
- Click Deanonymize
- The original values are restored
令牌成本
匿名化操作根据以下内容消耗令牌:
Cost = 1 + 0.2 × ops_count + 0.8 × encrypt_count + 0.1 × entities + 0.2 × text_k
Final = ceil(Cost × 0.5)
Where:
ops_count= number of anonymization operationsencrypt_count= number of encryption operations (higher cost)entities= number of entities processedtext_k= text length in thousands of characters
| 操作 | 典型成本 |
|---|---|
| Anonymize (apply only) | 1-5 tokens |
| Anonymize (full) | 2-15 tokens |
| Deanonymize | 1-4 tokens |
最佳实践
✅对将公开共享的文档使用替换
✅当需要保持部分可读性时使用掩码
✅在分析数据时使用哈希,同时保持实体的唯一性
✅仅在需要稍后恢复原始值时使用加密
✅安全存储加密密钥 - 丢失它们意味着失去对加密数据的访问
✅在处理大型数据集之前先对小样本进行匿名化测试
Related Documentation
最后更新:2026年3月