common.skipToContent

PII 匿名化器

在保护敏感数据的同时保持文本结构

PII 匿名化器使用各种方法转换检测到的实体,以保护敏感信息。


匿名化操作符

根据您的需求选择合适的操作符:

替换

用占位符文本如 [PERSON] 或 [EMAIL] 替换 PII。保持文本可读性。

John Doe → [PERSON]

最佳适用:人类可读的匿名文本

掩码

部分隐藏 PII,如 ****@email.com 或 John D***。显示格式同时隐藏值。

john@email.com → j***@email.com

最佳适用:保持部分可读性

删除

完全从文本中移除 PII。最激进的选项。

Contact John Doe at → Contact at

最佳适用:完全删除敏感数据

哈希

将 PII 转换为 SHA-256 哈希。相同的输入始终产生相同的哈希,适用于数据分析。

John Doe → a3f2b1c4d5...

最佳适用:在保持唯一性的同时进行数据分析

加密可逆

使用 AES-256-GCM 加密 PII。可以使用您的加密密钥在后续解密。

John Doe → [ENC:a3f2b1c4...]

最佳适用:临时匿名化以便将来恢复


操作符比较

操作符可逆保持格式一致的输出用例
Replace共享匿名化文档
Mask部分客户支持、日志
Redact法律文件、信息自由法案(FOIA)
Hash*数据分析、去重
Encrypt每个密钥临时匿名化

* 哈希对相同输入值产生一致的输出


使用匿名化器

步骤 1:先分析

在进行匿名化之前,您必须分析您的文本以检测个人信息(PII)实体。匿名化器基于分析器的结果进行工作。

步骤 2:选择实体

查看并选择您想要匿名化的检测到的实体:

  • 使用复选框选择/取消选择单个实体
  • 未选中的实体将在输出中保持不变
  • 点击实体类型徽章按类型批量选择/取消选择

步骤 3:选择操作符

选择匿名化方法:

  • 全局操作符:对所有选定实体应用相同的方法 Applies the same method to all selected entities
  • 逐个实体操作符:为不同实体类型设置不同的方法 Set different methods for different entity types

步骤 4:配置选项

每个操作符都有配置选项:

替换选项
  • new_value - The replacement text (default: [ENTITY_TYPE])
掩码选项
  • masking_char - Character to use for masking (default: *)
  • chars_to_mask - Number of characters to mask
  • from_end - Mask from end instead of beginning
哈希选项
  • hash_type - Algorithm to use (default: sha256)
加密选项
  • Requires an encryption key configured in Settings
  • Uses AES-256-GCM encryption

步骤 5:运行匿名化

  1. 点击匿名化按钮
  2. 查看匿名化输出
  3. 复制或下载结果

加密与去匿名化

加密操作符启用可逆匿名化。您可以使用相同的加密密钥恢复原始值。

设置加密密钥

  1. Go to Settings → Security
  2. Under "Encryption Keys," click Add Key
  3. Enter a name and your secret key (32+ characters recommended)
  4. Save the key securely - it's required for deanonymization

密钥安全

您的加密密钥在您的账户中以加密形式存储。如果您丢失密钥,则无法恢复加密数据。

去匿名化文本

  1. Go to the Deanonymize tab
  2. Paste text containing encrypted entities (e.g., [ENC:a3f2b1c4...])
  3. Select the encryption key used during anonymization
  4. Click Deanonymize
  5. The original values are restored

令牌成本

匿名化操作根据以下内容消耗令牌:

Cost = 1 + 0.2 × ops_count + 0.8 × encrypt_count + 0.1 × entities + 0.2 × text_k

Final = ceil(Cost × 0.5)

Where:

  • ops_count = number of anonymization operations
  • encrypt_count = number of encryption operations (higher cost)
  • entities = number of entities processed
  • text_k = text length in thousands of characters
操作典型成本
Anonymize (apply only)1-5 tokens
Anonymize (full)2-15 tokens
Deanonymize1-4 tokens

最佳实践

对将公开共享的文档使用替换
当需要保持部分可读性时使用掩码
在分析数据时使用哈希,同时保持实体的唯一性
仅在需要稍后恢复原始值时使用加密
安全存储加密密钥 - 丢失它们意味着失去对加密数据的访问
在处理大型数据集之前先对小样本进行匿名化测试

Related Documentation

最后更新:2026年3月