PII アナライザー
テキスト内の個人を特定できる情報を検出
PII アナライザーは、テキストをスキャンし、名前、メールアドレス、電話番号、住所などの機密情報を特定します。
仕組み
アナライザーは、PIIを特定するために複数の検出方法を使用します:
パターンマッチング
正規表現は、メールアドレス、電話番号、クレジットカード、IBANなどの構造化データを高精度で検出します。
機械学習(NER)
名前付きエンティティ認識モデルは、spaCy、Stanza、Transformersを使用して、人物名、組織、場所などの文脈依存エンティティを特定します。
チェックサム検証
クレジットカード、IBAN、その他の金融識別子は、チェックサムアルゴリズム(Luhn、MOD-97)を使用して検証され、誤検出を減少させます。
アナライザーの使用
ステップ 1: テキストを入力
- アノナイムページに移動します
- 入力エリアにテキストを貼り付けるか、入力します
- インターフェースは文字数とトークンの推定を表示します
ステップ 2: エンティティタイプを選択
検出するPIIのタイプを選択します:
| エンティティタイプ | 256のエンティティタイプを10のカテゴリに整理してサポートしています: | テキスト - PIIとして特定された実際のテキスト |
|---|---|---|
| 個人 - 名前、メールアドレス、電話番号、生年月日 | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| 金融 - クレジットカード、銀行口座、IBAN、暗号財布 | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| 場所 - 住所、都市、国、座標 | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| 政府 - SSN、パスポート番号、運転免許証、国民ID | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| 技術 - IPアドレス、MACアドレス、デバイスID | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
エンティティを手動で選択する代わりに、「GDPRコンプライアンス」や「金融データ」などの一般的なエンティティ設定を迅速に適用するためにプリセットを使用します。
Instead of selecting entities manually, use プリセット to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
ステップ 3: 言語を選択
最適な検出精度のためにテキストの言語を選択します:
- 自動検出 - システムに言語を判別させる - Let the system determine the language
- 特定の言語 - 27のサポートされている言語から選択 - Select from 27 supported languages
言語選択が重要です
正しい言語を選択することで、特に人物名や場所の検出精度が大幅に向上します。
ステップ 4: 分析を実行
- 分析ボタンをクリックします
- 分析が完了するまで待ちます(通常は1〜3秒)
- 結果パネルで検出されたエンティティを確認します
結果の理解
分析後、各検出されたエンティティは次のように表示されます:
位置:文字
結果フィールド
- エンティティタイプ - 検出されたPIIのカテゴリ(PERSON、EMAILなど) - The category of PII detected (PERSON, EMAIL, etc.)
- テキスト - PIIとして特定された実際のテキスト - The actual text that was identified as PII
- 信頼度スコア - システムの確信度(0-100%) - How certain the system is (0-100%)
- 位置 - 開始および終了の文字位置 - Start and end character positions
信頼度の閾値
感度を制御するために信頼度の閾値を調整します:
| 閾値 | 効果 | 最適な用途 |
|---|---|---|
| 低 | より多くのエンティティが検出され、誤検出が増加 | 最大のカバレッジ、手動レビュー |
| デフォルト | 検出と精度のバランス | 一般的な使用 |
| 高 | エンティティが少なく、信頼度が高い | 自動処理 |
| 非常に高い | 非常に確信のある一致のみ | 最小限の介入 |
結果の選択
分析後、匿名化するエンティティを絞り込むことができます:
すべて選択/選択解除
- ヘッダーのチェックボックスを使用して、すべての結果を選択または選択解除します
- 選択されたエンティティのみが匿名化されます
個別選択
- 個別のチェックボックスをクリックして、特定のエンティティを含める/除外します
- アナライザーが誤検出を検出した場合に便利です
- 特定の情報を表示したい場合に便利です
タイプでフィルタリング
- エンティティタイプバッジをクリックして、そのタイプで結果をフィルタリングします
- 特定のタイプのすべてのエンティティを迅速に選択/選択解除します
匿名化する前に結果を確認してください。アナライザーは、特に一般的な単語でもある名前に対して誤検出をすることがあります。
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
トークンコスト
分析操作は、次の基準に基づいてトークンを消費します:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= テキストの長さentities_enabled= エンティティentities_found= number of entities detected
典型的なコスト
| テキストの長さ | エンティティ | 典型的なコスト |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
トークンシステムのドキュメント Token System documentation for complete pricing details.
ベストプラクティス
トラブルシューティング
エンティティが検出されませんか?
- エンティティタイプが選択で有効になっていることを確認してください
- 信頼度の閾値を下げてみてください
- 正しい言語が選択されていることを確認してください
- テキスト形式が期待されるパターンに一致しているか確認してください
誤検出が多すぎますか?
- 信頼度の閾値を上げてください
- LOCATIONのような広範なエンティティタイプの選択を解除してください
- すべてを選択するのではなく、エンティティ特有のプリセットを使用します
分析が遅すぎますか?
- 大きなテキストを小さなチャンクに分割します
- 選択されたエンティティタイプの数を減らします
- 未使用の検出モデルの読み込みを避けるためにプリセットを使用します
Next Steps
最終更新日: 2026年3月