common.skipToContent

PII アナライザー

テキスト内の個人を特定できる情報を検出

PII アナライザーは、テキストをスキャンし、名前、メールアドレス、電話番号、住所などの機密情報を特定します。


仕組み

アナライザーは、PIIを特定するために複数の検出方法を使用します:

パターンマッチング

正規表現は、メールアドレス、電話番号、クレジットカード、IBANなどの構造化データを高精度で検出します。

機械学習(NER)

名前付きエンティティ認識モデルは、spaCy、Stanza、Transformersを使用して、人物名、組織、場所などの文脈依存エンティティを特定します。

チェックサム検証

クレジットカード、IBAN、その他の金融識別子は、チェックサムアルゴリズム(Luhn、MOD-97)を使用して検証され、誤検出を減少させます。


アナライザーの使用

ステップ 1: テキストを入力

  1. アノナイムページに移動します
  2. 入力エリアにテキストを貼り付けるか、入力します
  3. インターフェースは文字数とトークンの推定を表示します

ステップ 2: エンティティタイプを選択

検出するPIIのタイプを選択します:

エンティティタイプ256のエンティティタイプを10のカテゴリに整理してサポートしています:テキスト - PIIとして特定された実際のテキスト
個人 - 名前、メールアドレス、電話番号、生年月日PERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
金融 - クレジットカード、銀行口座、IBAN、暗号財布CREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
場所 - 住所、都市、国、座標LOCATION, ADDRESS, COORDINATES123 Main St, New York
政府 - SSN、パスポート番号、運転免許証、国民IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
技術 - IPアドレス、MACアドレス、デバイスIDIP_ADDRESS, MAC_ADDRESS192.168.1.1

エンティティを手動で選択する代わりに、「GDPRコンプライアンス」や「金融データ」などの一般的なエンティティ設定を迅速に適用するためにプリセットを使用します。

Instead of selecting entities manually, use プリセット to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

ステップ 3: 言語を選択

最適な検出精度のためにテキストの言語を選択します:

  • 自動検出 - システムに言語を判別させる - Let the system determine the language
  • 特定の言語 - 27のサポートされている言語から選択 - Select from 27 supported languages

言語選択が重要です

正しい言語を選択することで、特に人物名や場所の検出精度が大幅に向上します。

ステップ 4: 分析を実行

  1. 分析ボタンをクリックします
  2. 分析が完了するまで待ちます(通常は1〜3秒)
  3. 結果パネルで検出されたエンティティを確認します

結果の理解

分析後、各検出されたエンティティは次のように表示されます:

PERSONJohn Doe信頼度

位置:文字

結果フィールド

  • エンティティタイプ - 検出されたPIIのカテゴリ(PERSON、EMAILなど) - The category of PII detected (PERSON, EMAIL, etc.)
  • テキスト - PIIとして特定された実際のテキスト - The actual text that was identified as PII
  • 信頼度スコア - システムの確信度(0-100%) - How certain the system is (0-100%)
  • 位置 - 開始および終了の文字位置 - Start and end character positions

信頼度の閾値

感度を制御するために信頼度の閾値を調整します:

閾値効果最適な用途
より多くのエンティティが検出され、誤検出が増加最大のカバレッジ、手動レビュー
デフォルト検出と精度のバランス一般的な使用
エンティティが少なく、信頼度が高い自動処理
非常に高い非常に確信のある一致のみ最小限の介入

結果の選択

分析後、匿名化するエンティティを絞り込むことができます:

すべて選択/選択解除

  • ヘッダーのチェックボックスを使用して、すべての結果を選択または選択解除します
  • 選択されたエンティティのみが匿名化されます

個別選択

  • 個別のチェックボックスをクリックして、特定のエンティティを含める/除外します
  • アナライザーが誤検出を検出した場合に便利です
  • 特定の情報を表示したい場合に便利です

タイプでフィルタリング

  • エンティティタイプバッジをクリックして、そのタイプで結果をフィルタリングします
  • 特定のタイプのすべてのエンティティを迅速に選択/選択解除します

匿名化する前に結果を確認してください。アナライザーは、特に一般的な単語でもある名前に対して誤検出をすることがあります。

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


トークンコスト

分析操作は、次の基準に基づいてトークンを消費します:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = テキストの長さ
  • entities_enabled = エンティティ
  • entities_found = number of entities detected

典型的なコスト

テキストの長さエンティティ典型的なコスト
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

トークンシステムのドキュメント Token System documentation for complete pricing details.


ベストプラクティス

必要なエンティティタイプのみを選択 - コストと誤検出を減少させます
非英語テキストの精度を向上させるために、言語特有のプリセットを使用します
匿名化する前に結果を確認します。特に名前や場所に対しては注意が必要です
自動処理のために高い信頼度の閾値を使用します
最良のパフォーマンスのために、合理的なチャンク(10,000文字未満)でテキストを処理します

トラブルシューティング

エンティティが検出されませんか?

  • エンティティタイプが選択で有効になっていることを確認してください
  • 信頼度の閾値を下げてみてください
  • 正しい言語が選択されていることを確認してください
  • テキスト形式が期待されるパターンに一致しているか確認してください

誤検出が多すぎますか?

  • 信頼度の閾値を上げてください
  • LOCATIONのような広範なエンティティタイプの選択を解除してください
  • すべてを選択するのではなく、エンティティ特有のプリセットを使用します

分析が遅すぎますか?

  • 大きなテキストを小さなチャンクに分割します
  • 選択されたエンティティタイプの数を減らします
  • 未使用の検出モデルの読み込みを避けるためにプリセットを使用します

Next Steps

最終更新日: 2026年3月