なぜAIではなく正規表現なのか?
私たちのアプローチ
- 100%再現可能な結果
- コンプライアンスのための完全な監査可能性
- トレーニングデータ不要
- 透明な意思決定
- 迅速で予測可能なパフォーマンス
- 時間の経過によるモデルドリフトなし
AI/MLアプローチ
- 実行ごとに結果が異なる
- ブラックボックスの意思決定
- トレーニングデータが必要
- 監査が難しい
- 高い計算コスト
- 時間の経過によるモデルドリフト
10ステッププロセス
入力から出力まで、あなたの文書に何が起こるかを正確に示します
1
入力テキスト
Webインターフェース、API、またはWordアドインを介して文書を提出します
2
言語検出
システムが最適な処理のために文書の言語を特定します
3
トークン化
テキストがパターンマッチングのためにトークンに分割されます
4
パターンマッチング
正規表現パターンが256のエンティティタイプをスキャンします
5
コンテキスト分析
周囲のテキストが検出精度を向上させます
6
信頼度スコアリング
各検出に信頼度スコアが付与されます
7
エンティティ分類
検出された項目がタイプ別に分類されます
8
結果のレビュー
位置とスコアを持つすべての検出を確認します
9
匿名化の適用
方法を選択します:置換、削除、ハッシュ、暗号化、またはマスク
10
出力文書
匿名化された文書をダウンロードします
よくある質問
なぜanonymize.todayはPII検出にAIではなくregexを使用するのですか?
Regexベースの検出は100%再現可能な結果を提供します — 同じ入力は常に同じ出力を生成します。AIや機械学習モデルは実行ごとに異なる結果を出す可能性があり、時間の経過とともにモデルの漂流が発生し、監査が難しいブラックボックスとして機能します。GDPRおよびISO 27001に基づく規制遵守のために、組織は説明可能で再現可能なプロセスを必要とし、これはまさにregexベースのパターンマッチングが提供するものです。
PII検出の精度はどのくらいですか?
anonymize.todayは各検出に対して0.0から1.0の信頼スコアを提供します。ユーザーは感度を制御するために最小信頼閾値を設定できます。クレジットカード番号やSSNのようなパターンベースのエンティティは95-99%の精度を達成し、名前や場所のようなNLPベースのエンティティは85-95%の精度を達成します。このプラットフォームは、各エンティティタイプに対して慎重に作成されたパターンを使用して256種類のエンティティをサポートしています。
anonymize.todayが私のデータを処理する方法を監査できますか?
はい、anonymize.todayの各検出は、正確に一致したパターン、信頼スコア、および特定されたエンティティタイプを示します。アナライザーは、カテゴリ固有の色とテキスト内の位置で検出されたエンティティを強調表示します。この完全な透明性により、監査人、コンプライアンス担当者、またはデータ保護当局に検出の決定を説明することが簡単になります。
処理中に私のデータはどうなりますか?
anonymize.todayに送信されたテキストは、TLS 1.3で暗号化された接続を介してドイツのISO 27001認証サーバーに送信されます。テキストはMicrosoft Presidioを使用してメモリ内で処理され、結果は即座に返されます。処理後、ユーザーコンテンツはサーバーに保存されません。データは決して欧州連合を離れません。
anonymize.todayは1つのテキスト内の複数の言語をどのように処理しますか?
anonymize.todayは、文書の主要言語を特定するための自動言語検出をサポートしています。多言語のテキストの場合、ユーザーは言語の境界を越えてエンティティタイプを組み合わせたカスタムプリセットを作成できます。このプラットフォームは、spaCy、Stanza、Transformerモデルを使用して27のPII検出言語をサポートしており、同じ文書内でドイツの税番号、フランスのNIR番号、または日本のマイナンバーIDのような国特有のエンティティの検出を可能にします。