なぜAIではなく正規表現なのか?
規制コンプライアンスのためには、説明可能で再現可能な結果が必要です。私たちの決定論的アプローチは、まさにそれを提供します—ブラックボックスもサプライズもありません。
詳細な比較
| Aspect | 正規表現ベース(私たち) | AI/MLベース |
|---|---|---|
| 再現性 | 100%同一の結果 | 結果は異なる場合があります |
| 監査可能性 | 完全に説明可能 | ブラックボックス |
| トレーニングデータ | 不要 | 大規模なデータセットが必要 |
| モデルドリフト | なし—パターンは固定されています | 時間の経過とともに劣化 |
| パフォーマンス | 迅速で予測可能 | 変動があり、GPU依存 |
| 計算コスト | 低(CPUのみ) | 高(GPUが必要な場合が多い) |
| 規制コンプライアンス | 簡単に示せる | 証明が難しい |
パターンマッチングの仕組み
各エンティティタイプには、特定のフォーマットに一致するように慎重に作成された正規表現パターンがあります。
メールアドレス
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}標準的なメールフォーマットに一致します:local-part@domain.tld
クレジットカード番号
\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\bVisa、Mastercard、Amex、その他のカードフォーマットに一致し、Luhn検証を行います
ドイツのIBAN
DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}オプションのスペースを含むドイツのIBANフォーマットに一致します
コンプライアンスのために構築
監査人が「なぜこれが検出されたのか?」と尋ねるとき、明確な回答が必要です。私たちの正規表現ベースのアプローチは、まさにそれを提供します。
- GDPR第25条:説明可能な処理によるプライバシー設計
- ISO 27001:文書化された再現可能なプロセス
- 監査証跡:すべての検出は特定のパターンに追跡可能
監査回答の例
Q: なぜ「john.smith@company.com」がフラグされたのですか?
A: 位置45-68でメールパターンに一致し、信頼度0.95。パターン:標準的なメールフォーマット検証。
オープンソースによる提供
世界中の数千の組織に信頼されている業界をリードするオープンソース技術に基づいて構築されています。
Microsoft Presidio
Microsoftが開発したエンタープライズグレードのPII検出および匿名化エンジンで、複数の言語での機密データの正確な特定を提供します。
github.com/microsoft/presidioHugging Face Transformers
アラビア語、ヒンディー語、トルコ語のエンティティ認識を強化する最先端のトランスフォーマーモデルです。
huggingface.co/transformersReact & Next.js
迅速でアクセス可能なユーザーインターフェースを提供するモダンなWebフレームワークで、最適なパフォーマンスのためのサーバーサイドレンダリングを行います。
nextjs.orgすべての商標はそれぞれの所有者の財産です。 私たちの 利用規約 の完全な帰属を参照してください。