common.skipToContent

Analyseur de PII

Détectez les informations personnellement identifiables dans votre texte

L'analyseur de PII scanne votre texte et identifie des informations sensibles telles que des noms, des emails, des numéros de téléphone, des adresses, et plus encore.


Comment ça fonctionne

L'Analyseur utilise plusieurs méthodes de détection pour identifier les PII :

Correspondance de Modèle

Les expressions régulières détectent les données structurées comme les adresses e-mail, les numéros de téléphone, les cartes de crédit et les IBAN avec une grande précision.

Apprentissage Automatique (NER)

Les modèles de Reconnaissance d'Entités Nommées identifient des entités dépendantes du contexte comme les noms de personnes, les organisations et les lieux en utilisant spaCy, Stanza et Transformers.

Validation de Somme de Contrôle

Les cartes de crédit, les IBAN et d'autres identifiants financiers sont validés à l'aide d'algorithmes de somme de contrôle (Luhn, MOD-97) pour réduire les faux positifs.


Utilisation de l'Analyseur

Étape 1 : Entrez Votre Texte

  1. Accédez à la page Anonymiser
  2. Collez ou tapez votre texte dans la zone de saisie
  3. L'interface affiche un compte de caractères et une estimation des tokens

Étape 2 : Sélectionnez les Types d'Entités

Choisissez quels types de PII détecter :

Types d'entitésNous supportons 256 types d'entités organisés en 10 catégories :Texte - Le texte réel identifié comme PII
Personnel - Noms, emails, numéros de téléphone, dates de naissancePERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Financier - Cartes de crédit, comptes bancaires, IBAN, portefeuilles cryptoCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Localisation - Adresses, villes, pays, coordonnéesLOCATION, ADDRESS, COORDINATES123 Main St, New York
Gouvernement - SSN, numéros de passeport, permis de conduire, identifiants nationauxSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Technique - Adresses IP, adresses MAC, identifiants de dispositifsIP_ADDRESS, MAC_ADDRESS192.168.1.1

Au lieu de sélectionner des entités manuellement, utilisez des Préréglages pour appliquer rapidement des configurations d'entités courantes comme "Conformité GDPR" ou "Données Financières".

Instead of selecting entities manually, use Préréglages to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Étape 3 : Sélectionnez la Langue

Choisissez la langue de votre texte pour une précision de détection optimale :

  • Détection automatique - Laissez le système déterminer la langue - Let the system determine the language
  • Langue spécifique - Sélectionnez parmi 27 langues prises en charge - Select from 27 supported languages

La Sélection de Langue Est Importante

Sélectionner la langue correcte améliore considérablement la précision de détection, en particulier pour les noms de personnes et les lieux.

Étape 4 : Exécuter l'Analyse

  1. Cliquez sur le bouton Analyser
  2. Attendez que l'analyse soit terminée (généralement 1 à 3 secondes)
  3. Examinez les entités détectées dans le panneau de résultats

Comprendre les Résultats

Après l'analyse, chaque entité détectée montre :

PERSONJohn Doeconfiance

Position : caractères

Champs de Résultat

  • Type d'Entité - La catégorie de PII détectée (PERSONNE, EMAIL, etc.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Texte - Le texte réel identifié comme PII - The actual text that was identified as PII
  • Score de Confiance - À quel point le système est certain (0-100%) - How certain the system is (0-100%)
  • Position - Positions de caractères de début et de fin - Start and end character positions

Seuil de Confiance

Ajustez le seuil de confiance pour contrôler la sensibilité :

SeuilEffetMeilleur Pour
FaiblePlus d'entités détectées, plus de faux positifsCouverture maximale, révision manuelle
Par défautDétection et précision équilibréesUtilisation générale
ÉlevéMoins d'entités, plus de confianceTraitement automatisé
Très ÉlevéUniquement des correspondances très confiantesIntervention minimale

Sélectionner les Résultats

Après l'analyse, vous pouvez affiner quelles entités anonymiser :

Sélectionner/Désélectionner Tout

  • Utilisez la case à cocher dans l'en-tête pour sélectionner ou désélectionner tous les résultats
  • Seules les entités sélectionnées seront anonymisées

Sélection Individuelle

  • Cliquez sur les cases à cocher individuelles pour inclure/exclure des entités spécifiques
  • Utile lorsque l'analyseur détecte des faux positifs
  • Utile lorsque vous souhaitez garder certaines informations visibles

Filtrer par Type

  • Cliquez sur un badge de type d'entité pour filtrer les résultats par ce type
  • Sélectionnez/désélectionnez rapidement toutes les entités d'un type spécifique

Examinez les résultats avant d'anonymiser. L'analyseur peut parfois détecter des faux positifs, en particulier pour les noms qui sont aussi des mots courants.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Coûts des Tokens

Les opérations d'analyse consomment des tokens en fonction de :

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Longueur du Texte
  • entities_enabled = Entités
  • entities_found = number of entities detected

Coût Typique

Longueur du TexteEntitésCoût Typique
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Documentation du Système de Tokens Token System documentation for complete pricing details.


Meilleures Pratiques

Sélectionnez uniquement les types d'entités dont vous avez besoin - réduit les coûts et les faux positifs
Utilisez des préréglages spécifiques à la langue pour une meilleure précision dans les textes non anglais
Examinez les résultats avant d'anonymiser, en particulier pour les noms et les lieux
Utilisez des seuils de confiance plus élevés pour le traitement automatisé
Traitez le texte en morceaux raisonnables (moins de 10 000 caractères) pour de meilleures performances

Dépannage

Entité non détectée ?

  • Assurez-vous que le type d'entité est activé dans votre sélection
  • Essayez de réduire le seuil de confiance
  • Vérifiez que la langue correcte est sélectionnée
  • Vérifiez que le format du texte correspond aux modèles attendus

Trop de faux positifs ?

  • Augmentez le seuil de confiance
  • Désélectionnez des types d'entités larges comme LOCALISATION
  • Utilisez des préréglages spécifiques aux entités au lieu de sélectionner tout

L'analyse prend trop de temps ?

  • Divisez les grands textes en morceaux plus petits
  • Réduisez le nombre de types d'entités sélectionnés
  • Utilisez des préréglages pour éviter de charger des modèles de détection inutilisés

Next Steps

Dernière mise à jour : Mars 2026