PII Analyzer
Opdag personligt identificerbare oplysninger i din tekst
PII Analyzer scanner din tekst og identificerer følsomme oplysninger som navne, e-mails, telefonnumre, adresser og mere.
Sådan fungerer det
Analyseren bruger flere detektionsmetoder til at identificere PII:
Mønster Matching
Regulære udtryk opdager strukturerede data som e-mailadresser, telefonnumre, kreditkort og IBAN'er med høj nøjagtighed.
Maskinlæring (NER)
Navngivne enhedsgenkendelsesmodeller identificerer kontekstafhængige enheder som personnavne, organisationer og steder ved hjælp af spaCy, Stanza og Transformers.
Checksum Validering
Kreditkort, IBAN'er og andre finansielle identifikatorer valideres ved hjælp af checksum-algoritmer (Luhn, MOD-97) for at reducere falske positiver.
Brug af Analyseren
Trin 1: Indtast din tekst
- Naviger til Anonymiseringssiden
- Indsæt eller skriv din tekst i inputområdet
- Grænsefladen viser et tegnantal og en tokenestimat
Trin 2: Vælg Enhedstyper
Vælg hvilke typer PII der skal detekteres:
| Enhedstyper | Vi understøtter 256 enhedstyper organiseret i 10 kategorier: | Tekst - Den faktiske tekst, der blev identificeret som PII |
|---|---|---|
| Personlige - Navne, e-mails, telefonnumre, fødselsdatoer | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Finansielle - Kreditkort, bankkonti, IBAN, kryptovaluta tegnebøger | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Placering - Adresser, byer, lande, koordinater | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Regering - CPR-numre, pasnumre, kørekort, nationale ID'er | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Teknisk - IP-adresser, MAC-adresser, enheds-ID'er | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
I stedet for at vælge enheder manuelt, brug Præindstillinger til hurtigt at anvende almindelige enhedskonfigurationer som "GDPR Compliance" eller "Finansielle Data".
Instead of selecting entities manually, use Præindstillinger to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Trin 3: Vælg Sprog
Vælg sproget for din tekst for optimal detektionsnøjagtighed:
- Automatisk detektion - Lad systemet bestemme sproget - Let the system determine the language
- Specifikt sprog - Vælg blandt 27 understøttede sprog - Select from 27 supported languages
Sprogvalg er vigtigt
At vælge det korrekte sprog forbedrer signifikant detektionsnøjagtigheden, især for personnavne og steder.
Trin 4: Kør Analyse
- Klik på Analyser-knappen
- Vent på, at analysen er færdig (typisk 1-3 sekunder)
- Gennemgå de detekterede enheder i resultaterne
Forstå Resultater
Efter analysen viser hver detekteret enhed:
Position: tegn
Resultatfelter
- Enhedstype - Kategorien af PII, der er detekteret (PERSON, EMAIL, osv.) - The category of PII detected (PERSON, EMAIL, etc.)
- Tekst - Den faktiske tekst, der blev identificeret som PII - The actual text that was identified as PII
- Tillidsscore - Hvor sikker systemet er (0-100%) - How certain the system is (0-100%)
- Position - Start- og sluttegnpositioner - Start and end character positions
Tillidstærskel
Juster tillidstærsklen for at kontrollere følsomhed:
| Tærskel | Effekt | Bedst til |
|---|---|---|
| Lav | Flere enheder detekteret, flere falske positiver | Maksimal dækning, manuel gennemgang |
| Standard | Balanceret detektion og nøjagtighed | Generelt brug |
| Høj | Færre enheder, højere tillid | Automatiseret behandling |
| Meget høj | Kun meget sikre match | Minimal indgriben |
Valg af Resultater
Efter analysen kan du forfine, hvilke enheder der skal anonymiseres:
Vælg/Fjern valg af alle
- Brug afkrydsningsfeltet i headeren til at vælge eller fjerne valg af alle resultater
- Kun valgte enheder vil blive anonymiseret
Individuelt valg
- Klik på individuelle afkrydsningsfelter for at inkludere/ekskludere specifikke enheder
- Nyttigt når analysatoren opdager falske positiver
- Nyttigt når du vil holde visse oplysninger synlige
Filtrer efter type
- Klik på en enhedstype-badge for at filtrere resultater efter den type
- Vælg hurtigt/fjern valg af alle enheder af en specifik type
Gennemgå resultaterne før anonymisering. Analysatoren kan lejlighedsvis opdage falske positiver, især for navne, der også er almindelige ord.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Tokenomkostninger
Analyseoperationer forbruger tokens baseret på:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Tekstlængdeentities_enabled= Enhederentities_found= number of entities detected
Typisk omkostning
| Tekstlængde | Enheder | Typisk omkostning |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Token System dokumentation Token System documentation for complete pricing details.
Bedste Praksis
Fejlfinding
Enhed ikke detekteret?
- Sørg for, at enhedstypen er aktiveret i dit valg
- Prøv at sænke tillidstærsklen
- Kontroller, at det korrekte sprog er valgt
- Bekræft, at tekstformatet matcher forventede mønstre
For mange falske positiver?
- Øg tillidstærsklen
- Fjern valg af brede enhedstyper som BELIGGENHED
- Brug enhedsspecifikke præindstillinger i stedet for at vælge alle
Analyse tager for lang tid?
- Opdel store tekster i mindre bidder
- Reducer antallet af valgte enhedstyper
- Brug præindstillinger for at undgå at indlæse ubrugte detektionsmodeller
Next Steps
Sidst opdateret: Marts 2026