common.skipToContent

PII Analyzer

Opdag personligt identificerbare oplysninger i din tekst

PII Analyzer scanner din tekst og identificerer følsomme oplysninger som navne, e-mails, telefonnumre, adresser og mere.


Sådan fungerer det

Analyseren bruger flere detektionsmetoder til at identificere PII:

Mønster Matching

Regulære udtryk opdager strukturerede data som e-mailadresser, telefonnumre, kreditkort og IBAN'er med høj nøjagtighed.

Maskinlæring (NER)

Navngivne enhedsgenkendelsesmodeller identificerer kontekstafhængige enheder som personnavne, organisationer og steder ved hjælp af spaCy, Stanza og Transformers.

Checksum Validering

Kreditkort, IBAN'er og andre finansielle identifikatorer valideres ved hjælp af checksum-algoritmer (Luhn, MOD-97) for at reducere falske positiver.


Brug af Analyseren

Trin 1: Indtast din tekst

  1. Naviger til Anonymiseringssiden
  2. Indsæt eller skriv din tekst i inputområdet
  3. Grænsefladen viser et tegnantal og en tokenestimat

Trin 2: Vælg Enhedstyper

Vælg hvilke typer PII der skal detekteres:

EnhedstyperVi understøtter 256 enhedstyper organiseret i 10 kategorier:Tekst - Den faktiske tekst, der blev identificeret som PII
Personlige - Navne, e-mails, telefonnumre, fødselsdatoerPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Finansielle - Kreditkort, bankkonti, IBAN, kryptovaluta tegnebøgerCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Placering - Adresser, byer, lande, koordinaterLOCATION, ADDRESS, COORDINATES123 Main St, New York
Regering - CPR-numre, pasnumre, kørekort, nationale ID'erSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Teknisk - IP-adresser, MAC-adresser, enheds-ID'erIP_ADDRESS, MAC_ADDRESS192.168.1.1

I stedet for at vælge enheder manuelt, brug Præindstillinger til hurtigt at anvende almindelige enhedskonfigurationer som "GDPR Compliance" eller "Finansielle Data".

Instead of selecting entities manually, use Præindstillinger to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Trin 3: Vælg Sprog

Vælg sproget for din tekst for optimal detektionsnøjagtighed:

  • Automatisk detektion - Lad systemet bestemme sproget - Let the system determine the language
  • Specifikt sprog - Vælg blandt 27 understøttede sprog - Select from 27 supported languages

Sprogvalg er vigtigt

At vælge det korrekte sprog forbedrer signifikant detektionsnøjagtigheden, især for personnavne og steder.

Trin 4: Kør Analyse

  1. Klik på Analyser-knappen
  2. Vent på, at analysen er færdig (typisk 1-3 sekunder)
  3. Gennemgå de detekterede enheder i resultaterne

Forstå Resultater

Efter analysen viser hver detekteret enhed:

PERSONJohn Doetillid

Position: tegn

Resultatfelter

  • Enhedstype - Kategorien af PII, der er detekteret (PERSON, EMAIL, osv.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Tekst - Den faktiske tekst, der blev identificeret som PII - The actual text that was identified as PII
  • Tillidsscore - Hvor sikker systemet er (0-100%) - How certain the system is (0-100%)
  • Position - Start- og sluttegnpositioner - Start and end character positions

Tillidstærskel

Juster tillidstærsklen for at kontrollere følsomhed:

TærskelEffektBedst til
LavFlere enheder detekteret, flere falske positiverMaksimal dækning, manuel gennemgang
StandardBalanceret detektion og nøjagtighedGenerelt brug
HøjFærre enheder, højere tillidAutomatiseret behandling
Meget højKun meget sikre matchMinimal indgriben

Valg af Resultater

Efter analysen kan du forfine, hvilke enheder der skal anonymiseres:

Vælg/Fjern valg af alle

  • Brug afkrydsningsfeltet i headeren til at vælge eller fjerne valg af alle resultater
  • Kun valgte enheder vil blive anonymiseret

Individuelt valg

  • Klik på individuelle afkrydsningsfelter for at inkludere/ekskludere specifikke enheder
  • Nyttigt når analysatoren opdager falske positiver
  • Nyttigt når du vil holde visse oplysninger synlige

Filtrer efter type

  • Klik på en enhedstype-badge for at filtrere resultater efter den type
  • Vælg hurtigt/fjern valg af alle enheder af en specifik type

Gennemgå resultaterne før anonymisering. Analysatoren kan lejlighedsvis opdage falske positiver, især for navne, der også er almindelige ord.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Tokenomkostninger

Analyseoperationer forbruger tokens baseret på:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Tekstlængde
  • entities_enabled = Enheder
  • entities_found = number of entities detected

Typisk omkostning

TekstlængdeEnhederTypisk omkostning
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Token System dokumentation Token System documentation for complete pricing details.


Bedste Praksis

Vælg kun de enhedstyper, du har brug for - reducerer omkostninger og falske positiver
Brug sprog-specifikke præindstillinger for bedre nøjagtighed i ikke-engelsk tekst
Gennemgå resultaterne før anonymisering, især for navne og steder
Brug højere tillidstærskler til automatiseret behandling
Behandl tekst i rimelige bidder (under 10.000 tegn) for bedst ydeevne

Fejlfinding

Enhed ikke detekteret?

  • Sørg for, at enhedstypen er aktiveret i dit valg
  • Prøv at sænke tillidstærsklen
  • Kontroller, at det korrekte sprog er valgt
  • Bekræft, at tekstformatet matcher forventede mønstre

For mange falske positiver?

  • Øg tillidstærsklen
  • Fjern valg af brede enhedstyper som BELIGGENHED
  • Brug enhedsspecifikke præindstillinger i stedet for at vælge alle

Analyse tager for lang tid?

  • Opdel store tekster i mindre bidder
  • Reducer antallet af valgte enhedstyper
  • Brug præindstillinger for at undgå at indlæse ubrugte detektionsmodeller

Next Steps

Sidst opdateret: Marts 2026