PII Analyzer

Opdag personligt identificerbare oplysninger i din tekst

PII Analyzer scanner din tekst og identificerer følsomme oplysninger som navne, e-mails, telefonnumre, adresser og mere.

Sådan fungerer det

Analyseren bruger flere detektionsmetoder til at identificere PII:

Mønster Matching

Regulære udtryk opdager strukturerede data som e-mailadresser, telefonnumre, kreditkort og IBAN'er med høj nøjagtighed.

Maskinlæring (NER)

Navngivne enhedsgenkendelsesmodeller identificerer kontekstafhængige enheder som personnavne, organisationer og steder ved hjælp af spaCy, Stanza og Transformers.

Checksum Validering

Kreditkort, IBAN'er og andre finansielle identifikatorer valideres ved hjælp af checksum-algoritmer (Luhn, MOD-97) for at reducere falske positiver.

Brug af Analyseren

Trin 1: Indtast din tekst

Naviger til Anonymiseringssiden
Indsæt eller skriv din tekst i inputområdet
Grænsefladen viser et tegnantal og en tokenestimat

Trin 2: Vælg Enhedstyper

Vælg hvilke typer PII der skal detekteres:

Enhedstyper	Vi understøtter 256 enhedstyper organiseret i 10 kategorier:	Tekst - Den faktiske tekst, der blev identificeret som PII
Personlige - Navne, e-mails, telefonnumre, fødselsdatoer	PERSON, EMAIL_ADDRESS, PHONE_NUMBER	John Doe, john@email.com
Finansielle - Kreditkort, bankkonti, IBAN, kryptovaluta tegnebøger	CREDIT_CARD, IBAN_CODE, SWIFT_CODE	4111-1111-1111-1111
Placering - Adresser, byer, lande, koordinater	LOCATION, ADDRESS, COORDINATES	123 Main St, New York
Regering - CPR-numre, pasnumre, kørekort, nationale ID'er	SSN, PASSPORT, DRIVER_LICENSE	123-45-6789
Teknisk - IP-adresser, MAC-adresser, enheds-ID'er	IP_ADDRESS, MAC_ADDRESS	192.168.1.1

I stedet for at vælge enheder manuelt, brug Præindstillinger til hurtigt at anvende almindelige enhedskonfigurationer som "GDPR Compliance" eller "Finansielle Data".

Instead of selecting entities manually, use Præindstillinger to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Trin 3: Vælg Sprog

Vælg sproget for din tekst for optimal detektionsnøjagtighed:

Automatisk detektion - Lad systemet bestemme sproget - Let the system determine the language
Specifikt sprog - Vælg blandt 27 understøttede sprog - Select from 27 supported languages

Sprogvalg er vigtigt

At vælge det korrekte sprog forbedrer signifikant detektionsnøjagtigheden, især for personnavne og steder.

Trin 4: Kør Analyse

Klik på Analyser-knappen
Vent på, at analysen er færdig (typisk 1-3 sekunder)
Gennemgå de detekterede enheder i resultaterne

Forstå Resultater

Efter analysen viser hver detekteret enhed:

PERSONJohn Doetillid

Position: tegn

Resultatfelter

Enhedstype - Kategorien af PII, der er detekteret (PERSON, EMAIL, osv.) - The category of PII detected (PERSON, EMAIL, etc.)
Tekst - Den faktiske tekst, der blev identificeret som PII - The actual text that was identified as PII
Tillidsscore - Hvor sikker systemet er (0-100%) - How certain the system is (0-100%)
Position - Start- og sluttegnpositioner - Start and end character positions

Tillidstærskel

Juster tillidstærsklen for at kontrollere følsomhed:

Tærskel	Effekt	Bedst til
Lav	Flere enheder detekteret, flere falske positiver	Maksimal dækning, manuel gennemgang
Standard	Balanceret detektion og nøjagtighed	Generelt brug
Høj	Færre enheder, højere tillid	Automatiseret behandling
Meget høj	Kun meget sikre match	Minimal indgriben

Valg af Resultater

Efter analysen kan du forfine, hvilke enheder der skal anonymiseres:

Vælg/Fjern valg af alle

Brug afkrydsningsfeltet i headeren til at vælge eller fjerne valg af alle resultater
Kun valgte enheder vil blive anonymiseret

Individuelt valg

Klik på individuelle afkrydsningsfelter for at inkludere/ekskludere specifikke enheder
Nyttigt når analysatoren opdager falske positiver
Nyttigt når du vil holde visse oplysninger synlige

Filtrer efter type

Klik på en enhedstype-badge for at filtrere resultater efter den type
Vælg hurtigt/fjern valg af alle enheder af en specifik type

Gennemgå resultaterne før anonymisering. Analysatoren kan lejlighedsvis opdage falske positiver, især for navne, der også er almindelige ord.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.

Tokenomkostninger

Analyseoperationer forbruger tokens baseret på:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

text_k = Tekstlængde
entities_enabled = Enheder
entities_found = number of entities detected

Typisk omkostning

Tekstlængde	Enheder	Typisk omkostning
100 characters	3 types, 2 found	2 tokens
1,000 characters	5 types, 5 found	3 tokens
5,000 characters	10 types, 15 found	6 tokens
10,000 characters	15 types, 30 found	10 tokens

Token System dokumentation Token System documentation for complete pricing details.

Bedste Praksis

✅Vælg kun de enhedstyper, du har brug for - reducerer omkostninger og falske positiver

✅Brug sprog-specifikke præindstillinger for bedre nøjagtighed i ikke-engelsk tekst

✅Gennemgå resultaterne før anonymisering, især for navne og steder

✅Brug højere tillidstærskler til automatiseret behandling

✅Behandl tekst i rimelige bidder (under 10.000 tegn) for bedst ydeevne

Fejlfinding

Enhed ikke detekteret?

Sørg for, at enhedstypen er aktiveret i dit valg
Prøv at sænke tillidstærsklen
Kontroller, at det korrekte sprog er valgt
Bekræft, at tekstformatet matcher forventede mønstre

For mange falske positiver?

Øg tillidstærsklen
Fjern valg af brede enhedstyper som BELIGGENHED
Brug enhedsspecifikke præindstillinger i stedet for at vælge alle

Analyse tager for lang tid?

Opdel store tekster i mindre bidder
Reducer antallet af valgte enhedstyper
Brug præindstillinger for at undgå at indlæse ubrugte detektionsmodeller

Next Steps

Anonymiseringsguide

Lær hvordan man anonymiserer detekterede enheder

Præindstillinger

Gem og genbrug enhedskonfigurationer

Sidst opdateret: Marts 2026