PII Analyzer
Oppdag personlig identifiserbar informasjon i teksten din
PII Analyzer skanner teksten din og identifiserer sensitiv informasjon som navn, e-poster, telefonnumre, adresser, og mer.
Hvordan det fungerer
Analyzer bruker flere deteksjonsmetoder for å identifisere PII:
Mønster Matching
Regulære uttrykk oppdager strukturerte data som e-postadresser, telefonnumre, kredittkort og IBAN med høy nøyaktighet.
Maskinlæring (NER)
Modeller for navngitt entitetsgjenkjenning identifiserer kontekstavhengige enheter som personnavn, organisasjoner og steder ved hjelp av spaCy, Stanza og Transformers.
Kontrollsum Validering
Kredittkort, IBAN og andre finansielle identifikatorer valideres ved hjelp av kontrollsum-algoritmer (Luhn, MOD-97) for redusert antall falske positiver.
Bruke Analyzer
Trinn 1: Skriv inn teksten din
- Naviger til Anonymiser siden
- Lim inn eller skriv inn teksten din i inndatakategorien
- Grensesnittet viser et tegnantall og en token-estimering
Trinn 2: Velg enhetstyper
Velg hvilke typer PII som skal oppdages:
| Enhetstyper | Vi støtter 256 enhetstyper organisert i 10 kategorier: | Tekst - Den faktiske teksten som ble identifisert som PII |
|---|---|---|
| Personlig - Navn, e-poster, telefonnumre, fødselsdatoer | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Finansiell - Kredittkort, bankkontoer, IBAN, kryptovaluta-lommebøker | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Sted - Adresser, byer, land, koordinater | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Regjering - SSN, passnumre, førerkort, nasjonale ID-er | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Teknisk - IP-adresser, MAC-adresser, enhets-ID-er | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
I stedet for å velge enheter manuelt, bruk Presets for raskt å bruke vanlige enhetskonfigurasjoner som "GDPR-samsvar" eller "Finansielle data".
Instead of selecting entities manually, use Presets to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Trinn 3: Velg språk
Velg språket til teksten din for optimal deteksjonsnøyaktighet:
- Automatisk oppdagelse - La systemet bestemme språket - Let the system determine the language
- Spesifikt språk - Velg fra 27 støttede språk - Select from 27 supported languages
Språkvalg er viktig
Å velge riktig språk forbedrer deteksjonsnøyaktigheten betydelig, spesielt for personnavn og steder.
Trinn 4: Kjør analyse
- Klikk på Analyser-knappen
- Vent på at analysen er fullført (typisk 1-3 sekunder)
- Gå gjennom de oppdagede enhetene i resultatspanelet
Forstå resultater
Etter analysen viser hver oppdaget enhet:
Posisjon: tegn
Resultatfelt
- Enhetstype - Kategori av PII oppdaget (PERSON, E-POST, osv.) - The category of PII detected (PERSON, EMAIL, etc.)
- Tekst - Den faktiske teksten som ble identifisert som PII - The actual text that was identified as PII
- Konfidenspoeng - Hvor sikker systemet er (0-100%) - How certain the system is (0-100%)
- Posisjon - Start- og slutttegnposisjoner - Start and end character positions
Konfidensgrense
Juster konfidensgrensen for å kontrollere sensitivitet:
| Grense | Effekt | Best for |
|---|---|---|
| Lav | Flere enheter oppdaget, flere falske positiver | Maksimal dekning, manuell gjennomgang |
| Standard | Balansert deteksjon og nøyaktighet | Generell bruk |
| Høy | Færre enheter, høyere konfidens | Automatisert behandling |
| Veldig høy | Kun svært sikre treff | Minimal intervensjon |
Velge resultater
Etter analysen kan du finjustere hvilke enheter som skal anonymiseres:
Velg/Deselekter alle
- Bruk avkrysningsboksen i overskriften for å velge eller deselectere alle resultater
- Kun valgte enheter vil bli anonymisert
Individuell valg
- Klikk på individuelle avkrysningsbokser for å inkludere/ekskludere spesifikke enheter
- Nyttig når analysatoren oppdager falske positiver
- Nyttig når du ønsker å holde viss informasjon synlig
Filtrer etter type
- Klikk på enhetstype-merket for å filtrere resultater etter den typen
- Raskt velge/deselektere alle enheter av en spesifikk type
Gå gjennom resultater før anonymisering. Analysatoren kan av og til oppdage falske positiver, spesielt for navn som også er vanlige ord.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Tokenkostnader
Analyseoperasjoner bruker tokens basert på:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Tekstlengdeentities_enabled= Enheterentities_found= number of entities detected
Typisk kostnad
| Tekstlengde | Enheter | Typisk kostnad |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Token-systemdokumentasjon Token System documentation for complete pricing details.
Beste praksis
Feilsøking
Enhet ikke oppdaget?
- Sørg for at enhetstypen er aktivert i valget ditt
- Prøv å senke konfidensgrensen
- Sjekk at riktig språk er valgt
- Bekreft at tekstformatet samsvarer med forventede mønstre
For mange falske positiver?
- Øk konfidensgrensen
- Deselekter brede enhetstyper som STED
- Bruk enhetsspesifikke presets i stedet for å velge alle
Analyse tar for lang tid?
- Del store tekster i mindre biter
- Reduser antall valgte enhetstyper
- Bruk presets for å unngå å laste inn ubrukte deteksjonsmodeller
Next Steps
Sist oppdatert: Mars 2026