common.skipToContent

PII Analyzer

Oppdag personlig identifiserbar informasjon i teksten din

PII Analyzer skanner teksten din og identifiserer sensitiv informasjon som navn, e-poster, telefonnumre, adresser, og mer.


Hvordan det fungerer

Analyzer bruker flere deteksjonsmetoder for å identifisere PII:

Mønster Matching

Regulære uttrykk oppdager strukturerte data som e-postadresser, telefonnumre, kredittkort og IBAN med høy nøyaktighet.

Maskinlæring (NER)

Modeller for navngitt entitetsgjenkjenning identifiserer kontekstavhengige enheter som personnavn, organisasjoner og steder ved hjelp av spaCy, Stanza og Transformers.

Kontrollsum Validering

Kredittkort, IBAN og andre finansielle identifikatorer valideres ved hjelp av kontrollsum-algoritmer (Luhn, MOD-97) for redusert antall falske positiver.


Bruke Analyzer

Trinn 1: Skriv inn teksten din

  1. Naviger til Anonymiser siden
  2. Lim inn eller skriv inn teksten din i inndatakategorien
  3. Grensesnittet viser et tegnantall og en token-estimering

Trinn 2: Velg enhetstyper

Velg hvilke typer PII som skal oppdages:

EnhetstyperVi støtter 256 enhetstyper organisert i 10 kategorier:Tekst - Den faktiske teksten som ble identifisert som PII
Personlig - Navn, e-poster, telefonnumre, fødselsdatoerPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Finansiell - Kredittkort, bankkontoer, IBAN, kryptovaluta-lommebøkerCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Sted - Adresser, byer, land, koordinaterLOCATION, ADDRESS, COORDINATES123 Main St, New York
Regjering - SSN, passnumre, førerkort, nasjonale ID-erSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Teknisk - IP-adresser, MAC-adresser, enhets-ID-erIP_ADDRESS, MAC_ADDRESS192.168.1.1

I stedet for å velge enheter manuelt, bruk Presets for raskt å bruke vanlige enhetskonfigurasjoner som "GDPR-samsvar" eller "Finansielle data".

Instead of selecting entities manually, use Presets to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Trinn 3: Velg språk

Velg språket til teksten din for optimal deteksjonsnøyaktighet:

  • Automatisk oppdagelse - La systemet bestemme språket - Let the system determine the language
  • Spesifikt språk - Velg fra 27 støttede språk - Select from 27 supported languages

Språkvalg er viktig

Å velge riktig språk forbedrer deteksjonsnøyaktigheten betydelig, spesielt for personnavn og steder.

Trinn 4: Kjør analyse

  1. Klikk på Analyser-knappen
  2. Vent på at analysen er fullført (typisk 1-3 sekunder)
  3. Gå gjennom de oppdagede enhetene i resultatspanelet

Forstå resultater

Etter analysen viser hver oppdaget enhet:

PERSONJohn Doekonfidens

Posisjon: tegn

Resultatfelt

  • Enhetstype - Kategori av PII oppdaget (PERSON, E-POST, osv.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Tekst - Den faktiske teksten som ble identifisert som PII - The actual text that was identified as PII
  • Konfidenspoeng - Hvor sikker systemet er (0-100%) - How certain the system is (0-100%)
  • Posisjon - Start- og slutttegnposisjoner - Start and end character positions

Konfidensgrense

Juster konfidensgrensen for å kontrollere sensitivitet:

GrenseEffektBest for
LavFlere enheter oppdaget, flere falske positiverMaksimal dekning, manuell gjennomgang
StandardBalansert deteksjon og nøyaktighetGenerell bruk
HøyFærre enheter, høyere konfidensAutomatisert behandling
Veldig høyKun svært sikre treffMinimal intervensjon

Velge resultater

Etter analysen kan du finjustere hvilke enheter som skal anonymiseres:

Velg/Deselekter alle

  • Bruk avkrysningsboksen i overskriften for å velge eller deselectere alle resultater
  • Kun valgte enheter vil bli anonymisert

Individuell valg

  • Klikk på individuelle avkrysningsbokser for å inkludere/ekskludere spesifikke enheter
  • Nyttig når analysatoren oppdager falske positiver
  • Nyttig når du ønsker å holde viss informasjon synlig

Filtrer etter type

  • Klikk på enhetstype-merket for å filtrere resultater etter den typen
  • Raskt velge/deselektere alle enheter av en spesifikk type

Gå gjennom resultater før anonymisering. Analysatoren kan av og til oppdage falske positiver, spesielt for navn som også er vanlige ord.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Tokenkostnader

Analyseoperasjoner bruker tokens basert på:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Tekstlengde
  • entities_enabled = Enheter
  • entities_found = number of entities detected

Typisk kostnad

TekstlengdeEnheterTypisk kostnad
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Token-systemdokumentasjon Token System documentation for complete pricing details.


Beste praksis

Velg kun de enhetstypene du trenger - reduserer kostnader og falske positiver
Bruk språkspesifikke presets for bedre nøyaktighet i ikke-engelsk tekst
Gå gjennom resultater før anonymisering, spesielt for navn og steder
Bruk høyere konfidensgrenser for automatisert behandling
Behandle tekst i rimelige biter (under 10 000 tegn) for best ytelse

Feilsøking

Enhet ikke oppdaget?

  • Sørg for at enhetstypen er aktivert i valget ditt
  • Prøv å senke konfidensgrensen
  • Sjekk at riktig språk er valgt
  • Bekreft at tekstformatet samsvarer med forventede mønstre

For mange falske positiver?

  • Øk konfidensgrensen
  • Deselekter brede enhetstyper som STED
  • Bruk enhetsspesifikke presets i stedet for å velge alle

Analyse tar for lang tid?

  • Del store tekster i mindre biter
  • Reduser antall valgte enhetstyper
  • Bruk presets for å unngå å laste inn ubrukte deteksjonsmodeller

Next Steps

Sist oppdatert: Mars 2026