common.skipToContent

PII-analysator

Upptäck personligt identifierbar information i din text

PII-analysatorn skannar din text och identifierar känslig information som namn, e-post, telefonnummer, adresser och mer.


Hur det fungerar

Analyzern använder flera detektionsmetoder för att identifiera PII:

Mönstermatchning

Reguljära uttryck upptäcker strukturerad data som e-postadresser, telefonnummer, kreditkort och IBAN med hög noggrannhet.

Maskininlärning (NER)

Modeller för Namnigenkänning identifierar kontextberoende enheter som personnamn, organisationer och platser med hjälp av spaCy, Stanza och Transformers.

Kontrollsummevalidering

Kreditkort, IBAN och andra finansiella identifierare valideras med hjälp av kontrollsummealgoritmer (Luhn, MOD-97) för att minska falska positiva.


Använda Analyzern

Steg 1: Ange Din Text

  1. Navigera till Anonymisera-sidan
  2. Klistra in eller skriv din text i inmatningsområdet
  3. Gränssnittet visar en teckenräkning och en uppskattning av token

Steg 2: Välj Enhetstyper

Välj vilka typer av PII som ska upptäckas:

EnhetstyperVi stöder 256 enhetstyper organiserade i 10 kategorier:Text - Den faktiska text som identifierades som PII
Personlig - Namn, e-post, telefonnummer, födelsedatumPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Finansiell - Kreditkort, bankkonton, IBAN, kryptovaluta plånböckerCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Plats - Adresser, städer, länder, koordinaterLOCATION, ADDRESS, COORDINATES123 Main St, New York
Statlig - SSN, passnummer, körkort, nationella IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Teknisk - IP-adresser, MAC-adresser, enhets-IDIP_ADDRESS, MAC_ADDRESS192.168.1.1

Istället för att välja enheter manuellt, använd Förinställningar för att snabbt tillämpa vanliga enhetskonfigurationer som "GDPR-efterlevnad" eller "Finansiella Data".

Instead of selecting entities manually, use Förinställningar to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Steg 3: Välj Språk

Välj språket för din text för optimal detektionsnoggrannhet:

  • Automatisk detektion - Låt systemet bestämma språket - Let the system determine the language
  • Specifikt språk - Välj från 27 stödda språk - Select from 27 supported languages

Språkval är Viktigt

Att välja rätt språk förbättrar avsevärt detektionsnoggrannheten, särskilt för personnamn och platser.

Steg 4: Kör Analys

  1. Klicka på Analysera-knappen
  2. Vänta på att analysen ska slutföras (vanligtvis 1-3 sekunder)
  3. Granska de upptäckta enheterna i resultatpanelen

Förstå Resultat

Efter analys visar varje upptäckt enhet:

PERSONJohn Doekonfidens

Position: tecken

Resultatfält

  • Enhetstyp - Kategorin av PII som upptäckts (PERSON, EMAIL, etc.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Text - Den faktiska text som identifierades som PII - The actual text that was identified as PII
  • Konfidenspoäng - Hur säker systemet är (0-100%) - How certain the system is (0-100%)
  • Position - Start- och slutteckenpositioner - Start and end character positions

Konfidensgräns

Justera konfidensgränsen för att kontrollera känslighet:

GränsEffektBäst för
LågFler enheter upptäckta, fler falska positivaMaximal täckning, manuell granskning
StandardBalanserad detektion och noggrannhetAllmänt bruk
HögFärre enheter, högre konfidensAutomatiserad bearbetning
Mycket HögEndast mycket säkra träffarMinimal intervention

Välja Resultat

Efter analys kan du förfina vilka enheter som ska anonymiseras:

Välj/Deselektera Alla

  • Använd kryssrutan i rubriken för att välja eller deselektera alla resultat
  • Endast valda enheter kommer att anonymiseras

Individuell Val

  • Klicka på individuella kryssrutor för att inkludera/exkludera specifika enheter
  • Användbart när analyzern upptäcker falska positiva
  • Användbart när du vill behålla viss information synlig

Filtrera efter Typ

  • Klicka på en enhetstyp-badge för att filtrera resultat efter den typen
  • Välj/deselektera snabbt alla enheter av en specifik typ

Granska resultat innan anonymisering. Analyzern kan ibland upptäcka falska positiva, särskilt för namn som också är vanliga ord.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Tokenkostnader

Analysoperationer förbrukar tokens baserat på:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Textlängd
  • entities_enabled = Enheter
  • entities_found = number of entities detected

Typisk Kostnad

TextlängdEnheterTypisk Kostnad
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Token System dokumentation Token System documentation for complete pricing details.


Bästa Praxis

Välj endast de enhetstyper du behöver - minskar kostnader och falska positiva
Använd språk-specifika förinställningar för bättre noggrannhet i icke-engelska texter
Granska resultat innan anonymisering, särskilt för namn och platser
Använd högre konfidensgränser för automatiserad bearbetning
Bearbeta text i rimliga bitar (under 10 000 tecken) för bästa prestanda

Felsökning

Enhet inte upptäckt?

  • Se till att enhetstypen är aktiverad i ditt val
  • Försök sänka konfidensgränsen
  • Kontrollera att rätt språk är valt
  • Verifiera att textformatet matchar förväntade mönster

För många falska positiva?

  • Öka konfidensgränsen
  • Deselektera breda enhetstyper som PLATS
  • Använd enhetsspecifika förinställningar istället för att välja alla

Analysen tar för lång tid?

  • Dela stora texter i mindre bitar
  • Minska antalet valda enhetstyper
  • Använd förinställningar för att undvika att ladda oanvända detektionsmodeller

Next Steps

Senast uppdaterad: Mars 2026