common.skipToContent

PII Analizator

Otkrivanje osobno identificirajućih informacija u vašem tekstu

PII Analizator skenira vaš tekst i identificira osjetljive informacije poput imena, e-mailova, brojeva telefona, adresa i još mnogo toga.


Kako to radi

Analizator koristi više metoda otkrivanja za identifikaciju PII:

Usklađivanje obrazaca

Regularni izrazi otkrivaju strukturirane podatke poput adresa e-pošte, brojeva telefona, kreditnih kartica i IBAN-ova s visokom točnošću.

Strojno učenje (NER)

Modeli prepoznavanja imenskih entiteta identificiraju entitete ovisne o kontekstu poput imena osoba, organizacija i lokacija koristeći spaCy, Stanza i Transformere.

Validacija kontrolnog zbroja

Kreditne kartice, IBAN-ovi i drugi financijski identifikatori validiraju se pomoću algoritama kontrolnog zbroja (Luhn, MOD-97) radi smanjenja lažno pozitivnih rezultata.


Korištenje Analizatora

Korak 1: Unesite svoj tekst

  1. Idite na stranicu Anonimiziraj
  2. Zalijepite ili upišite svoj tekst u ulazno područje
  3. Sučelje prikazuje broj znakova i procjenu tokena

Korak 2: Odaberite vrste entiteta

Odaberite koje vrste PII želite otkriti:

Tipovi entitetaPodržavamo 256 tipova entiteta organiziranih u 10 kategorija:Tekst - Stvarni tekst koji je identificiran kao PII
Osobni - Imena, e-mailovi, brojevi telefona, datumi rođenjaPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Financijski - Kreditne kartice, bankovni računi, IBAN, kripto novčaniciCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Lokacija - Adrese, gradovi, zemlje, koordinateLOCATION, ADDRESS, COORDINATES123 Main St, New York
Vladini - OIB, brojevi putovnica, vozačke dozvole, nacionalni identifikatoriSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Tehnički - IP adrese, MAC adrese, ID-evi uređajaIP_ADDRESS, MAC_ADDRESS192.168.1.1

Umjesto da ručno odabirete entitete, koristite unaprijed postavke za brzo primjenjivanje uobičajenih konfiguracija entiteta poput "GDPR usklađenosti" ili "Financijski podaci".

Instead of selecting entities manually, use Unaprijed postavke to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Korak 3: Odaberite jezik

Odaberite jezik svog teksta za optimalnu točnost otkrivanja:

  • Automatsko otkrivanje - Dopustite sustavu da odredi jezik - Let the system determine the language
  • Specifični jezik - Odaberite iz 27 podržanih jezika - Select from 27 supported languages

Odabir jezika je važan

Odabir ispravnog jezika značajno poboljšava točnost otkrivanja, posebno za imena osoba i lokacije.

Korak 4: Pokrenite analizu

  1. Kliknite na gumb Analiziraj
  2. Pričekajte da analiza završi (obično 1-3 sekunde)
  3. Pregledajte otkrivene entitete u panelu rezultata

Razumijevanje rezultata

Nakon analize, svaki otkriveni entitet pokazuje:

PERSONJohn Doepouzdanost

Pozicija: znakovi

Polja rezultata

  • Vrsta entiteta - Kategorija otkrivenog PII (OSOBA, E-POŠTA, itd.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Tekst - Stvarni tekst koji je identificiran kao PII - The actual text that was identified as PII
  • Ocjena pouzdanosti - Koliko je sustav siguran (0-100%) - How certain the system is (0-100%)
  • Pozicija - Početne i završne pozicije znakova - Start and end character positions

Prag pouzdanosti

Podesite prag pouzdanosti kako biste kontrolirali osjetljivost:

PragUčinakNajbolje za
NizakViše otkrivenih entiteta, više lažno pozitivnih rezultataMaksimalno pokriće, ručni pregled
ZadanoIzbalansirano otkrivanje i točnostOpća upotreba
VisokManje entiteta, veća pouzdanostAutomatizirana obrada
Vrlo visokSamo vrlo pouzdani podudariMinimalna intervencija

Odabir rezultata

Nakon analize, možete precizirati koje entitete želite anonimizirati:

Odaberi/Ne odaberi sve

  • Koristite potvrdni okvir u zaglavlju za odabir ili neodabir svih rezultata
  • Samo odabrani entiteti bit će anonimizirani

Individualni odabir

  • Kliknite na pojedinačne potvrdne okvire za uključivanje/isključivanje specifičnih entiteta
  • Koristan kada analizator otkrije lažno pozitivne rezultate
  • Koristan kada želite zadržati određene informacije vidljivima

Filtriraj po vrsti

  • Kliknite na oznaku vrste entiteta za filtriranje rezultata po toj vrsti
  • Brzo odaberite/ne odaberite sve entitete određene vrste

Pregledajte rezultate prije anonimizacije. Analizator ponekad može otkriti lažno pozitivne rezultate, posebno za imena koja su također uobičajene riječi.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Troškovi tokena

Operacije analize troše tokene na temelju:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Duljina teksta
  • entities_enabled = Entiteti
  • entities_found = number of entities detected

Tipični trošak

Duljina tekstaEntitetiTipični trošak
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Dokumentacija sustava tokena Token System documentation for complete pricing details.


Najbolje prakse

Odaberite samo vrste entiteta koje trebate - smanjuje troškove i lažno pozitivne rezultate
Koristite jezične unaprijed postavke za bolju točnost u neengleskom tekstu
Pregledajte rezultate prije anonimizacije, posebno za imena i lokacije
Koristite više pragove pouzdanosti za automatiziranu obradu
Obradite tekst u razumnim dijelovima (ispod 10,000 znakova) za najbolju izvedbu

Rješavanje problema

Entitet nije otkriven?

  • Osigurajte da je vrsta entiteta omogućena u vašem odabiru
  • Pokušajte smanjiti prag pouzdanosti
  • Provjerite je li odabran ispravan jezik
  • Provjerite da format teksta odgovara očekivanim obrascima

Previše lažno pozitivnih rezultata?

  • Povećajte prag pouzdanosti
  • Ne odabirete široke vrste entiteta poput LOKACIJA
  • Koristite unaprijed postavke specifične za entitete umjesto da odaberete sve

Analiza traje predugo?

  • Podijelite velike tekstove na manje dijelove
  • Smanjite broj odabranih vrsta entiteta
  • Koristite unaprijed postavke kako biste izbjegli učitavanje neiskorištenih modela otkrivanja

Next Steps

Zadnje ažuriranje: Ožujak 2026