common.skipToContent

PII analizatorius

Aptikti asmens tapatybę atskleidžiančią informaciją jūsų tekste

PII analizatorius skanuoja jūsų tekstą ir identifikuoja jautrią informaciją, tokią kaip vardai, el. paštai, telefono numeriai, adresai ir kt.


Kaip tai veikia

Analizatorius naudoja kelis aptikimo metodus, kad identifikuotų PII:

Šablonų atitikimas

Reguliarūs išraiškos aptinka struktūrizuotus duomenis, tokius kaip el. pašto adresai, telefono numeriai, kreditinės kortelės ir IBAN su dideliu tikslumu.

Mašininis mokymasis (NER)

Pavadinimų atpažinimo modeliai identifikuoja konteksto priklausomas entites, tokias kaip asmenų vardai, organizacijos ir vietos, naudodami spaCy, Stanza ir Transformers.

Patikros suma

Kreditinės kortelės, IBAN ir kiti finansiniai identifikatoriai yra tikrinami naudojant patikros sumos algoritmus (Luhn, MOD-97), kad sumažintų klaidingus teiginius.


Naudojant Analizatorių

1 žingsnis: Įveskite savo tekstą

  1. Eikite į Anonimizuoti puslapį
  2. Įklijuokite arba įrašykite savo tekstą į įvesties lauką
  3. Sąsaja rodo simbolių skaičių ir tokenų įvertinimą

2 žingsnis: Pasirinkite entiteto tipus

Pasirinkite, kuriuos PII tipus norite aptikti:

Subjektų tipaiMes palaikome 256 subjektų tipus, organizuotus į 10 kategorijų:Tekstas - faktinis tekstas, kuris buvo identifikuotas kaip PII
Asmeniniai - Vardai, el. paštai, telefono numeriai, gimimo datosPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Finansiniai - Kredito kortelės, banko sąskaitos, IBAN, kriptovaliutų piniginėsCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Vietovė - Adresai, miestai, šalys, koordinatėsLOCATION, ADDRESS, COORDINATES123 Main St, New York
Vyriausybiniai - SSN, paso numeriai, vairuotojo pažymėjimai, nacionaliniai IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Techniniai - IP adresai, MAC adresai, įrenginių IDIP_ADDRESS, MAC_ADDRESS192.168.1.1

Vietoj to, kad rankiniu būdu pasirinktumėte entites, naudokite Išankstinius nustatymus, kad greitai pritaikytumėte dažnai naudojamas entiteto konfigūracijas, tokias kaip "GDPR atitiktis" arba "Finansiniai duomenys".

Instead of selecting entities manually, use Išankstiniai nustatymai to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

3 žingsnis: Pasirinkite kalbą

Pasirinkite savo teksto kalbą, kad užtikrintumėte optimalų aptikimo tikslumą:

  • Automatiškai aptikti - leiskite sistemai nustatyti kalbą - Let the system determine the language
  • Specifinė kalba - pasirinkite iš 27 palaikomų kalbų - Select from 27 supported languages

Kalbos pasirinkimas yra svarbus

Teisingos kalbos pasirinkimas žymiai pagerina aptikimo tikslumą, ypač asmenų vardams ir vietoms.

4 žingsnis: Paleiskite analizę

  1. Paspauskite Analizuoti mygtuką
  2. Palaukite, kol analizė bus baigta (paprastai 1-3 sekundės)
  3. Peržiūrėkite aptiktas entites rezultatų skydelyje

Rezultatų supratimas

Po analizės kiekviena aptikta entitetas rodo:

PERSONJohn Doepasitikėjimas

Pozicija: simboliai

Rezultatų laukai

  • Entiteto tipas - aptikto PII kategorija (ASMENS, EL. PAŠTAS ir kt.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Tekstas - faktinis tekstas, kuris buvo identifikuotas kaip PII - The actual text that was identified as PII
  • Pasitikėjimo balas - kiek sistema yra tikra (0-100%) - How certain the system is (0-100%)
  • Pozicija - pradinės ir galinės simbolių pozicijos - Start and end character positions

Pasitikėjimo slenkstis

Reguliuokite pasitikėjimo slenkstį, kad kontroliuotumėte jautrumą:

SlenkstisPoveikisGeriausia
ŽemasDaugiau aptiktų entitetų, daugiau klaidingų teiginiųMaksimalus aprėptis, rankinė peržiūra
NumatytasisSubalansuotas aptikimas ir tikslumasBendram naudojimui
AukštasMažiau entitetų, didesnis pasitikėjimasAutomatizuotas apdorojimas
Labai aukštasTik labai patikimi atitikimaiMinimalus įsikišimas

Rezultatų pasirinkimas

Po analizės galite patikslinti, kuriuos entitetus norite anonimizuoti:

Pasirinkti/Nepasirinkti viską

  • Naudokite žymimąjį laukelį antraštėje, kad pasirinktumėte arba nepasirinktumėte visų rezultatų
  • Tik pasirinktų entitetų bus anonimizuoti

Individualus pasirinkimas

  • Paspauskite individualius žymimuosius laukelius, kad įtrauktumėte/nesirinktumėte konkrečių entitetų
  • Naudinga, kai analizatorius aptinka klaidingus teiginius
  • Naudinga, kai norite, kad tam tikra informacija būtų matoma

Filtruoti pagal tipą

  • Paspauskite ant entiteto tipo ženklo, kad filtruotumėte rezultatus pagal tą tipą
  • Greitai pasirinkite/nesirinkite visų tam tikro tipo entitetų

Peržiūrėkite rezultatus prieš anonimizuojant. Analizatorius gali kartais aptikti klaidingus teiginius, ypač vardams, kurie taip pat yra įprasti žodžiai.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Tokenų kainos

Analizės operacijos sunaudoja tokenus pagal:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Teksto ilgis
  • entities_enabled = Entitetai
  • entities_found = number of entities detected

Tipinė kaina

Teksto ilgisEntitetaiTipinė kaina
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Tokenų sistemos dokumentacija Token System documentation for complete pricing details.


Geriausios praktikos

Pasirinkite tik tuos entiteto tipus, kurių jums reikia - sumažina išlaidas ir klaidingus teiginius
Naudokite kalbai specifinius išankstinius nustatymus, kad pagerintumėte tikslumą neangliškame tekste
Peržiūrėkite rezultatus prieš anonimizuojant, ypač vardams ir vietoms
Naudokite aukštesnius pasitikėjimo slenksčius automatizuotam apdorojimui
Apdorokite tekstą protingais kiekiais (po 10 000 simbolių) geriausiam našumui

Problemos sprendimas

Entitetas neaptiktas?

  • Įsitikinkite, kad entiteto tipas yra įjungtas jūsų pasirinkime
  • Bandykite sumažinti pasitikėjimo slenkstį
  • Patikrinkite, ar pasirinkta teisinga kalba
  • Patikrinkite, ar teksto formatas atitinka laukiamus šablonus

Per daug klaidingų teiginių?

  • Padidinkite pasitikėjimo slenkstį
  • Nepasirinkite plačių entiteto tipų, tokių kaip VIETA
  • Naudokite entiteto specifinius išankstinius nustatymus, o ne pasirinkite visus

Analizė užtrunka per ilgai?

  • Suskaidykite didelius tekstus į mažesnius kiekius
  • Sumažinkite pasirinktų entiteto tipų skaičių
  • Naudokite išankstinius nustatymus, kad išvengtumėte nenaudojamų aptikimo modelių įkrovimo

Next Steps

Paskutinį kartą atnaujinta: 2026 m. kovo mėn.