PII-analysoija

Tunnista henkilökohtaisesti tunnistettavat tiedot tekstistäsi

PII-analysoija skannaa tekstisi ja tunnistaa arkaluontoisia tietoja, kuten nimiä, sähköposteja, puhelinnumeroita, osoitteita ja paljon muuta.

Miten se toimii

Analysoija käyttää useita tunnistusmenetelmiä PII:n tunnistamiseen:

Kaavojen vertailu

Säännölliset lausekkeet tunnistavat rakenteellista dataa, kuten sähköpostiosoitteita, puhelinnumeroita, luottokortteja ja IBAN-numeroita korkealla tarkkuudella.

Koneoppiminen (NER)

Nimientiteettitunnistusmallit tunnistavat kontekstista riippuvaisia entiteettejä, kuten henkilöiden nimiä, organisaatioita ja sijainteja käyttäen spaCyä, Stanzaa ja Transformersia.

Tarkistussumman vahvistus

Luottokortit, IBANit ja muut taloudelliset tunnisteet vahvistetaan tarkistussumma-algoritmeilla (Luhn, MOD-97) väärien positiivisten vähentämiseksi.

Analysoijan käyttäminen

Vaihe 1: Syötä tekstisi

Siirry Anonymoi-sivulle
Liitä tai kirjoita tekstisi syöttöalueelle
Käyttöliittymä näyttää merkkilaskurin ja token-arvion

Vaihe 2: Valitse entiteettityypit

Valitse, mitkä PII-tyypit haluat tunnistaa:

Entiteettityypit	Tuemme 256 entiteettityyppiä, jotka on järjestetty 10 kategoriaan:	Teksti - Tunnistettu teksti, joka oli PII
Henkilökohtaiset - Nimet, sähköpostit, puhelinnumerot, syntymäpäivät	PERSON, EMAIL_ADDRESS, PHONE_NUMBER	John Doe, john@email.com
Rahoitus - Luottokortit, pankkitilit, IBAN, kryptovaluuttalompakot	CREDIT_CARD, IBAN_CODE, SWIFT_CODE	4111-1111-1111-1111
Sijainti - Osoitteet, kaupungit, maat, koordinaatit	LOCATION, ADDRESS, COORDINATES	123 Main St, New York
Hallitus - SSN, passinumerot, ajokortit, kansalliset henkilökortit	SSN, PASSPORT, DRIVER_LICENSE	123-45-6789
Tekninen - IP-osoitteet, MAC-osoitteet, laite-ID:t	IP_ADDRESS, MAC_ADDRESS	192.168.1.1

Sen sijaan, että valitset entiteettejä manuaalisesti, käytä Esiasetuksia soveltamaan nopeasti yleisiä entiteettikonfiguraatioita, kuten "GDPR-yhteensopivuus" tai "Taloudelliset tiedot".

Instead of selecting entities manually, use Esiasetukset to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Vaihe 3: Valitse kieli

Valitse tekstisi kieli optimaalisen tunnistustarkkuuden saavuttamiseksi:

Automaattinen tunnistus - Anna järjestelmän määrittää kieli - Let the system determine the language
Erityinen kieli - Valitse 27 tuetusta kielestä - Select from 27 supported languages

Kielivalinnalla on merkitystä

Oikean kielen valitseminen parantaa merkittävästi tunnistustarkkuutta, erityisesti henkilöiden nimien ja sijaintien osalta.

Vaihe 4: Suorita analyysi

Napsauta Analysoi-painiketta
Odota analyysin valmistumista (yleensä 1-3 sekuntia)
Tarkista tunnistetut entiteetit tulospaneelista

Tulosten ymmärtäminen

Analyysin jälkeen jokainen tunnistettu entiteetti näyttää:

PERSONJohn Doeluottamus

Sijainti: merkit

Tulostiedot

Entiteettityyppi - Tunnistetun PII:n kategoria (HENKILÖ, SÄHKÖPOSTI jne.) - The category of PII detected (PERSON, EMAIL, etc.)
Teksti - Tunnistettu teksti, joka oli PII - The actual text that was identified as PII
Luottamuspisteet - Kuinka varma järjestelmä on (0-100%) - How certain the system is (0-100%)
Sijainti - Aloitus- ja lopetusmerkkien sijainnit - Start and end character positions

Luottamuskynnys

Säädä luottamuskynnystä herkkyyden hallitsemiseksi:

Kynnys	Vaikutus	Paras käyttöön
Matala	Enemmän entiteettejä tunnistettu, enemmän vääriä positiivisia	Maksimaalinen kattavuus, manuaalinen tarkistus
Oletus	Tasapainotettu tunnistus ja tarkkuus	Yleiskäyttö
Korkea	Vähemmän entiteettejä, korkeampi luottamus	Automaattinen käsittely
Erittäin korkea	Vain erittäin varmat osumat	Minimalinen väliintulo

Tulosten valinta

Analyysin jälkeen voit tarkentaa, mitkä entiteetit anonymisoidaan:

Valitse/Poista valinta kaikista

Käytä valintaruutua otsikossa valitaksesi tai poistaaksesi valinnan kaikista tuloksista
Vain valitut entiteetit anonymisoidaan

Yksilöllinen valinta

Napsauta yksittäisiä valintaruutuja sisällyttääksesi/poistaaksesi tietyt entiteetit
Hyödyllinen, kun analysoija tunnistaa vääriä positiivisia
Hyödyllinen, kun haluat pitää tiettyjä tietoja näkyvissä

Suodata tyypin mukaan

Napsauta entiteettityypin merkkiä suodattaaksesi tuloksia sen tyypin mukaan
Valitse nopeasti/poista valinta kaikista tietyn tyyppisistä entiteeteistä

Tarkista tulokset ennen anonymisointia. Analysoija saattaa joskus tunnistaa vääriä positiivisia, erityisesti nimille, jotka ovat myös yleisiä sanoja.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.

Token-kustannukset

Analyysitoiminnot kuluttavat tokeneita seuraavien perusteella:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

text_k = Tekstin pituus
entities_enabled = Entiteetit
entities_found = number of entities detected

Tyypillinen kustannus

Tekstin pituus	Entiteetit	Tyypillinen kustannus
100 characters	3 types, 2 found	2 tokens
1,000 characters	5 types, 5 found	3 tokens
5,000 characters	10 types, 15 found	6 tokens
10,000 characters	15 types, 30 found	10 tokens

Token-järjestelmän dokumentaatio Token System documentation for complete pricing details.

Parhaat käytännöt

✅Valitse vain tarvittavat entiteettityypit - vähentää kustannuksia ja vääriä positiivisia

✅Käytä kielikohtaisia esiasetuksia paremman tarkkuuden saavuttamiseksi ei-englanninkielisessä tekstissä

✅Tarkista tulokset ennen anonymisointia, erityisesti nimien ja sijaintien osalta

✅Käytä korkeampia luottamuskynnyksiä automaattisessa käsittelyssä

✅Käsittele tekstiä kohtuullisissa osissa (alle 10 000 merkkiä) parhaan suorituskyvyn saavuttamiseksi

Vianmääritys

Entiteettiä ei tunnistettu?

Varmista, että entiteettityyppi on käytössä valinnassasi
Yritä laskea luottamuskynnystä
Tarkista, että oikea kieli on valittu
Varmista, että tekstimuoto vastaa odotettuja kaavoja

Liian monta väärää positiivista?

Nosta luottamuskynnystä
Poista valinta laajoista entiteettityypeistä, kuten SIJAINTI
Käytä entiteetti-spesifisiä esiasetuksia sen sijaan, että valitsisit kaikki

Analyysi kestää liian kauan?

Jaa suuret tekstit pienempiin osiin
Vähennä valittujen entiteettityyppien määrää
Käytä esiasetuksia välttääksesi käyttämättömien tunnistusmallien lataamista

Next Steps

Anonymisoijan opas

Opi, kuinka anonymisoida tunnistetut entiteetit

Esiasetukset

Tallenna ja käytä uudelleen entiteettikonfiguraatioita

Viimeksi päivitetty: Maaliskuu 2026