PII-analysoija
Tunnista henkilökohtaisesti tunnistettavat tiedot tekstistäsi
PII-analysoija skannaa tekstisi ja tunnistaa arkaluontoisia tietoja, kuten nimiä, sähköposteja, puhelinnumeroita, osoitteita ja paljon muuta.
Miten se toimii
Analysoija käyttää useita tunnistusmenetelmiä PII:n tunnistamiseen:
Kaavojen vertailu
Säännölliset lausekkeet tunnistavat rakenteellista dataa, kuten sähköpostiosoitteita, puhelinnumeroita, luottokortteja ja IBAN-numeroita korkealla tarkkuudella.
Koneoppiminen (NER)
Nimientiteettitunnistusmallit tunnistavat kontekstista riippuvaisia entiteettejä, kuten henkilöiden nimiä, organisaatioita ja sijainteja käyttäen spaCyä, Stanzaa ja Transformersia.
Tarkistussumman vahvistus
Luottokortit, IBANit ja muut taloudelliset tunnisteet vahvistetaan tarkistussumma-algoritmeilla (Luhn, MOD-97) väärien positiivisten vähentämiseksi.
Analysoijan käyttäminen
Vaihe 1: Syötä tekstisi
- Siirry Anonymoi-sivulle
- Liitä tai kirjoita tekstisi syöttöalueelle
- Käyttöliittymä näyttää merkkilaskurin ja token-arvion
Vaihe 2: Valitse entiteettityypit
Valitse, mitkä PII-tyypit haluat tunnistaa:
| Entiteettityypit | Tuemme 256 entiteettityyppiä, jotka on järjestetty 10 kategoriaan: | Teksti - Tunnistettu teksti, joka oli PII |
|---|---|---|
| Henkilökohtaiset - Nimet, sähköpostit, puhelinnumerot, syntymäpäivät | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Rahoitus - Luottokortit, pankkitilit, IBAN, kryptovaluuttalompakot | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Sijainti - Osoitteet, kaupungit, maat, koordinaatit | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Hallitus - SSN, passinumerot, ajokortit, kansalliset henkilökortit | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Tekninen - IP-osoitteet, MAC-osoitteet, laite-ID:t | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
Sen sijaan, että valitset entiteettejä manuaalisesti, käytä Esiasetuksia soveltamaan nopeasti yleisiä entiteettikonfiguraatioita, kuten "GDPR-yhteensopivuus" tai "Taloudelliset tiedot".
Instead of selecting entities manually, use Esiasetukset to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Vaihe 3: Valitse kieli
Valitse tekstisi kieli optimaalisen tunnistustarkkuuden saavuttamiseksi:
- Automaattinen tunnistus - Anna järjestelmän määrittää kieli - Let the system determine the language
- Erityinen kieli - Valitse 27 tuetusta kielestä - Select from 27 supported languages
Kielivalinnalla on merkitystä
Oikean kielen valitseminen parantaa merkittävästi tunnistustarkkuutta, erityisesti henkilöiden nimien ja sijaintien osalta.
Vaihe 4: Suorita analyysi
- Napsauta Analysoi-painiketta
- Odota analyysin valmistumista (yleensä 1-3 sekuntia)
- Tarkista tunnistetut entiteetit tulospaneelista
Tulosten ymmärtäminen
Analyysin jälkeen jokainen tunnistettu entiteetti näyttää:
Sijainti: merkit
Tulostiedot
- Entiteettityyppi - Tunnistetun PII:n kategoria (HENKILÖ, SÄHKÖPOSTI jne.) - The category of PII detected (PERSON, EMAIL, etc.)
- Teksti - Tunnistettu teksti, joka oli PII - The actual text that was identified as PII
- Luottamuspisteet - Kuinka varma järjestelmä on (0-100%) - How certain the system is (0-100%)
- Sijainti - Aloitus- ja lopetusmerkkien sijainnit - Start and end character positions
Luottamuskynnys
Säädä luottamuskynnystä herkkyyden hallitsemiseksi:
| Kynnys | Vaikutus | Paras käyttöön |
|---|---|---|
| Matala | Enemmän entiteettejä tunnistettu, enemmän vääriä positiivisia | Maksimaalinen kattavuus, manuaalinen tarkistus |
| Oletus | Tasapainotettu tunnistus ja tarkkuus | Yleiskäyttö |
| Korkea | Vähemmän entiteettejä, korkeampi luottamus | Automaattinen käsittely |
| Erittäin korkea | Vain erittäin varmat osumat | Minimalinen väliintulo |
Tulosten valinta
Analyysin jälkeen voit tarkentaa, mitkä entiteetit anonymisoidaan:
Valitse/Poista valinta kaikista
- Käytä valintaruutua otsikossa valitaksesi tai poistaaksesi valinnan kaikista tuloksista
- Vain valitut entiteetit anonymisoidaan
Yksilöllinen valinta
- Napsauta yksittäisiä valintaruutuja sisällyttääksesi/poistaaksesi tietyt entiteetit
- Hyödyllinen, kun analysoija tunnistaa vääriä positiivisia
- Hyödyllinen, kun haluat pitää tiettyjä tietoja näkyvissä
Suodata tyypin mukaan
- Napsauta entiteettityypin merkkiä suodattaaksesi tuloksia sen tyypin mukaan
- Valitse nopeasti/poista valinta kaikista tietyn tyyppisistä entiteeteistä
Tarkista tulokset ennen anonymisointia. Analysoija saattaa joskus tunnistaa vääriä positiivisia, erityisesti nimille, jotka ovat myös yleisiä sanoja.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Token-kustannukset
Analyysitoiminnot kuluttavat tokeneita seuraavien perusteella:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Tekstin pituusentities_enabled= Entiteetitentities_found= number of entities detected
Tyypillinen kustannus
| Tekstin pituus | Entiteetit | Tyypillinen kustannus |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Token-järjestelmän dokumentaatio Token System documentation for complete pricing details.
Parhaat käytännöt
Vianmääritys
Entiteettiä ei tunnistettu?
- Varmista, että entiteettityyppi on käytössä valinnassasi
- Yritä laskea luottamuskynnystä
- Tarkista, että oikea kieli on valittu
- Varmista, että tekstimuoto vastaa odotettuja kaavoja
Liian monta väärää positiivista?
- Nosta luottamuskynnystä
- Poista valinta laajoista entiteettityypeistä, kuten SIJAINTI
- Käytä entiteetti-spesifisiä esiasetuksia sen sijaan, että valitsisit kaikki
Analyysi kestää liian kauan?
- Jaa suuret tekstit pienempiin osiin
- Vähennä valittujen entiteettityyppien määrää
- Käytä esiasetuksia välttääksesi käyttämättömien tunnistusmallien lataamista
Next Steps
Viimeksi päivitetty: Maaliskuu 2026