common.skipToContent

PII-analysoija

Tunnista henkilökohtaisesti tunnistettavat tiedot tekstistäsi

PII-analysoija skannaa tekstisi ja tunnistaa arkaluontoisia tietoja, kuten nimiä, sähköposteja, puhelinnumeroita, osoitteita ja paljon muuta.


Miten se toimii

Analysoija käyttää useita tunnistusmenetelmiä PII:n tunnistamiseen:

Kaavojen vertailu

Säännölliset lausekkeet tunnistavat rakenteellista dataa, kuten sähköpostiosoitteita, puhelinnumeroita, luottokortteja ja IBAN-numeroita korkealla tarkkuudella.

Koneoppiminen (NER)

Nimientiteettitunnistusmallit tunnistavat kontekstista riippuvaisia entiteettejä, kuten henkilöiden nimiä, organisaatioita ja sijainteja käyttäen spaCyä, Stanzaa ja Transformersia.

Tarkistussumman vahvistus

Luottokortit, IBANit ja muut taloudelliset tunnisteet vahvistetaan tarkistussumma-algoritmeilla (Luhn, MOD-97) väärien positiivisten vähentämiseksi.


Analysoijan käyttäminen

Vaihe 1: Syötä tekstisi

  1. Siirry Anonymoi-sivulle
  2. Liitä tai kirjoita tekstisi syöttöalueelle
  3. Käyttöliittymä näyttää merkkilaskurin ja token-arvion

Vaihe 2: Valitse entiteettityypit

Valitse, mitkä PII-tyypit haluat tunnistaa:

EntiteettityypitTuemme 256 entiteettityyppiä, jotka on järjestetty 10 kategoriaan:Teksti - Tunnistettu teksti, joka oli PII
Henkilökohtaiset - Nimet, sähköpostit, puhelinnumerot, syntymäpäivätPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Rahoitus - Luottokortit, pankkitilit, IBAN, kryptovaluuttalompakotCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Sijainti - Osoitteet, kaupungit, maat, koordinaatitLOCATION, ADDRESS, COORDINATES123 Main St, New York
Hallitus - SSN, passinumerot, ajokortit, kansalliset henkilökortitSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Tekninen - IP-osoitteet, MAC-osoitteet, laite-ID:tIP_ADDRESS, MAC_ADDRESS192.168.1.1

Sen sijaan, että valitset entiteettejä manuaalisesti, käytä Esiasetuksia soveltamaan nopeasti yleisiä entiteettikonfiguraatioita, kuten "GDPR-yhteensopivuus" tai "Taloudelliset tiedot".

Instead of selecting entities manually, use Esiasetukset to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Vaihe 3: Valitse kieli

Valitse tekstisi kieli optimaalisen tunnistustarkkuuden saavuttamiseksi:

  • Automaattinen tunnistus - Anna järjestelmän määrittää kieli - Let the system determine the language
  • Erityinen kieli - Valitse 27 tuetusta kielestä - Select from 27 supported languages

Kielivalinnalla on merkitystä

Oikean kielen valitseminen parantaa merkittävästi tunnistustarkkuutta, erityisesti henkilöiden nimien ja sijaintien osalta.

Vaihe 4: Suorita analyysi

  1. Napsauta Analysoi-painiketta
  2. Odota analyysin valmistumista (yleensä 1-3 sekuntia)
  3. Tarkista tunnistetut entiteetit tulospaneelista

Tulosten ymmärtäminen

Analyysin jälkeen jokainen tunnistettu entiteetti näyttää:

PERSONJohn Doeluottamus

Sijainti: merkit

Tulostiedot

  • Entiteettityyppi - Tunnistetun PII:n kategoria (HENKILÖ, SÄHKÖPOSTI jne.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Teksti - Tunnistettu teksti, joka oli PII - The actual text that was identified as PII
  • Luottamuspisteet - Kuinka varma järjestelmä on (0-100%) - How certain the system is (0-100%)
  • Sijainti - Aloitus- ja lopetusmerkkien sijainnit - Start and end character positions

Luottamuskynnys

Säädä luottamuskynnystä herkkyyden hallitsemiseksi:

KynnysVaikutusParas käyttöön
MatalaEnemmän entiteettejä tunnistettu, enemmän vääriä positiivisiaMaksimaalinen kattavuus, manuaalinen tarkistus
OletusTasapainotettu tunnistus ja tarkkuusYleiskäyttö
KorkeaVähemmän entiteettejä, korkeampi luottamusAutomaattinen käsittely
Erittäin korkeaVain erittäin varmat osumatMinimalinen väliintulo

Tulosten valinta

Analyysin jälkeen voit tarkentaa, mitkä entiteetit anonymisoidaan:

Valitse/Poista valinta kaikista

  • Käytä valintaruutua otsikossa valitaksesi tai poistaaksesi valinnan kaikista tuloksista
  • Vain valitut entiteetit anonymisoidaan

Yksilöllinen valinta

  • Napsauta yksittäisiä valintaruutuja sisällyttääksesi/poistaaksesi tietyt entiteetit
  • Hyödyllinen, kun analysoija tunnistaa vääriä positiivisia
  • Hyödyllinen, kun haluat pitää tiettyjä tietoja näkyvissä

Suodata tyypin mukaan

  • Napsauta entiteettityypin merkkiä suodattaaksesi tuloksia sen tyypin mukaan
  • Valitse nopeasti/poista valinta kaikista tietyn tyyppisistä entiteeteistä

Tarkista tulokset ennen anonymisointia. Analysoija saattaa joskus tunnistaa vääriä positiivisia, erityisesti nimille, jotka ovat myös yleisiä sanoja.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Token-kustannukset

Analyysitoiminnot kuluttavat tokeneita seuraavien perusteella:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Tekstin pituus
  • entities_enabled = Entiteetit
  • entities_found = number of entities detected

Tyypillinen kustannus

Tekstin pituusEntiteetitTyypillinen kustannus
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Token-järjestelmän dokumentaatio Token System documentation for complete pricing details.


Parhaat käytännöt

Valitse vain tarvittavat entiteettityypit - vähentää kustannuksia ja vääriä positiivisia
Käytä kielikohtaisia esiasetuksia paremman tarkkuuden saavuttamiseksi ei-englanninkielisessä tekstissä
Tarkista tulokset ennen anonymisointia, erityisesti nimien ja sijaintien osalta
Käytä korkeampia luottamuskynnyksiä automaattisessa käsittelyssä
Käsittele tekstiä kohtuullisissa osissa (alle 10 000 merkkiä) parhaan suorituskyvyn saavuttamiseksi

Vianmääritys

Entiteettiä ei tunnistettu?

  • Varmista, että entiteettityyppi on käytössä valinnassasi
  • Yritä laskea luottamuskynnystä
  • Tarkista, että oikea kieli on valittu
  • Varmista, että tekstimuoto vastaa odotettuja kaavoja

Liian monta väärää positiivista?

  • Nosta luottamuskynnystä
  • Poista valinta laajoista entiteettityypeistä, kuten SIJAINTI
  • Käytä entiteetti-spesifisiä esiasetuksia sen sijaan, että valitsisit kaikki

Analyysi kestää liian kauan?

  • Jaa suuret tekstit pienempiin osiin
  • Vähennä valittujen entiteettityyppien määrää
  • Käytä esiasetuksia välttääksesi käyttämättömien tunnistusmallien lataamista

Next Steps

Viimeksi päivitetty: Maaliskuu 2026