common.skipToContent

PII Анализатор

Откријте лични идентификациски информации во вашиот текст

PII Анализаторот скенира вашиот текст и идентификува чувствителни информации како што се имиња, е-пошта, телефонски броеви, адреси и многу повеќе.


Како функционира

Анализаторот користи повеќе методи на детекција за идентификување на PII:

Поставување на образци

Регуларни изрази детектираат структурирани податоци како што се адреси на електронска пошта, телефонски броеви, кредитни картички и IBAN-ови со висока точност.

Машинско учење (NER)

Моделите за препознавање именуваних ентитети идентификуваат ентитети зависно од контекстот, како што се имиња на лица, организации и локации, користејќи spaCy, Stanza и Transformers.

Валидација на контролната сума

Кредитните картички, IBAN-ите и другите финансиски идентификатори се валидираат користејќи алгоритми за контролната сума (Luhn, MOD-97) за намалување на лажните позитиви.


Користење на Анализаторот

Чекор 1: Внесете го вашиот текст

  1. Навигирајте до страницата за анонимизација
  2. Вметнете или напишете го вашиот текст во полето за внесување
  3. Интерфејсот покажува број на карактери и проценка на токени

Чекор 2: Изберете типови на ентитети

Изберете кои типови на PII да се детектираат:

Типови на ентитетиПоддржуваме 256 типови на ентитети организирани во 10 категории:Текст - Фактичкиот текст што беше идентификуван како PII
Лични - Имиња, е-пошта, телефонски броеви, датуми на раѓањеPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Финансиски - Кредитни картички, банкарски сметки, IBAN, крипто паричнициCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Локација - Адреси, градови, земји, координатиLOCATION, ADDRESS, COORDINATES123 Main St, New York
Владин - SSN, броеви на пасоши, возачки дозволи, национални идентификаториSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Технички - IP адреси, MAC адреси, ID на уредиIP_ADDRESS, MAC_ADDRESS192.168.1.1

Наместо рачно да избирате ентитети, користете Пресети за брзо применување на вообичаени конфигурации на ентитети како "GDPR усогласеност" или "Финансиски податоци".

Instead of selecting entities manually, use Пресети to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Чекор 3: Изберете јазик

Изберете го јазикот на вашиот текст за оптимална точност на детекцијата:

  • Автоматска детекција - Оставете го системот да ја одреди јазикот - Let the system determine the language
  • Специфичен јазик - Изберете од 27 поддржани јазици - Select from 27 supported languages

Изборот на јазик е важен

Изборот на правилниот јазик значително ја подобрува точноста на детекцијата, особено за имиња на лица и локации.

Чекор 4: Извршете анализа

  1. Кликнете на копчето Анализирај
  2. Чекајте анализа да се заврши (обично 1-3 секунди)
  3. Прегледајте ги детектираните ентитети во панелот со резултати

Разбирање на резултатите

По анализата, секој детектиран ентитет покажува:

PERSONJohn Doeдоверба

Позиција: карактери

Резултатни полиња

  • Тип на ентитет - Категоријата на детектираниот PII (ЛИЧНО, ЕЛЕКТРОНСКА ПОШТА, итн.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Текст - Фактичкиот текст што беше идентификуван како PII - The actual text that was identified as PII
  • Резултат на доверба - Колку е сигурен системот (0-100%) - How certain the system is (0-100%)
  • Позиција - Почетни и завршни позиции на карактери - Start and end character positions

Праг на доверба

Прилагодете го прагот на доверба за контрола на чувствителноста:

ПрагЕфектНајдобро за
НизокПовеќе детектирани ентитети, повеќе лажни позитивиМаксимално покривање, рачен преглед
СтандардноБаланс на детекција и точностОпшта употреба
ВисокПомалку ентитети, повисока довербаАвтоматизирана обработка
Многу високСамо многу сигурни совпаѓањаМинимална интервенција

Избирање резултати

По анализата, можете да прецизирате кои ентитети да анонимизирате:

Избери/Дезабери Сè

  • Користете го кутијата за потврда во заглавието за да изберете или дезаберете ги сите резултати
  • Само избраните ентитети ќе бидат анонимизирани

Индивидуален избор

  • Кликнете на индивидуалните кутија за потврда за вклучување/исклучување на специфични ентитети
  • Корисно кога анализаторот детектира лажни позитиви
  • Корисно кога сакате да задржите одредени информации видливи

Филтрирај по тип

  • Кликнете на значката на типот на ентитет за да ги филтрирате резултатите по тој тип
  • Брзо изберете/дезаберете ги сите ентитети од специфичен тип

Прегледајте ги резултатите пред анонимизацијата. Анализаторот понекогаш може да детектира лажни позитиви, особено за имиња кои се исто така вообичаени зборови.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Трошоци за токени

Операциите за анализа трошат токени врз основа на:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Должина на текстот
  • entities_enabled = Ентитети
  • entities_found = number of entities detected

Типичен трошок

Должина на текстотЕнтитетиТипичен трошок
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Документација за системот на токени Token System documentation for complete pricing details.


Најдобри практики

Изберете само типови на ентитети што ви се потребни - намалува трошоци и лажни позитиви
Користете јазично специфични пресети за подобра точност во текстот на неанглиски јазици
Прегледајте ги резултатите пред анонимизацијата, особено за имиња и локации
Користете повисоки прагови на доверба за автоматизирана обработка
Обработувајте текст во разумни делови (под 10,000 карактери) за најдобра перформанса

Решавање на проблеми

Ентитетот не е детектиран?

  • Осигурајте се дека типот на ентитетот е овозможен во вашиот избор
  • Обидете се да го намалите прагот на доверба
  • Проверете дали е избран правилниот јазик
  • Проверете дали форматот на текстот одговара на очекуваните образци

Премногу лажни позитиви?

  • Зголемете го прагот на доверба
  • Дезаберете широки типови на ентитети како ЛОКАЦИЈА
  • Користете специфични пресети за ентитети наместо да избирате сè

Анализата трае премногу долго?

  • Разделете ги големите текстови на помали делови
  • Намалете го бројот на избрани типови на ентитети
  • Користете пресети за да избегнете вчитување на непотребни модели на детекција

Next Steps

Последно ажурирано: Март 2026