PII Анализатор
Откријте лични идентификациски информации во вашиот текст
PII Анализаторот скенира вашиот текст и идентификува чувствителни информации како што се имиња, е-пошта, телефонски броеви, адреси и многу повеќе.
Како функционира
Анализаторот користи повеќе методи на детекција за идентификување на PII:
Поставување на образци
Регуларни изрази детектираат структурирани податоци како што се адреси на електронска пошта, телефонски броеви, кредитни картички и IBAN-ови со висока точност.
Машинско учење (NER)
Моделите за препознавање именуваних ентитети идентификуваат ентитети зависно од контекстот, како што се имиња на лица, организации и локации, користејќи spaCy, Stanza и Transformers.
Валидација на контролната сума
Кредитните картички, IBAN-ите и другите финансиски идентификатори се валидираат користејќи алгоритми за контролната сума (Luhn, MOD-97) за намалување на лажните позитиви.
Користење на Анализаторот
Чекор 1: Внесете го вашиот текст
- Навигирајте до страницата за анонимизација
- Вметнете или напишете го вашиот текст во полето за внесување
- Интерфејсот покажува број на карактери и проценка на токени
Чекор 2: Изберете типови на ентитети
Изберете кои типови на PII да се детектираат:
| Типови на ентитети | Поддржуваме 256 типови на ентитети организирани во 10 категории: | Текст - Фактичкиот текст што беше идентификуван како PII |
|---|---|---|
| Лични - Имиња, е-пошта, телефонски броеви, датуми на раѓање | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Финансиски - Кредитни картички, банкарски сметки, IBAN, крипто паричници | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Локација - Адреси, градови, земји, координати | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Владин - SSN, броеви на пасоши, возачки дозволи, национални идентификатори | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Технички - IP адреси, MAC адреси, ID на уреди | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
Наместо рачно да избирате ентитети, користете Пресети за брзо применување на вообичаени конфигурации на ентитети како "GDPR усогласеност" или "Финансиски податоци".
Instead of selecting entities manually, use Пресети to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Чекор 3: Изберете јазик
Изберете го јазикот на вашиот текст за оптимална точност на детекцијата:
- Автоматска детекција - Оставете го системот да ја одреди јазикот - Let the system determine the language
- Специфичен јазик - Изберете од 27 поддржани јазици - Select from 27 supported languages
Изборот на јазик е важен
Изборот на правилниот јазик значително ја подобрува точноста на детекцијата, особено за имиња на лица и локации.
Чекор 4: Извршете анализа
- Кликнете на копчето Анализирај
- Чекајте анализа да се заврши (обично 1-3 секунди)
- Прегледајте ги детектираните ентитети во панелот со резултати
Разбирање на резултатите
По анализата, секој детектиран ентитет покажува:
Позиција: карактери
Резултатни полиња
- Тип на ентитет - Категоријата на детектираниот PII (ЛИЧНО, ЕЛЕКТРОНСКА ПОШТА, итн.) - The category of PII detected (PERSON, EMAIL, etc.)
- Текст - Фактичкиот текст што беше идентификуван како PII - The actual text that was identified as PII
- Резултат на доверба - Колку е сигурен системот (0-100%) - How certain the system is (0-100%)
- Позиција - Почетни и завршни позиции на карактери - Start and end character positions
Праг на доверба
Прилагодете го прагот на доверба за контрола на чувствителноста:
| Праг | Ефект | Најдобро за |
|---|---|---|
| Низок | Повеќе детектирани ентитети, повеќе лажни позитиви | Максимално покривање, рачен преглед |
| Стандардно | Баланс на детекција и точност | Општа употреба |
| Висок | Помалку ентитети, повисока доверба | Автоматизирана обработка |
| Многу висок | Само многу сигурни совпаѓања | Минимална интервенција |
Избирање резултати
По анализата, можете да прецизирате кои ентитети да анонимизирате:
Избери/Дезабери Сè
- Користете го кутијата за потврда во заглавието за да изберете или дезаберете ги сите резултати
- Само избраните ентитети ќе бидат анонимизирани
Индивидуален избор
- Кликнете на индивидуалните кутија за потврда за вклучување/исклучување на специфични ентитети
- Корисно кога анализаторот детектира лажни позитиви
- Корисно кога сакате да задржите одредени информации видливи
Филтрирај по тип
- Кликнете на значката на типот на ентитет за да ги филтрирате резултатите по тој тип
- Брзо изберете/дезаберете ги сите ентитети од специфичен тип
Прегледајте ги резултатите пред анонимизацијата. Анализаторот понекогаш може да детектира лажни позитиви, особено за имиња кои се исто така вообичаени зборови.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Трошоци за токени
Операциите за анализа трошат токени врз основа на:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Должина на текстотentities_enabled= Ентитетиentities_found= number of entities detected
Типичен трошок
| Должина на текстот | Ентитети | Типичен трошок |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Документација за системот на токени Token System documentation for complete pricing details.
Најдобри практики
Решавање на проблеми
Ентитетот не е детектиран?
- Осигурајте се дека типот на ентитетот е овозможен во вашиот избор
- Обидете се да го намалите прагот на доверба
- Проверете дали е избран правилниот јазик
- Проверете дали форматот на текстот одговара на очекуваните образци
Премногу лажни позитиви?
- Зголемете го прагот на доверба
- Дезаберете широки типови на ентитети како ЛОКАЦИЈА
- Користете специфични пресети за ентитети наместо да избирате сè
Анализата трае премногу долго?
- Разделете ги големите текстови на помали делови
- Намалете го бројот на избрани типови на ентитети
- Користете пресети за да избегнете вчитување на непотребни модели на детекција
Next Steps
Последно ажурирано: Март 2026