Аналізатор PII
Виявляйте особисту інформацію у вашому тексті
Аналізатор PII сканує ваш текст і виявляє чутливу інформацію, таку як імена, електронні адреси, номери телефонів, адреси та інше.
Як це працює
Аналізатор використовує кілька методів виявлення для ідентифікації PII:
Відповідність шаблону
Регулярні вирази виявляють структуровані дані, такі як електронні адреси, номери телефонів, кредитні картки та IBAN з високою точністю.
Машинне навчання (NER)
Моделі виявлення іменованих сутностей ідентифікують контекстно-залежні сутності, такі як імена осіб, організації та місця, використовуючи spaCy, Stanza та Transformers.
Перевірка контрольної суми
Кредитні картки, IBAN та інші фінансові ідентифікатори перевіряються за допомогою алгоритмів контрольних сум (Luhn, MOD-97) для зменшення кількості хибнопозитивних результатів.
Використання Аналізатора
Крок 1: Введіть Ваш Текст
- Перейдіть на сторінку Анонімізації
- Вставте або введіть ваш текст у вхідній області
- Інтерфейс показує кількість символів та оцінку токенів
Крок 2: Виберіть Типи Сутностей
Виберіть, які типи PII виявляти:
| Типи сутностей | Ми підтримуємо 256 типів сутностей, організованих у 10 категорій: | Текст - Фактичний текст, що був ідентифікований як PII |
|---|---|---|
| Особисті - Імена, електронні адреси, номери телефонів, дати народження | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Фінансові - Кредитні картки, банківські рахунки, IBAN, криптогаманці | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Локація - Адреси, міста, країни, координати | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Державні - SSN, номери паспортів, водійські посвідчення, національні ID | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Технічні - IP-адреси, MAC-адреси, ID пристроїв | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
Замість ручного вибору сутностей, використовуйте Пресети для швидкого застосування загальних конфігурацій сутностей, таких як "Відповідність GDPR" або "Фінансові Дані".
Instead of selecting entities manually, use Пресети to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Крок 3: Виберіть Мову
Виберіть мову вашого тексту для оптимальної точності виявлення:
- Автовизначення - Дозвольте системі визначити мову - Let the system determine the language
- Конкретна мова - Виберіть з 27 підтримуваних мов - Select from 27 supported languages
Вибір Мови Важливий
Вибір правильної мови значно покращує точність виявлення, особливо для імен осіб та місць.
Крок 4: Запустіть Аналіз
- Натисніть кнопку Аналізу
- Зачекайте, поки аналіз завершиться (зазвичай 1-3 секунди)
- Перегляньте виявлені сутності в панелі результатів
Розуміння Результатів
Після аналізу кожна виявлена сутність показує:
Позиція: символи
Поля Результатів
- Тип Сутності - Категорія виявленого PII (OSOBA, EMAIL тощо) - The category of PII detected (PERSON, EMAIL, etc.)
- Текст - Фактичний текст, що був ідентифікований як PII - The actual text that was identified as PII
- Оцінка Достовірності - Наскільки впевнена система (0-100%) - How certain the system is (0-100%)
- Позиція - Початкові та кінцеві позиції символів - Start and end character positions
Поріг Достовірності
Налаштуйте поріг достовірності для контролю чутливості:
| Поріг | Ефект | Найкраще для |
|---|---|---|
| Низький | Більше виявлених сутностей, більше хибнопозитивних результатів | Максимальне покриття, ручний перегляд |
| За замовчуванням | Збалансоване виявлення та точність | Загальне використання |
| Високий | Менше сутностей, вища достовірність | Автоматизована обробка |
| Дуже високий | Тільки дуже впевнені збіги | Мінімальне втручання |
Вибір Результатів
Після аналізу ви можете уточнити, які сутності анонімізувати:
Вибрати/Скасувати Вибір Усі
- Використовуйте прапорець у заголовку, щоб вибрати або скасувати вибір усіх результатів
- Тільки вибрані сутності будуть анонімізовані
Індивідуальний Вибір
- Натискайте індивідуальні прапорці, щоб включити/виключити конкретні сутності
- Корисно, коли аналізатор виявляє хибнопозитивні результати
- Корисно, коли ви хочете зберегти певну інформацію видимою
Фільтрувати за Типом
- Натискайте на значок типу сутності, щоб фільтрувати результати за цим типом
- Швидко вибирайте/скасовуйте вибір усіх сутностей конкретного типу
Перегляньте результати перед анонімізацією. Аналізатор може іноді виявляти хибнопозитивні результати, особливо для імен, які також є загальними словами.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Витрати Токенів
Операції аналізу споживають токени на основі:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Довжина Текстуentities_enabled= Сутностіentities_found= number of entities detected
Типова Вартість
| Довжина Тексту | Сутності | Типова Вартість |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Документація системи токенів Token System documentation for complete pricing details.
Найкращі Практики
Виправлення Помилок
Сутність не виявлена?
- Переконайтеся, що тип сутності увімкнено у вашому виборі
- Спробуйте знизити поріг достовірності
- Перевірте, що вибрано правильну мову
- Переконайтеся, що формат тексту відповідає очікуваним шаблонам
Занадто багато хибнопозитивних результатів?
- Збільшіть поріг достовірності
- Скасуйте вибір широких типів сутностей, таких як LOCATION
- Використовуйте специфічні пресети сутностей замість вибору всіх
Аналіз займає занадто багато часу?
- Розбийте великі тексти на менші частини
- Зменшіть кількість вибраних типів сутностей
- Використовуйте пресети, щоб уникнути завантаження невикористовуваних моделей виявлення
Next Steps
Останнє оновлення: березень 2026