common.skipToContent

Аналізатор PII

Виявляйте особисту інформацію у вашому тексті

Аналізатор PII сканує ваш текст і виявляє чутливу інформацію, таку як імена, електронні адреси, номери телефонів, адреси та інше.


Як це працює

Аналізатор використовує кілька методів виявлення для ідентифікації PII:

Відповідність шаблону

Регулярні вирази виявляють структуровані дані, такі як електронні адреси, номери телефонів, кредитні картки та IBAN з високою точністю.

Машинне навчання (NER)

Моделі виявлення іменованих сутностей ідентифікують контекстно-залежні сутності, такі як імена осіб, організації та місця, використовуючи spaCy, Stanza та Transformers.

Перевірка контрольної суми

Кредитні картки, IBAN та інші фінансові ідентифікатори перевіряються за допомогою алгоритмів контрольних сум (Luhn, MOD-97) для зменшення кількості хибнопозитивних результатів.


Використання Аналізатора

Крок 1: Введіть Ваш Текст

  1. Перейдіть на сторінку Анонімізації
  2. Вставте або введіть ваш текст у вхідній області
  3. Інтерфейс показує кількість символів та оцінку токенів

Крок 2: Виберіть Типи Сутностей

Виберіть, які типи PII виявляти:

Типи сутностейМи підтримуємо 256 типів сутностей, організованих у 10 категорій:Текст - Фактичний текст, що був ідентифікований як PII
Особисті - Імена, електронні адреси, номери телефонів, дати народженняPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Фінансові - Кредитні картки, банківські рахунки, IBAN, криптогаманціCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Локація - Адреси, міста, країни, координатиLOCATION, ADDRESS, COORDINATES123 Main St, New York
Державні - SSN, номери паспортів, водійські посвідчення, національні IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Технічні - IP-адреси, MAC-адреси, ID пристроївIP_ADDRESS, MAC_ADDRESS192.168.1.1

Замість ручного вибору сутностей, використовуйте Пресети для швидкого застосування загальних конфігурацій сутностей, таких як "Відповідність GDPR" або "Фінансові Дані".

Instead of selecting entities manually, use Пресети to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Крок 3: Виберіть Мову

Виберіть мову вашого тексту для оптимальної точності виявлення:

  • Автовизначення - Дозвольте системі визначити мову - Let the system determine the language
  • Конкретна мова - Виберіть з 27 підтримуваних мов - Select from 27 supported languages

Вибір Мови Важливий

Вибір правильної мови значно покращує точність виявлення, особливо для імен осіб та місць.

Крок 4: Запустіть Аналіз

  1. Натисніть кнопку Аналізу
  2. Зачекайте, поки аналіз завершиться (зазвичай 1-3 секунди)
  3. Перегляньте виявлені сутності в панелі результатів

Розуміння Результатів

Після аналізу кожна виявлена сутність показує:

PERSONJohn Doeдостовірність

Позиція: символи

Поля Результатів

  • Тип Сутності - Категорія виявленого PII (OSOBA, EMAIL тощо) - The category of PII detected (PERSON, EMAIL, etc.)
  • Текст - Фактичний текст, що був ідентифікований як PII - The actual text that was identified as PII
  • Оцінка Достовірності - Наскільки впевнена система (0-100%) - How certain the system is (0-100%)
  • Позиція - Початкові та кінцеві позиції символів - Start and end character positions

Поріг Достовірності

Налаштуйте поріг достовірності для контролю чутливості:

ПорігЕфектНайкраще для
НизькийБільше виявлених сутностей, більше хибнопозитивних результатівМаксимальне покриття, ручний перегляд
За замовчуваннямЗбалансоване виявлення та точністьЗагальне використання
ВисокийМенше сутностей, вища достовірністьАвтоматизована обробка
Дуже високийТільки дуже впевнені збігиМінімальне втручання

Вибір Результатів

Після аналізу ви можете уточнити, які сутності анонімізувати:

Вибрати/Скасувати Вибір Усі

  • Використовуйте прапорець у заголовку, щоб вибрати або скасувати вибір усіх результатів
  • Тільки вибрані сутності будуть анонімізовані

Індивідуальний Вибір

  • Натискайте індивідуальні прапорці, щоб включити/виключити конкретні сутності
  • Корисно, коли аналізатор виявляє хибнопозитивні результати
  • Корисно, коли ви хочете зберегти певну інформацію видимою

Фільтрувати за Типом

  • Натискайте на значок типу сутності, щоб фільтрувати результати за цим типом
  • Швидко вибирайте/скасовуйте вибір усіх сутностей конкретного типу

Перегляньте результати перед анонімізацією. Аналізатор може іноді виявляти хибнопозитивні результати, особливо для імен, які також є загальними словами.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Витрати Токенів

Операції аналізу споживають токени на основі:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Довжина Тексту
  • entities_enabled = Сутності
  • entities_found = number of entities detected

Типова Вартість

Довжина ТекстуСутностіТипова Вартість
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Документація системи токенів Token System documentation for complete pricing details.


Найкращі Практики

Вибирайте лише ті типи сутностей, які вам потрібні - зменшує витрати та хибнопозитивні результати
Використовуйте мовні пресети для кращої точності в текстах, що не є англійськими
Переглядайте результати перед анонімізацією, особливо для імен та місць
Використовуйте вищі пороги достовірності для автоматизованої обробки
Обробляйте текст у розумних частинах (менше 10,000 символів) для найкращої продуктивності

Виправлення Помилок

Сутність не виявлена?

  • Переконайтеся, що тип сутності увімкнено у вашому виборі
  • Спробуйте знизити поріг достовірності
  • Перевірте, що вибрано правильну мову
  • Переконайтеся, що формат тексту відповідає очікуваним шаблонам

Занадто багато хибнопозитивних результатів?

  • Збільшіть поріг достовірності
  • Скасуйте вибір широких типів сутностей, таких як LOCATION
  • Використовуйте специфічні пресети сутностей замість вибору всіх

Аналіз займає занадто багато часу?

  • Розбийте великі тексти на менші частини
  • Зменшіть кількість вибраних типів сутностей
  • Використовуйте пресети, щоб уникнути завантаження невикористовуваних моделей виявлення

Next Steps

Останнє оновлення: березень 2026