common.skipToContent

Анализатор PII

Обнаружение персонально идентифицируемой информации в вашем тексте

Анализатор PII сканирует ваш текст и выявляет конфиденциальную информацию, такую как имена, электронные адреса, номера телефонов, адреса и многое другое.


Как это работает

Анализатор использует несколько методов обнаружения для идентификации PII:

Сопоставление шаблонов

Регулярные выражения обнаруживают структурированные данные, такие как адреса электронной почты, номера телефонов, кредитные карты и IBAN с высокой точностью.

Машинное обучение (NER)

Модели распознавания именованных сущностей идентифицируют контекстно-зависимые сущности, такие как имена людей, организации и местоположения, используя spaCy, Stanza и Transformers.

Проверка контрольной суммы

Кредитные карты, IBAN и другие финансовые идентификаторы проверяются с использованием алгоритмов контрольной суммы (Luhn, MOD-97) для уменьшения ложных срабатываний.


Использование Анализатора

Шаг 1: Введите ваш текст

  1. Перейдите на страницу Анонимизация
  2. Вставьте или введите ваш текст в области ввода
  3. Интерфейс показывает количество символов и оценку токенов

Шаг 2: Выберите типы сущностей

Выберите, какие типы PII обнаружить:

Типы сущностейМы поддерживаем 256 типов сущностей, организованных в 10 категорий:Текст - Фактический текст, который был идентифицирован как PII
Личные - Имена, электронные адреса, номера телефонов, даты рожденияPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Финансовые - Кредитные карты, банковские счета, IBAN, криптокошелькиCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Местоположение - Адреса, города, страны, координатыLOCATION, ADDRESS, COORDINATES123 Main St, New York
Государственные - SSN, номера паспортов, водительские удостоверения, национальные IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Технические - IP-адреса, MAC-адреса, идентификаторы устройствIP_ADDRESS, MAC_ADDRESS192.168.1.1

Вместо того чтобы вручную выбирать сущности, используйте Предустановки, чтобы быстро применить общие конфигурации сущностей, такие как "Соответствие GDPR" или "Финансовые данные".

Instead of selecting entities manually, use Предустановки to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Шаг 3: Выберите язык

Выберите язык вашего текста для оптимальной точности обнаружения:

  • Автоопределение - Позвольте системе определить язык - Let the system determine the language
  • Конкретный язык - Выберите из 27 поддерживаемых языков - Select from 27 supported languages

Выбор языка имеет значение

Выбор правильного языка значительно улучшает точность обнаружения, особенно для имен людей и местоположений.

Шаг 4: Запустите анализ

  1. Нажмите кнопку Анализировать
  2. Подождите, пока анализ завершится (обычно 1-3 секунды)
  3. Просмотрите обнаруженные сущности в панели результатов

Понимание результатов

После анализа каждая обнаруженная сущность показывает:

PERSONJohn Doeуверенность

Позиция: символы

Поля результата

  • Тип сущности - Категория обнаруженного PII (PERSON, EMAIL и т.д.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Текст - Фактический текст, который был идентифицирован как PII - The actual text that was identified as PII
  • Оценка уверенности - Насколько система уверена (0-100%) - How certain the system is (0-100%)
  • Позиция - Начальные и конечные позиции символов - Start and end character positions

Порог уверенности

Настройте порог уверенности для контроля чувствительности:

ПорогЭффектЛучше всего для
НизкийБольше обнаруженных сущностей, больше ложных срабатыванийМаксимальное покрытие, ручная проверка
По умолчаниюСбалансированное обнаружение и точностьОбщее использование
ВысокийМеньше сущностей, выше уверенностьАвтоматизированная обработка
Очень высокийТолько очень уверенные совпаденияМинимальное вмешательство

Выбор результатов

После анализа вы можете уточнить, какие сущности анонимизировать:

Выбрать/Снять выбор всех

  • Используйте флажок в заголовке, чтобы выбрать или снять выбор со всех результатов
  • Только выбранные сущности будут анонимизированы

Индивидуальный выбор

  • Нажмите на отдельные флажки, чтобы включить/исключить конкретные сущности
  • Полезно, когда анализатор обнаруживает ложные срабатывания
  • Полезно, когда вы хотите оставить определенную информацию видимой

Фильтр по типу

  • Нажмите на значок типа сущности, чтобы отфильтровать результаты по этому типу
  • Быстро выберите/снимите выбор со всех сущностей конкретного типа

Просмотрите результаты перед анонимизацией. Анализатор может время от времени обнаруживать ложные срабатывания, особенно для имен, которые также являются общими словами.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Стоимость токенов

Операции анализа потребляют токены на основе:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Длина текста
  • entities_enabled = Сущности
  • entities_found = number of entities detected

Типичная стоимость

Длина текстаСущностиТипичная стоимость
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Документация по системе токенов Token System documentation for complete pricing details.


Лучшие практики

Выбирайте только те типы сущностей, которые вам нужны - это снижает затраты и ложные срабатывания
Используйте языковые предустановки для лучшей точности в текстах на неанглийском языке
Просмотрите результаты перед анонимизацией, особенно для имен и местоположений
Используйте более высокие пороги уверенности для автоматизированной обработки
Обрабатывайте текст разумными частями (менее 10 000 символов) для лучшей производительности

Устранение неполадок

Сущность не обнаружена?

  • Убедитесь, что тип сущности включен в ваш выбор
  • Попробуйте снизить порог уверенности
  • Проверьте, что выбран правильный язык
  • Убедитесь, что формат текста соответствует ожидаемым шаблонам

Слишком много ложных срабатываний?

  • Увеличьте порог уверенности
  • Снимите выбор с широких типов сущностей, таких как LOCATION
  • Используйте предустановки для конкретных сущностей вместо выбора всех

Анализ занимает слишком много времени?

  • Разделите большие тексты на более мелкие части
  • Сократите количество выбранных типов сущностей
  • Используйте предустановки, чтобы избежать загрузки неиспользуемых моделей обнаружения

Next Steps

Последнее обновление: Март 2026