Анализатор PII

Обнаружение персонально идентифицируемой информации в вашем тексте

Анализатор PII сканирует ваш текст и выявляет конфиденциальную информацию, такую как имена, электронные адреса, номера телефонов, адреса и многое другое.

Как это работает

Анализатор использует несколько методов обнаружения для идентификации PII:

Сопоставление шаблонов

Регулярные выражения обнаруживают структурированные данные, такие как адреса электронной почты, номера телефонов, кредитные карты и IBAN с высокой точностью.

Машинное обучение (NER)

Модели распознавания именованных сущностей идентифицируют контекстно-зависимые сущности, такие как имена людей, организации и местоположения, используя spaCy, Stanza и Transformers.

Проверка контрольной суммы

Кредитные карты, IBAN и другие финансовые идентификаторы проверяются с использованием алгоритмов контрольной суммы (Luhn, MOD-97) для уменьшения ложных срабатываний.

Использование Анализатора

Шаг 1: Введите ваш текст

Перейдите на страницу Анонимизация
Вставьте или введите ваш текст в области ввода
Интерфейс показывает количество символов и оценку токенов

Шаг 2: Выберите типы сущностей

Выберите, какие типы PII обнаружить:

Типы сущностей	Мы поддерживаем 256 типов сущностей, организованных в 10 категорий:	Текст - Фактический текст, который был идентифицирован как PII
Личные - Имена, электронные адреса, номера телефонов, даты рождения	PERSON, EMAIL_ADDRESS, PHONE_NUMBER	John Doe, john@email.com
Финансовые - Кредитные карты, банковские счета, IBAN, криптокошельки	CREDIT_CARD, IBAN_CODE, SWIFT_CODE	4111-1111-1111-1111
Местоположение - Адреса, города, страны, координаты	LOCATION, ADDRESS, COORDINATES	123 Main St, New York
Государственные - SSN, номера паспортов, водительские удостоверения, национальные ID	SSN, PASSPORT, DRIVER_LICENSE	123-45-6789
Технические - IP-адреса, MAC-адреса, идентификаторы устройств	IP_ADDRESS, MAC_ADDRESS	192.168.1.1

Вместо того чтобы вручную выбирать сущности, используйте Предустановки, чтобы быстро применить общие конфигурации сущностей, такие как "Соответствие GDPR" или "Финансовые данные".

Instead of selecting entities manually, use Предустановки to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Шаг 3: Выберите язык

Выберите язык вашего текста для оптимальной точности обнаружения:

Автоопределение - Позвольте системе определить язык - Let the system determine the language
Конкретный язык - Выберите из 27 поддерживаемых языков - Select from 27 supported languages

Выбор языка имеет значение

Выбор правильного языка значительно улучшает точность обнаружения, особенно для имен людей и местоположений.

Шаг 4: Запустите анализ

Нажмите кнопку Анализировать
Подождите, пока анализ завершится (обычно 1-3 секунды)
Просмотрите обнаруженные сущности в панели результатов

Понимание результатов

После анализа каждая обнаруженная сущность показывает:

PERSONJohn Doeуверенность

Позиция: символы

Поля результата

Тип сущности - Категория обнаруженного PII (PERSON, EMAIL и т.д.) - The category of PII detected (PERSON, EMAIL, etc.)
Текст - Фактический текст, который был идентифицирован как PII - The actual text that was identified as PII
Оценка уверенности - Насколько система уверена (0-100%) - How certain the system is (0-100%)
Позиция - Начальные и конечные позиции символов - Start and end character positions

Порог уверенности

Настройте порог уверенности для контроля чувствительности:

Порог	Эффект	Лучше всего для
Низкий	Больше обнаруженных сущностей, больше ложных срабатываний	Максимальное покрытие, ручная проверка
По умолчанию	Сбалансированное обнаружение и точность	Общее использование
Высокий	Меньше сущностей, выше уверенность	Автоматизированная обработка
Очень высокий	Только очень уверенные совпадения	Минимальное вмешательство

Выбор результатов

После анализа вы можете уточнить, какие сущности анонимизировать:

Выбрать/Снять выбор всех

Используйте флажок в заголовке, чтобы выбрать или снять выбор со всех результатов
Только выбранные сущности будут анонимизированы

Индивидуальный выбор

Нажмите на отдельные флажки, чтобы включить/исключить конкретные сущности
Полезно, когда анализатор обнаруживает ложные срабатывания
Полезно, когда вы хотите оставить определенную информацию видимой

Фильтр по типу

Нажмите на значок типа сущности, чтобы отфильтровать результаты по этому типу
Быстро выберите/снимите выбор со всех сущностей конкретного типа

Просмотрите результаты перед анонимизацией. Анализатор может время от времени обнаруживать ложные срабатывания, особенно для имен, которые также являются общими словами.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.

Стоимость токенов

Операции анализа потребляют токены на основе:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

text_k = Длина текста
entities_enabled = Сущности
entities_found = number of entities detected

Типичная стоимость

Длина текста	Сущности	Типичная стоимость
100 characters	3 types, 2 found	2 tokens
1,000 characters	5 types, 5 found	3 tokens
5,000 characters	10 types, 15 found	6 tokens
10,000 characters	15 types, 30 found	10 tokens

Документация по системе токенов Token System documentation for complete pricing details.

Лучшие практики

✅Выбирайте только те типы сущностей, которые вам нужны - это снижает затраты и ложные срабатывания

✅Используйте языковые предустановки для лучшей точности в текстах на неанглийском языке

✅Просмотрите результаты перед анонимизацией, особенно для имен и местоположений

✅Используйте более высокие пороги уверенности для автоматизированной обработки

✅Обрабатывайте текст разумными частями (менее 10 000 символов) для лучшей производительности

Устранение неполадок

Сущность не обнаружена?

Убедитесь, что тип сущности включен в ваш выбор
Попробуйте снизить порог уверенности
Проверьте, что выбран правильный язык
Убедитесь, что формат текста соответствует ожидаемым шаблонам

Слишком много ложных срабатываний?

Увеличьте порог уверенности
Снимите выбор с широких типов сущностей, таких как LOCATION
Используйте предустановки для конкретных сущностей вместо выбора всех

Анализ занимает слишком много времени?

Разделите большие тексты на более мелкие части
Сократите количество выбранных типов сущностей
Используйте предустановки, чтобы избежать загрузки неиспользуемых моделей обнаружения

Next Steps

Руководство по анонимизации

Узнайте, как анонимизировать обнаруженные сущности

Предустановки

Сохраните и повторно используйте конфигурации сущностей

Последнее обновление: Март 2026