Анализатор PII
Обнаружение персонально идентифицируемой информации в вашем тексте
Анализатор PII сканирует ваш текст и выявляет конфиденциальную информацию, такую как имена, электронные адреса, номера телефонов, адреса и многое другое.
Как это работает
Анализатор использует несколько методов обнаружения для идентификации PII:
Сопоставление шаблонов
Регулярные выражения обнаруживают структурированные данные, такие как адреса электронной почты, номера телефонов, кредитные карты и IBAN с высокой точностью.
Машинное обучение (NER)
Модели распознавания именованных сущностей идентифицируют контекстно-зависимые сущности, такие как имена людей, организации и местоположения, используя spaCy, Stanza и Transformers.
Проверка контрольной суммы
Кредитные карты, IBAN и другие финансовые идентификаторы проверяются с использованием алгоритмов контрольной суммы (Luhn, MOD-97) для уменьшения ложных срабатываний.
Использование Анализатора
Шаг 1: Введите ваш текст
- Перейдите на страницу Анонимизация
- Вставьте или введите ваш текст в области ввода
- Интерфейс показывает количество символов и оценку токенов
Шаг 2: Выберите типы сущностей
Выберите, какие типы PII обнаружить:
| Типы сущностей | Мы поддерживаем 256 типов сущностей, организованных в 10 категорий: | Текст - Фактический текст, который был идентифицирован как PII |
|---|---|---|
| Личные - Имена, электронные адреса, номера телефонов, даты рождения | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| Финансовые - Кредитные карты, банковские счета, IBAN, криптокошельки | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| Местоположение - Адреса, города, страны, координаты | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| Государственные - SSN, номера паспортов, водительские удостоверения, национальные ID | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| Технические - IP-адреса, MAC-адреса, идентификаторы устройств | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
Вместо того чтобы вручную выбирать сущности, используйте Предустановки, чтобы быстро применить общие конфигурации сущностей, такие как "Соответствие GDPR" или "Финансовые данные".
Instead of selecting entities manually, use Предустановки to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
Шаг 3: Выберите язык
Выберите язык вашего текста для оптимальной точности обнаружения:
- Автоопределение - Позвольте системе определить язык - Let the system determine the language
- Конкретный язык - Выберите из 27 поддерживаемых языков - Select from 27 supported languages
Выбор языка имеет значение
Выбор правильного языка значительно улучшает точность обнаружения, особенно для имен людей и местоположений.
Шаг 4: Запустите анализ
- Нажмите кнопку Анализировать
- Подождите, пока анализ завершится (обычно 1-3 секунды)
- Просмотрите обнаруженные сущности в панели результатов
Понимание результатов
После анализа каждая обнаруженная сущность показывает:
Позиция: символы
Поля результата
- Тип сущности - Категория обнаруженного PII (PERSON, EMAIL и т.д.) - The category of PII detected (PERSON, EMAIL, etc.)
- Текст - Фактический текст, который был идентифицирован как PII - The actual text that was identified as PII
- Оценка уверенности - Насколько система уверена (0-100%) - How certain the system is (0-100%)
- Позиция - Начальные и конечные позиции символов - Start and end character positions
Порог уверенности
Настройте порог уверенности для контроля чувствительности:
| Порог | Эффект | Лучше всего для |
|---|---|---|
| Низкий | Больше обнаруженных сущностей, больше ложных срабатываний | Максимальное покрытие, ручная проверка |
| По умолчанию | Сбалансированное обнаружение и точность | Общее использование |
| Высокий | Меньше сущностей, выше уверенность | Автоматизированная обработка |
| Очень высокий | Только очень уверенные совпадения | Минимальное вмешательство |
Выбор результатов
После анализа вы можете уточнить, какие сущности анонимизировать:
Выбрать/Снять выбор всех
- Используйте флажок в заголовке, чтобы выбрать или снять выбор со всех результатов
- Только выбранные сущности будут анонимизированы
Индивидуальный выбор
- Нажмите на отдельные флажки, чтобы включить/исключить конкретные сущности
- Полезно, когда анализатор обнаруживает ложные срабатывания
- Полезно, когда вы хотите оставить определенную информацию видимой
Фильтр по типу
- Нажмите на значок типа сущности, чтобы отфильтровать результаты по этому типу
- Быстро выберите/снимите выбор со всех сущностей конкретного типа
Просмотрите результаты перед анонимизацией. Анализатор может время от времени обнаруживать ложные срабатывания, особенно для имен, которые также являются общими словами.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
Стоимость токенов
Операции анализа потребляют токены на основе:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= Длина текстаentities_enabled= Сущностиentities_found= number of entities detected
Типичная стоимость
| Длина текста | Сущности | Типичная стоимость |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
Документация по системе токенов Token System documentation for complete pricing details.
Лучшие практики
Устранение неполадок
Сущность не обнаружена?
- Убедитесь, что тип сущности включен в ваш выбор
- Попробуйте снизить порог уверенности
- Проверьте, что выбран правильный язык
- Убедитесь, что формат текста соответствует ожидаемым шаблонам
Слишком много ложных срабатываний?
- Увеличьте порог уверенности
- Снимите выбор с широких типов сущностей, таких как LOCATION
- Используйте предустановки для конкретных сущностей вместо выбора всех
Анализ занимает слишком много времени?
- Разделите большие тексты на более мелкие части
- Сократите количество выбранных типов сущностей
- Используйте предустановки, чтобы избежать загрузки неиспользуемых моделей обнаружения
Next Steps
Последнее обновление: Март 2026