PII 분석기
텍스트에서 개인 식별 정보를 탐지합니다.
PII 분석기는 텍스트를 스캔하여 이름, 이메일, 전화번호, 주소 등과 같은 민감한 정보를 식별합니다.
작동 방식
분석기는 여러 탐지 방법을 사용하여 PII를 식별합니다:
패턴 매칭
정규 표현식은 이메일 주소, 전화번호, 신용카드 및 IBAN과 같은 구조화된 데이터를 높은 정확도로 탐지합니다.
기계 학습 (NER)
명명된 개체 인식 모델은 spaCy, Stanza 및 Transformers를 사용하여 사람 이름, 조직 및 위치와 같은 맥락 의존적인 개체를 식별합니다.
체크섬 검증
신용카드, IBAN 및 기타 금융 식별자는 체크섬 알고리즘(Luhn, MOD-97)을 사용하여 검증되어 잘못된 긍정 결과를 줄입니다.
분석기 사용하기
1단계: 텍스트 입력
- 익명화 페이지로 이동합니다.
- 입력 영역에 텍스트를 붙여넣거나 입력합니다.
- 인터페이스는 문자 수와 토큰 추정치를 표시합니다.
2단계: 개체 유형 선택
탐지할 PII 유형을 선택합니다:
| 엔티티 유형 | 우리는 10개 카테고리로 구성된 256개의 엔티티 유형을 지원합니다: | 텍스트 - PII로 식별된 실제 텍스트 |
|---|---|---|
| 개인 - 이름, 이메일, 전화번호, 생년월일 | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| 재무 - 신용 카드, 은행 계좌, IBAN, 암호화폐 지갑 | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| 위치 - 주소, 도시, 국가, 좌표 | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| 정부 - 사회 보장 번호, 여권 번호, 운전 면허증, 국가 ID | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| 기술 - IP 주소, MAC 주소, 장치 ID | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
개체를 수동으로 선택하는 대신, "GDPR 준수" 또는 "재무 데이터"와 같은 일반 개체 구성을 빠르게 적용하기 위해 프리셋을 사용하세요.
Instead of selecting entities manually, use 프리셋 to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
3단계: 언어 선택
최적의 탐지 정확도를 위해 텍스트의 언어를 선택합니다:
- 자동 탐지 - 시스템이 언어를 결정하도록 합니다. - Let the system determine the language
- 특정 언어 - 지원되는 27개 언어 중에서 선택합니다. - Select from 27 supported languages
언어 선택이 중요합니다.
올바른 언어를 선택하면 탐지 정확도가 크게 향상됩니다, 특히 사람 이름과 위치에 대해.
4단계: 분석 실행
- 분석 버튼을 클릭합니다.
- 분석이 완료될 때까지 기다립니다 (일반적으로 1-3초 소요).
- 결과 패널에서 탐지된 개체를 검토합니다.
결과 이해하기
분석 후, 각 탐지된 개체는 다음을 보여줍니다:
위치: 문자
결과 필드
- 개체 유형 - 탐지된 PII의 범주 (PERSON, EMAIL 등) - The category of PII detected (PERSON, EMAIL, etc.)
- 텍스트 - PII로 식별된 실제 텍스트 - The actual text that was identified as PII
- 신뢰도 점수 - 시스템의 확신 정도 (0-100%) - How certain the system is (0-100%)
- 위치 - 시작 및 종료 문자 위치 - Start and end character positions
신뢰도 임계값
민감도를 조절하기 위해 신뢰도 임계값을 조정합니다:
| 임계값 | 효과 | 최적의 사용 |
|---|---|---|
| 낮음 | 더 많은 개체 탐지, 더 많은 잘못된 긍정 결과 | 최대 범위, 수동 검토 |
| 기본값 | 균형 잡힌 탐지 및 정확도 | 일반 사용 |
| 높음 | 더 적은 개체, 더 높은 신뢰도 | 자동화된 처리 |
| 매우 높음 | 매우 확신하는 일치만 | 최소한의 개입 |
결과 선택하기
분석 후, 익명화할 개체를 세분화할 수 있습니다:
모두 선택/선택 해제
- 헤더의 체크박스를 사용하여 모든 결과를 선택하거나 선택 해제합니다.
- 선택된 개체만 익명화됩니다.
개별 선택
- 개별 체크박스를 클릭하여 특정 개체를 포함/제외합니다.
- 분석기가 잘못된 긍정 결과를 탐지할 때 유용합니다.
- 특정 정보를 가시적으로 유지하고 싶을 때 유용합니다.
유형별 필터링
- 개체 유형 배지를 클릭하여 해당 유형으로 결과를 필터링합니다.
- 특정 유형의 모든 개체를 빠르게 선택/선택 해제합니다.
익명화하기 전에 결과를 검토하세요. 분석기가 이름과 같이 일반 단어인 경우 잘못된 긍정 결과를 탐지할 수 있습니다.
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
토큰 비용
분석 작업은 다음을 기반으로 토큰을 소모합니다:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= 텍스트 길이entities_enabled= 개체entities_found= number of entities detected
일반적인 비용
| 텍스트 길이 | 개체 | 일반적인 비용 |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
토큰 시스템 문서 Token System documentation for complete pricing details.
모범 사례
문제 해결
개체가 탐지되지 않았습니까?
- 개체 유형이 선택에서 활성화되어 있는지 확인하세요.
- 신뢰도 임계값을 낮춰보세요.
- 올바른 언어가 선택되었는지 확인하세요.
- 텍스트 형식이 예상 패턴과 일치하는지 확인하세요.
잘못된 긍정 결과가 너무 많습니까?
- 신뢰도 임계값을 높이세요.
- LOCATION과 같은 광범위한 개체 유형의 선택을 해제하세요.
- 모두 선택하는 대신 개체별 프리셋을 사용하세요.
분석이 너무 오래 걸리나요?
- 큰 텍스트를 더 작은 덩어리로 나누세요.
- 선택된 개체 유형의 수를 줄이세요.
- 사용하지 않는 탐지 모델을 로드하지 않도록 프리셋을 사용하세요.
Next Steps
마지막 업데이트: 2026년 3월