common.skipToContent

PII 분석기

텍스트에서 개인 식별 정보를 탐지합니다.

PII 분석기는 텍스트를 스캔하여 이름, 이메일, 전화번호, 주소 등과 같은 민감한 정보를 식별합니다.


작동 방식

분석기는 여러 탐지 방법을 사용하여 PII를 식별합니다:

패턴 매칭

정규 표현식은 이메일 주소, 전화번호, 신용카드 및 IBAN과 같은 구조화된 데이터를 높은 정확도로 탐지합니다.

기계 학습 (NER)

명명된 개체 인식 모델은 spaCy, Stanza 및 Transformers를 사용하여 사람 이름, 조직 및 위치와 같은 맥락 의존적인 개체를 식별합니다.

체크섬 검증

신용카드, IBAN 및 기타 금융 식별자는 체크섬 알고리즘(Luhn, MOD-97)을 사용하여 검증되어 잘못된 긍정 결과를 줄입니다.


분석기 사용하기

1단계: 텍스트 입력

  1. 익명화 페이지로 이동합니다.
  2. 입력 영역에 텍스트를 붙여넣거나 입력합니다.
  3. 인터페이스는 문자 수와 토큰 추정치를 표시합니다.

2단계: 개체 유형 선택

탐지할 PII 유형을 선택합니다:

엔티티 유형우리는 10개 카테고리로 구성된 256개의 엔티티 유형을 지원합니다:텍스트 - PII로 식별된 실제 텍스트
개인 - 이름, 이메일, 전화번호, 생년월일PERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
재무 - 신용 카드, 은행 계좌, IBAN, 암호화폐 지갑CREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
위치 - 주소, 도시, 국가, 좌표LOCATION, ADDRESS, COORDINATES123 Main St, New York
정부 - 사회 보장 번호, 여권 번호, 운전 면허증, 국가 IDSSN, PASSPORT, DRIVER_LICENSE123-45-6789
기술 - IP 주소, MAC 주소, 장치 IDIP_ADDRESS, MAC_ADDRESS192.168.1.1

개체를 수동으로 선택하는 대신, "GDPR 준수" 또는 "재무 데이터"와 같은 일반 개체 구성을 빠르게 적용하기 위해 프리셋을 사용하세요.

Instead of selecting entities manually, use 프리셋 to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

3단계: 언어 선택

최적의 탐지 정확도를 위해 텍스트의 언어를 선택합니다:

  • 자동 탐지 - 시스템이 언어를 결정하도록 합니다. - Let the system determine the language
  • 특정 언어 - 지원되는 27개 언어 중에서 선택합니다. - Select from 27 supported languages

언어 선택이 중요합니다.

올바른 언어를 선택하면 탐지 정확도가 크게 향상됩니다, 특히 사람 이름과 위치에 대해.

4단계: 분석 실행

  1. 분석 버튼을 클릭합니다.
  2. 분석이 완료될 때까지 기다립니다 (일반적으로 1-3초 소요).
  3. 결과 패널에서 탐지된 개체를 검토합니다.

결과 이해하기

분석 후, 각 탐지된 개체는 다음을 보여줍니다:

PERSONJohn Doe신뢰도

위치: 문자

결과 필드

  • 개체 유형 - 탐지된 PII의 범주 (PERSON, EMAIL 등) - The category of PII detected (PERSON, EMAIL, etc.)
  • 텍스트 - PII로 식별된 실제 텍스트 - The actual text that was identified as PII
  • 신뢰도 점수 - 시스템의 확신 정도 (0-100%) - How certain the system is (0-100%)
  • 위치 - 시작 및 종료 문자 위치 - Start and end character positions

신뢰도 임계값

민감도를 조절하기 위해 신뢰도 임계값을 조정합니다:

임계값효과최적의 사용
낮음더 많은 개체 탐지, 더 많은 잘못된 긍정 결과최대 범위, 수동 검토
기본값균형 잡힌 탐지 및 정확도일반 사용
높음더 적은 개체, 더 높은 신뢰도자동화된 처리
매우 높음매우 확신하는 일치만최소한의 개입

결과 선택하기

분석 후, 익명화할 개체를 세분화할 수 있습니다:

모두 선택/선택 해제

  • 헤더의 체크박스를 사용하여 모든 결과를 선택하거나 선택 해제합니다.
  • 선택된 개체만 익명화됩니다.

개별 선택

  • 개별 체크박스를 클릭하여 특정 개체를 포함/제외합니다.
  • 분석기가 잘못된 긍정 결과를 탐지할 때 유용합니다.
  • 특정 정보를 가시적으로 유지하고 싶을 때 유용합니다.

유형별 필터링

  • 개체 유형 배지를 클릭하여 해당 유형으로 결과를 필터링합니다.
  • 특정 유형의 모든 개체를 빠르게 선택/선택 해제합니다.

익명화하기 전에 결과를 검토하세요. 분석기가 이름과 같이 일반 단어인 경우 잘못된 긍정 결과를 탐지할 수 있습니다.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


토큰 비용

분석 작업은 다음을 기반으로 토큰을 소모합니다:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = 텍스트 길이
  • entities_enabled = 개체
  • entities_found = number of entities detected

일반적인 비용

텍스트 길이개체일반적인 비용
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

토큰 시스템 문서 Token System documentation for complete pricing details.


모범 사례

필요한 개체 유형만 선택하세요 - 비용과 잘못된 긍정 결과를 줄입니다.
비영어 텍스트의 정확성을 높이기 위해 언어별 프리셋을 사용하세요.
익명화하기 전에 결과를 검토하세요, 특히 이름과 위치에 대해.
자동화된 처리를 위해 더 높은 신뢰도 임계값을 사용하세요.
최상의 성능을 위해 텍스트를 합리적인 덩어리(10,000자 이하)로 처리하세요.

문제 해결

개체가 탐지되지 않았습니까?

  • 개체 유형이 선택에서 활성화되어 있는지 확인하세요.
  • 신뢰도 임계값을 낮춰보세요.
  • 올바른 언어가 선택되었는지 확인하세요.
  • 텍스트 형식이 예상 패턴과 일치하는지 확인하세요.

잘못된 긍정 결과가 너무 많습니까?

  • 신뢰도 임계값을 높이세요.
  • LOCATION과 같은 광범위한 개체 유형의 선택을 해제하세요.
  • 모두 선택하는 대신 개체별 프리셋을 사용하세요.

분석이 너무 오래 걸리나요?

  • 큰 텍스트를 더 작은 덩어리로 나누세요.
  • 선택된 개체 유형의 수를 줄이세요.
  • 사용하지 않는 탐지 모델을 로드하지 않도록 프리셋을 사용하세요.

Next Steps

마지막 업데이트: 2026년 3월