common.skipToContent

Analizator PII

Wykryj informacje umożliwiające identyfikację osób w swoim tekście

Analizator PII skanuje Twój tekst i identyfikuje wrażliwe informacje, takie jak imiona, e-maile, numery telefonów, adresy i inne.


Jak to działa

Analizator wykorzystuje wiele metod detekcji, aby zidentyfikować PII:

Dopasowanie wzorców

Wyrażenia regularne wykrywają dane strukturalne, takie jak adresy e-mail, numery telefonów, karty kredytowe i IBAN-y z wysoką dokładnością.

Uczenie maszynowe (NER)

Modele rozpoznawania nazwanych bytów identyfikują byty zależne od kontekstu, takie jak imiona osób, organizacje i lokalizacje, wykorzystując spaCy, Stanza i Transformers.

Walidacja sum kontrolnych

Karty kredytowe, IBAN-y i inne identyfikatory finansowe są walidowane przy użyciu algorytmów sum kontrolnych (Luhn, MOD-97) w celu zredukowania fałszywych pozytywów.


Używanie Analizatora

Krok 1: Wprowadź swój tekst

  1. Przejdź do strony Anonimizuj
  2. Wklej lub wpisz swój tekst w obszarze wejściowym
  3. Interfejs pokazuje liczbę znaków i szacowaną liczbę tokenów

Krok 2: Wybierz typy bytów

Wybierz, które typy PII chcesz wykryć:

Typy encjiObsługujemy 256 typów encji zorganizowanych w 10 kategoriach:Tekst - Rzeczywisty tekst, który został zidentyfikowany jako PII
Osobowe - Imiona, e-maile, numery telefonów, daty urodzeniaPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
Finansowe - Karty kredytowe, konta bankowe, IBAN, portfele kryptowalutoweCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
Lokalizacja - Adresy, miasta, kraje, współrzędneLOCATION, ADDRESS, COORDINATES123 Main St, New York
Rządowe - SSN, numery paszportów, prawa jazdy, numery identyfikacyjneSSN, PASSPORT, DRIVER_LICENSE123-45-6789
Techniczne - Adresy IP, adresy MAC, identyfikatory urządzeńIP_ADDRESS, MAC_ADDRESS192.168.1.1

Zamiast ręcznie wybierać byty, użyj Ustawień wstępnych, aby szybko zastosować typowe konfiguracje bytów, takie jak "Zgodność z RODO" lub "Dane finansowe".

Instead of selecting entities manually, use Ustawienia wstępne to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

Krok 3: Wybierz język

Wybierz język swojego tekstu dla optymalnej dokładności detekcji:

  • Automatyczne wykrywanie - pozwól systemowi określić język - Let the system determine the language
  • Specyficzny język - Wybierz z 27 obsługiwanych języków - Select from 27 supported languages

Wybór języka ma znaczenie

Wybór poprawnego języka znacznie poprawia dokładność detekcji, szczególnie dla imion osób i lokalizacji.

Krok 4: Uruchom analizę

  1. Kliknij przycisk Analizuj
  2. Poczekaj na zakończenie analizy (zwykle 1-3 sekundy)
  3. Przejrzyj wykryte byty w panelu wyników

Zrozumienie wyników

Po analizie każdy wykryty byt pokazuje:

PERSONJohn Doepewność

Pozycja: znaki

Pola wyników

  • Typ bytu - Kategoria wykrytego PII (OSOBA, EMAIL itp.) - The category of PII detected (PERSON, EMAIL, etc.)
  • Tekst - Rzeczywisty tekst, który został zidentyfikowany jako PII - The actual text that was identified as PII
  • Wynik pewności - Jak pewny jest system (0-100%) - How certain the system is (0-100%)
  • Pozycja - Pozycje początkowe i końcowe znaków - Start and end character positions

Próg pewności

Dostosuj próg pewności, aby kontrolować czułość:

PrógEfektNajlepsze dla
NiskiWięcej wykrytych bytów, więcej fałszywych pozytywówMaksymalne pokrycie, przegląd ręczny
DomyślnyZrównoważona detekcja i dokładnośćOgólne zastosowanie
WysokiMniej bytów, wyższa pewnośćAutomatyczne przetwarzanie
Bardzo wysokiTylko bardzo pewne dopasowaniaMinimalna interwencja

Wybieranie wyników

Po analizie możesz doprecyzować, które byty chcesz zanonimizować:

Zaznacz/odznacz wszystkie

  • Użyj pola wyboru w nagłówku, aby zaznaczyć lub odznaczyć wszystkie wyniki
  • Tylko zaznaczone byty zostaną zanonimizowane

Indywidualny wybór

  • Kliknij indywidualne pola wyboru, aby włączyć/wyłączyć konkretne byty
  • Przydatne, gdy analizator wykrywa fałszywe pozytywy
  • Przydatne, gdy chcesz, aby pewne informacje były widoczne

Filtruj według typu

  • Kliknij na odznakę typu bytu, aby filtrować wyniki według tego typu
  • Szybko zaznacz/odznacz wszystkie byty danego typu

Przejrzyj wyniki przed anonimizacją. Analizator może czasami wykrywać fałszywe pozytywy, szczególnie dla imion, które są również powszechnymi słowami.

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


Koszty tokenów

Operacje analizy konsumują tokeny w oparciu o:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = Długość tekstu
  • entities_enabled = Byty
  • entities_found = number of entities detected

Typowy koszt

Długość tekstuBytyTypowy koszt
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

Dokumentacja systemu tokenów Token System documentation for complete pricing details.


Najlepsze praktyki

Wybierz tylko te typy bytów, które są potrzebne - zmniejsza to koszty i fałszywe pozytywy
Użyj ustawień wstępnych specyficznych dla języka, aby uzyskać lepszą dokładność w tekstach nieanglojęzycznych
Przejrzyj wyniki przed anonimizacją, szczególnie dla imion i lokalizacji
Użyj wyższych progów pewności dla automatycznego przetwarzania
Przetwarzaj tekst w rozsądnych fragmentach (poniżej 10 000 znaków) dla najlepszej wydajności

Rozwiązywanie problemów

Byt nie został wykryty?

  • Upewnij się, że typ bytu jest włączony w twoim wyborze
  • Spróbuj obniżyć próg pewności
  • Sprawdź, czy wybrano poprawny język
  • Zweryfikuj, czy format tekstu odpowiada oczekiwanym wzorcom

Zbyt wiele fałszywych pozytywów?

  • Zwiększ próg pewności
  • Odznacz szerokie typy bytów, takie jak LOKALIZACJA
  • Użyj ustawień wstępnych specyficznych dla bytów zamiast zaznaczać wszystkie

Analiza trwa zbyt długo?

  • Podziel duże teksty na mniejsze fragmenty
  • Zredukuj liczbę wybranych typów bytów
  • Użyj ustawień wstępnych, aby uniknąć ładowania nieużywanych modeli detekcji

Next Steps

Ostatnia aktualizacja: marzec 2026