common.skipToContent

PII विश्लेषक

अपने पाठ में व्यक्तिगत पहचान योग्य जानकारी का पता लगाएं

PII विश्लेषक आपके पाठ को स्कैन करता है और नामों, ईमेल, फोन नंबरों, पते और अधिक जैसी संवेदनशील जानकारी की पहचान करता है।


यह कैसे काम करता है

एनालाइज़र कई पहचान विधियों का उपयोग करके PII की पहचान करता है:

पैटर्न मिलान

नियमित अभिव्यक्तियाँ ईमेल पते, फोन नंबर, क्रेडिट कार्ड और IBAN जैसी संरचित डेटा को उच्च सटीकता के साथ पहचानती हैं।

मशीन लर्निंग (NER)

नामित इकाई पहचान मॉडल संदर्भ-निर्भर संस्थाओं जैसे व्यक्ति के नाम, संगठनों और स्थानों की पहचान करते हैं, जो spaCy, Stanza और Transformers का उपयोग करते हैं।

चेकसम सत्यापन

क्रेडिट कार्ड, IBAN और अन्य वित्तीय पहचानकर्ताओं को चेकसम एल्गोरिदम (Luhn, MOD-97) का उपयोग करके सत्यापित किया जाता है ताकि झूठे सकारात्मक कम हों।


एनालाइज़र का उपयोग करना

चरण 1: अपना पाठ दर्ज करें

  1. एनोनिमाइज पृष्ठ पर जाएं
  2. इनपुट क्षेत्र में अपना पाठ चिपकाएं या टाइप करें
  3. इंटरफेस एक वर्ण गणना और टोकन अनुमान दिखाता है

चरण 2: इकाई प्रकार चुनें

कौन से प्रकार के PII का पता लगाना है, चुनें:

संस्थान के प्रकारहम 10 श्रेणियों में व्यवस्थित 256 संस्थान के प्रकार का समर्थन करते हैं:पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया
व्यक्तिगत - नाम, ईमेल, फोन नंबर, जन्म तिथियाँPERSON, EMAIL_ADDRESS, PHONE_NUMBERJohn Doe, john@email.com
वित्तीय - क्रेडिट कार्ड, बैंक खाते, IBAN, क्रिप्टो वॉलेटCREDIT_CARD, IBAN_CODE, SWIFT_CODE4111-1111-1111-1111
स्थान - पते, शहर, देश, समन्वयLOCATION, ADDRESS, COORDINATES123 Main St, New York
सरकारी - SSN, पासपोर्ट नंबर, ड्राइवर लाइसेंस, राष्ट्रीय आईडीSSN, PASSPORT, DRIVER_LICENSE123-45-6789
तकनीकी - IP पते, MAC पते, डिवाइस आईडीIP_ADDRESS, MAC_ADDRESS192.168.1.1

इकाइयों को मैन्युअल रूप से चुनने के बजाय, सामान्य इकाई कॉन्फ़िगरेशन जैसे "GDPR अनुपालन" या "वित्तीय डेटा" को जल्दी लागू करने के लिए प्रीसेट का उपयोग करें।

Instead of selecting entities manually, use प्रीसेट to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

चरण 3: भाषा चुनें

सटीक पहचान के लिए अपने पाठ की भाषा चुनें:

  • स्वतः पहचानें - सिस्टम को भाषा निर्धारित करने दें - Let the system determine the language
  • विशिष्ट भाषा - 27 समर्थित भाषाओं में से चुनें - Select from 27 supported languages

भाषा चयन महत्वपूर्ण है

सही भाषा का चयन पहचान की सटीकता को महत्वपूर्ण रूप से बढ़ाता है, विशेष रूप से व्यक्ति के नाम और स्थानों के लिए।

चरण 4: विश्लेषण चलाएँ

  1. एनालाइज बटन पर क्लिक करें
  2. विश्लेषण पूरा होने की प्रतीक्षा करें (आमतौर पर 1-3 सेकंड)
  3. परिणाम पैनल में पहचानी गई इकाइयों की समीक्षा करें

परिणामों को समझना

विश्लेषण के बाद, प्रत्येक पहचानी गई इकाई दिखाती है:

PERSONJohn Doeविश्वास

स्थिति: वर्ण

परिणाम क्षेत्र

  • इकाई प्रकार - पहचान की गई PII की श्रेणी (PERSON, EMAIL, आदि) - The category of PII detected (PERSON, EMAIL, etc.)
  • पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया - The actual text that was identified as PII
  • विश्वास स्कोर - सिस्टम कितनी निश्चितता से है (0-100%) - How certain the system is (0-100%)
  • स्थिति - प्रारंभ और समाप्ति वर्ण स्थितियाँ - Start and end character positions

विश्वास सीमा

संवेदनशीलता को नियंत्रित करने के लिए विश्वास सीमा को समायोजित करें:

सीमाप्रभावसर्वश्रेष्ठ के लिए
कमअधिक इकाइयाँ पहचानी गईं, अधिक झूठे सकारात्मकअधिकतम कवरेज, मैन्युअल समीक्षा
डिफ़ॉल्टसंतुलित पहचान और सटीकतासामान्य उपयोग
उच्चकम इकाइयाँ, उच्च विश्वासस्वचालित प्रसंस्करण
बहुत उच्चकेवल बहुत निश्चित मेलन्यूनतम हस्तक्षेप

परिणामों का चयन

विश्लेषण के बाद, आप यह परिष्कृत कर सकते हैं कि किन इकाइयों को एनोनिमाइज करना है:

सभी का चयन/अविवेक करें

  • सभी परिणामों का चयन या अविवेक करने के लिए शीर्षक में चेकबॉक्स का उपयोग करें
  • केवल चयनित इकाइयाँ एनोनिमाइज की जाएंगी

व्यक्तिगत चयन

  • विशिष्ट इकाइयों को शामिल/बहिष्कृत करने के लिए व्यक्तिगत चेकबॉक्स पर क्लिक करें
  • जब एनालाइज़र झूठे सकारात्मक पहचानता है तो उपयोगी
  • जब आप कुछ जानकारी को दृश्यमान रखना चाहते हैं तो उपयोगी

प्रकार द्वारा फ़िल्टर करें

  • उस प्रकार के परिणामों को फ़िल्टर करने के लिए इकाई प्रकार बैज पर क्लिक करें
  • विशिष्ट प्रकार की सभी इकाइयों को जल्दी से चयनित/अविवेक करें

एनोनिमाइज करने से पहले परिणामों की समीक्षा करें। एनालाइज़र कभी-कभी झूठे सकारात्मक पहचान सकता है, विशेष रूप से उन नामों के लिए जो सामान्य शब्द भी हैं।

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.


टोकन लागत

विश्लेषण संचालन टोकन का उपभोग करते हैं:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

  • text_k = पाठ की लंबाई
  • entities_enabled = इकाइयाँ
  • entities_found = number of entities detected

सामान्य लागत

पाठ की लंबाईइकाइयाँसामान्य लागत
100 characters3 types, 2 found2 tokens
1,000 characters5 types, 5 found3 tokens
5,000 characters10 types, 15 found6 tokens
10,000 characters15 types, 30 found10 tokens

टोकन सिस्टम दस्तावेज़ Token System documentation for complete pricing details.


सर्वोत्तम प्रथाएँ

केवल उन इकाई प्रकारों का चयन करें जिनकी आपको आवश्यकता है - लागत और झूठे सकारात्मक को कम करता है
गैर-अंग्रेजी पाठ में बेहतर सटीकता के लिए भाषा-विशिष्ट प्रीसेट का उपयोग करें
एनोनिमाइज करने से पहले परिणामों की समीक्षा करें, विशेष रूप से नामों और स्थानों के लिए
स्वचालित प्रसंस्करण के लिए उच्च विश्वास सीमाओं का उपयोग करें
सर्वश्रेष्ठ प्रदर्शन के लिए पाठ को उचित टुकड़ों (10,000 वर्ण से कम) में संसाधित करें

समस्या निवारण

इकाई पहचान नहीं हुई?

  • सुनिश्चित करें कि आपकी चयन में इकाई प्रकार सक्षम है
  • विश्वास सीमा को कम करने का प्रयास करें
  • सुनिश्चित करें कि सही भाषा का चयन किया गया है
  • सत्यापित करें कि पाठ प्रारूप अपेक्षित पैटर्न से मेल खाता है

बहुत अधिक झूठे सकारात्मक?

  • विश्वास सीमा बढ़ाएँ
  • LOCATION जैसे व्यापक इकाई प्रकारों को अविवेक करें
  • सभी का चयन करने के बजाय इकाई-विशिष्ट प्रीसेट का उपयोग करें

विश्लेषण बहुत समय ले रहा है?

  • बड़े पाठों को छोटे टुकड़ों में विभाजित करें
  • चयनित इकाई प्रकारों की संख्या को कम करें
  • अन्यथा उपयोग में न आने वाले पहचान मॉडल को लोड करने से बचने के लिए प्रीसेट का उपयोग करें

Next Steps

अंतिम अपडेट: मार्च 2026