PII विश्लेषक

अपने पाठ में व्यक्तिगत पहचान योग्य जानकारी का पता लगाएं

PII विश्लेषक आपके पाठ को स्कैन करता है और नामों, ईमेल, फोन नंबरों, पते और अधिक जैसी संवेदनशील जानकारी की पहचान करता है।

यह कैसे काम करता है

एनालाइज़र कई पहचान विधियों का उपयोग करके PII की पहचान करता है:

पैटर्न मिलान

नियमित अभिव्यक्तियाँ ईमेल पते, फोन नंबर, क्रेडिट कार्ड और IBAN जैसी संरचित डेटा को उच्च सटीकता के साथ पहचानती हैं।

मशीन लर्निंग (NER)

नामित इकाई पहचान मॉडल संदर्भ-निर्भर संस्थाओं जैसे व्यक्ति के नाम, संगठनों और स्थानों की पहचान करते हैं, जो spaCy, Stanza और Transformers का उपयोग करते हैं।

चेकसम सत्यापन

क्रेडिट कार्ड, IBAN और अन्य वित्तीय पहचानकर्ताओं को चेकसम एल्गोरिदम (Luhn, MOD-97) का उपयोग करके सत्यापित किया जाता है ताकि झूठे सकारात्मक कम हों।

एनालाइज़र का उपयोग करना

चरण 1: अपना पाठ दर्ज करें

एनोनिमाइज पृष्ठ पर जाएं
इनपुट क्षेत्र में अपना पाठ चिपकाएं या टाइप करें
इंटरफेस एक वर्ण गणना और टोकन अनुमान दिखाता है

चरण 2: इकाई प्रकार चुनें

कौन से प्रकार के PII का पता लगाना है, चुनें:

संस्थान के प्रकार	हम 10 श्रेणियों में व्यवस्थित 256 संस्थान के प्रकार का समर्थन करते हैं:	पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया
व्यक्तिगत - नाम, ईमेल, फोन नंबर, जन्म तिथियाँ	PERSON, EMAIL_ADDRESS, PHONE_NUMBER	John Doe, john@email.com
वित्तीय - क्रेडिट कार्ड, बैंक खाते, IBAN, क्रिप्टो वॉलेट	CREDIT_CARD, IBAN_CODE, SWIFT_CODE	4111-1111-1111-1111
स्थान - पते, शहर, देश, समन्वय	LOCATION, ADDRESS, COORDINATES	123 Main St, New York
सरकारी - SSN, पासपोर्ट नंबर, ड्राइवर लाइसेंस, राष्ट्रीय आईडी	SSN, PASSPORT, DRIVER_LICENSE	123-45-6789
तकनीकी - IP पते, MAC पते, डिवाइस आईडी	IP_ADDRESS, MAC_ADDRESS	192.168.1.1

इकाइयों को मैन्युअल रूप से चुनने के बजाय, सामान्य इकाई कॉन्फ़िगरेशन जैसे "GDPR अनुपालन" या "वित्तीय डेटा" को जल्दी लागू करने के लिए प्रीसेट का उपयोग करें।

Instead of selecting entities manually, use प्रीसेट to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".

चरण 3: भाषा चुनें

सटीक पहचान के लिए अपने पाठ की भाषा चुनें:

स्वतः पहचानें - सिस्टम को भाषा निर्धारित करने दें - Let the system determine the language
विशिष्ट भाषा - 27 समर्थित भाषाओं में से चुनें - Select from 27 supported languages

भाषा चयन महत्वपूर्ण है

सही भाषा का चयन पहचान की सटीकता को महत्वपूर्ण रूप से बढ़ाता है, विशेष रूप से व्यक्ति के नाम और स्थानों के लिए।

चरण 4: विश्लेषण चलाएँ

एनालाइज बटन पर क्लिक करें
विश्लेषण पूरा होने की प्रतीक्षा करें (आमतौर पर 1-3 सेकंड)
परिणाम पैनल में पहचानी गई इकाइयों की समीक्षा करें

परिणामों को समझना

विश्लेषण के बाद, प्रत्येक पहचानी गई इकाई दिखाती है:

PERSONJohn Doeविश्वास

स्थिति: वर्ण

परिणाम क्षेत्र

इकाई प्रकार - पहचान की गई PII की श्रेणी (PERSON, EMAIL, आदि) - The category of PII detected (PERSON, EMAIL, etc.)
पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया - The actual text that was identified as PII
विश्वास स्कोर - सिस्टम कितनी निश्चितता से है (0-100%) - How certain the system is (0-100%)
स्थिति - प्रारंभ और समाप्ति वर्ण स्थितियाँ - Start and end character positions

विश्वास सीमा

संवेदनशीलता को नियंत्रित करने के लिए विश्वास सीमा को समायोजित करें:

सीमा	प्रभाव	सर्वश्रेष्ठ के लिए
कम	अधिक इकाइयाँ पहचानी गईं, अधिक झूठे सकारात्मक	अधिकतम कवरेज, मैन्युअल समीक्षा
डिफ़ॉल्ट	संतुलित पहचान और सटीकता	सामान्य उपयोग
उच्च	कम इकाइयाँ, उच्च विश्वास	स्वचालित प्रसंस्करण
बहुत उच्च	केवल बहुत निश्चित मेल	न्यूनतम हस्तक्षेप

परिणामों का चयन

विश्लेषण के बाद, आप यह परिष्कृत कर सकते हैं कि किन इकाइयों को एनोनिमाइज करना है:

सभी का चयन/अविवेक करें

सभी परिणामों का चयन या अविवेक करने के लिए शीर्षक में चेकबॉक्स का उपयोग करें
केवल चयनित इकाइयाँ एनोनिमाइज की जाएंगी

व्यक्तिगत चयन

विशिष्ट इकाइयों को शामिल/बहिष्कृत करने के लिए व्यक्तिगत चेकबॉक्स पर क्लिक करें
जब एनालाइज़र झूठे सकारात्मक पहचानता है तो उपयोगी
जब आप कुछ जानकारी को दृश्यमान रखना चाहते हैं तो उपयोगी

प्रकार द्वारा फ़िल्टर करें

उस प्रकार के परिणामों को फ़िल्टर करने के लिए इकाई प्रकार बैज पर क्लिक करें
विशिष्ट प्रकार की सभी इकाइयों को जल्दी से चयनित/अविवेक करें

एनोनिमाइज करने से पहले परिणामों की समीक्षा करें। एनालाइज़र कभी-कभी झूठे सकारात्मक पहचान सकता है, विशेष रूप से उन नामों के लिए जो सामान्य शब्द भी हैं।

Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.

टोकन लागत

विश्लेषण संचालन टोकन का उपभोग करते हैं:

Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found

Final = ceil(Cost × 0.5)

Where:

text_k = पाठ की लंबाई
entities_enabled = इकाइयाँ
entities_found = number of entities detected

सामान्य लागत

पाठ की लंबाई	इकाइयाँ	सामान्य लागत
100 characters	3 types, 2 found	2 tokens
1,000 characters	5 types, 5 found	3 tokens
5,000 characters	10 types, 15 found	6 tokens
10,000 characters	15 types, 30 found	10 tokens

टोकन सिस्टम दस्तावेज़ Token System documentation for complete pricing details.

सर्वोत्तम प्रथाएँ

✅केवल उन इकाई प्रकारों का चयन करें जिनकी आपको आवश्यकता है - लागत और झूठे सकारात्मक को कम करता है

✅गैर-अंग्रेजी पाठ में बेहतर सटीकता के लिए भाषा-विशिष्ट प्रीसेट का उपयोग करें

✅एनोनिमाइज करने से पहले परिणामों की समीक्षा करें, विशेष रूप से नामों और स्थानों के लिए

✅स्वचालित प्रसंस्करण के लिए उच्च विश्वास सीमाओं का उपयोग करें

✅सर्वश्रेष्ठ प्रदर्शन के लिए पाठ को उचित टुकड़ों (10,000 वर्ण से कम) में संसाधित करें

समस्या निवारण

इकाई पहचान नहीं हुई?

सुनिश्चित करें कि आपकी चयन में इकाई प्रकार सक्षम है
विश्वास सीमा को कम करने का प्रयास करें
सुनिश्चित करें कि सही भाषा का चयन किया गया है
सत्यापित करें कि पाठ प्रारूप अपेक्षित पैटर्न से मेल खाता है

बहुत अधिक झूठे सकारात्मक?

विश्वास सीमा बढ़ाएँ
LOCATION जैसे व्यापक इकाई प्रकारों को अविवेक करें
सभी का चयन करने के बजाय इकाई-विशिष्ट प्रीसेट का उपयोग करें

विश्लेषण बहुत समय ले रहा है?

बड़े पाठों को छोटे टुकड़ों में विभाजित करें
चयनित इकाई प्रकारों की संख्या को कम करें
अन्यथा उपयोग में न आने वाले पहचान मॉडल को लोड करने से बचने के लिए प्रीसेट का उपयोग करें

Next Steps

एनोनिमाइज़र गाइड

पहचानी गई इकाइयों को एनोनिमाइज करना सीखें

प्रीसेट

इकाई कॉन्फ़िगरेशन को सहेजें और पुन: उपयोग करें

अंतिम अपडेट: मार्च 2026