PII विश्लेषक
अपने पाठ में व्यक्तिगत पहचान योग्य जानकारी का पता लगाएं
PII विश्लेषक आपके पाठ को स्कैन करता है और नामों, ईमेल, फोन नंबरों, पते और अधिक जैसी संवेदनशील जानकारी की पहचान करता है।
यह कैसे काम करता है
एनालाइज़र कई पहचान विधियों का उपयोग करके PII की पहचान करता है:
पैटर्न मिलान
नियमित अभिव्यक्तियाँ ईमेल पते, फोन नंबर, क्रेडिट कार्ड और IBAN जैसी संरचित डेटा को उच्च सटीकता के साथ पहचानती हैं।
मशीन लर्निंग (NER)
नामित इकाई पहचान मॉडल संदर्भ-निर्भर संस्थाओं जैसे व्यक्ति के नाम, संगठनों और स्थानों की पहचान करते हैं, जो spaCy, Stanza और Transformers का उपयोग करते हैं।
चेकसम सत्यापन
क्रेडिट कार्ड, IBAN और अन्य वित्तीय पहचानकर्ताओं को चेकसम एल्गोरिदम (Luhn, MOD-97) का उपयोग करके सत्यापित किया जाता है ताकि झूठे सकारात्मक कम हों।
एनालाइज़र का उपयोग करना
चरण 1: अपना पाठ दर्ज करें
- एनोनिमाइज पृष्ठ पर जाएं
- इनपुट क्षेत्र में अपना पाठ चिपकाएं या टाइप करें
- इंटरफेस एक वर्ण गणना और टोकन अनुमान दिखाता है
चरण 2: इकाई प्रकार चुनें
कौन से प्रकार के PII का पता लगाना है, चुनें:
| संस्थान के प्रकार | हम 10 श्रेणियों में व्यवस्थित 256 संस्थान के प्रकार का समर्थन करते हैं: | पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया |
|---|---|---|
| व्यक्तिगत - नाम, ईमेल, फोन नंबर, जन्म तिथियाँ | PERSON, EMAIL_ADDRESS, PHONE_NUMBER | John Doe, john@email.com |
| वित्तीय - क्रेडिट कार्ड, बैंक खाते, IBAN, क्रिप्टो वॉलेट | CREDIT_CARD, IBAN_CODE, SWIFT_CODE | 4111-1111-1111-1111 |
| स्थान - पते, शहर, देश, समन्वय | LOCATION, ADDRESS, COORDINATES | 123 Main St, New York |
| सरकारी - SSN, पासपोर्ट नंबर, ड्राइवर लाइसेंस, राष्ट्रीय आईडी | SSN, PASSPORT, DRIVER_LICENSE | 123-45-6789 |
| तकनीकी - IP पते, MAC पते, डिवाइस आईडी | IP_ADDRESS, MAC_ADDRESS | 192.168.1.1 |
इकाइयों को मैन्युअल रूप से चुनने के बजाय, सामान्य इकाई कॉन्फ़िगरेशन जैसे "GDPR अनुपालन" या "वित्तीय डेटा" को जल्दी लागू करने के लिए प्रीसेट का उपयोग करें।
Instead of selecting entities manually, use प्रीसेट to quickly apply common entity configurations like "GDPR Compliance" or "Financial Data".
चरण 3: भाषा चुनें
सटीक पहचान के लिए अपने पाठ की भाषा चुनें:
- स्वतः पहचानें - सिस्टम को भाषा निर्धारित करने दें - Let the system determine the language
- विशिष्ट भाषा - 27 समर्थित भाषाओं में से चुनें - Select from 27 supported languages
भाषा चयन महत्वपूर्ण है
सही भाषा का चयन पहचान की सटीकता को महत्वपूर्ण रूप से बढ़ाता है, विशेष रूप से व्यक्ति के नाम और स्थानों के लिए।
चरण 4: विश्लेषण चलाएँ
- एनालाइज बटन पर क्लिक करें
- विश्लेषण पूरा होने की प्रतीक्षा करें (आमतौर पर 1-3 सेकंड)
- परिणाम पैनल में पहचानी गई इकाइयों की समीक्षा करें
परिणामों को समझना
विश्लेषण के बाद, प्रत्येक पहचानी गई इकाई दिखाती है:
स्थिति: वर्ण
परिणाम क्षेत्र
- इकाई प्रकार - पहचान की गई PII की श्रेणी (PERSON, EMAIL, आदि) - The category of PII detected (PERSON, EMAIL, etc.)
- पाठ - वास्तविक पाठ जो PII के रूप में पहचाना गया - The actual text that was identified as PII
- विश्वास स्कोर - सिस्टम कितनी निश्चितता से है (0-100%) - How certain the system is (0-100%)
- स्थिति - प्रारंभ और समाप्ति वर्ण स्थितियाँ - Start and end character positions
विश्वास सीमा
संवेदनशीलता को नियंत्रित करने के लिए विश्वास सीमा को समायोजित करें:
| सीमा | प्रभाव | सर्वश्रेष्ठ के लिए |
|---|---|---|
| कम | अधिक इकाइयाँ पहचानी गईं, अधिक झूठे सकारात्मक | अधिकतम कवरेज, मैन्युअल समीक्षा |
| डिफ़ॉल्ट | संतुलित पहचान और सटीकता | सामान्य उपयोग |
| उच्च | कम इकाइयाँ, उच्च विश्वास | स्वचालित प्रसंस्करण |
| बहुत उच्च | केवल बहुत निश्चित मेल | न्यूनतम हस्तक्षेप |
परिणामों का चयन
विश्लेषण के बाद, आप यह परिष्कृत कर सकते हैं कि किन इकाइयों को एनोनिमाइज करना है:
सभी का चयन/अविवेक करें
- सभी परिणामों का चयन या अविवेक करने के लिए शीर्षक में चेकबॉक्स का उपयोग करें
- केवल चयनित इकाइयाँ एनोनिमाइज की जाएंगी
व्यक्तिगत चयन
- विशिष्ट इकाइयों को शामिल/बहिष्कृत करने के लिए व्यक्तिगत चेकबॉक्स पर क्लिक करें
- जब एनालाइज़र झूठे सकारात्मक पहचानता है तो उपयोगी
- जब आप कुछ जानकारी को दृश्यमान रखना चाहते हैं तो उपयोगी
प्रकार द्वारा फ़िल्टर करें
- उस प्रकार के परिणामों को फ़िल्टर करने के लिए इकाई प्रकार बैज पर क्लिक करें
- विशिष्ट प्रकार की सभी इकाइयों को जल्दी से चयनित/अविवेक करें
एनोनिमाइज करने से पहले परिणामों की समीक्षा करें। एनालाइज़र कभी-कभी झूठे सकारात्मक पहचान सकता है, विशेष रूप से उन नामों के लिए जो सामान्य शब्द भी हैं।
Review results before anonymizing. The analyzer may occasionally detect false positives, especially for names that are also common words.
टोकन लागत
विश्लेषण संचालन टोकन का उपभोग करते हैं:
Cost = 2 + 1.0 × text_k + 0.2 × entities_enabled + 0.1 × entities_found
Final = ceil(Cost × 0.5)
Where:
text_k= पाठ की लंबाईentities_enabled= इकाइयाँentities_found= number of entities detected
सामान्य लागत
| पाठ की लंबाई | इकाइयाँ | सामान्य लागत |
|---|---|---|
| 100 characters | 3 types, 2 found | 2 tokens |
| 1,000 characters | 5 types, 5 found | 3 tokens |
| 5,000 characters | 10 types, 15 found | 6 tokens |
| 10,000 characters | 15 types, 30 found | 10 tokens |
टोकन सिस्टम दस्तावेज़ Token System documentation for complete pricing details.
सर्वोत्तम प्रथाएँ
समस्या निवारण
इकाई पहचान नहीं हुई?
- सुनिश्चित करें कि आपकी चयन में इकाई प्रकार सक्षम है
- विश्वास सीमा को कम करने का प्रयास करें
- सुनिश्चित करें कि सही भाषा का चयन किया गया है
- सत्यापित करें कि पाठ प्रारूप अपेक्षित पैटर्न से मेल खाता है
बहुत अधिक झूठे सकारात्मक?
- विश्वास सीमा बढ़ाएँ
- LOCATION जैसे व्यापक इकाई प्रकारों को अविवेक करें
- सभी का चयन करने के बजाय इकाई-विशिष्ट प्रीसेट का उपयोग करें
विश्लेषण बहुत समय ले रहा है?
- बड़े पाठों को छोटे टुकड़ों में विभाजित करें
- चयनित इकाई प्रकारों की संख्या को कम करें
- अन्यथा उपयोग में न आने वाले पहचान मॉडल को लोड करने से बचने के लिए प्रीसेट का उपयोग करें
Next Steps
अंतिम अपडेट: मार्च 2026