डेटा क्लीन कैसे करते हैं | Data clean kaise karte hain?

डेटा क्लीन कैसे करते हैं | Data clean kaise karte hain? किसी भी डेटा एनालिसिस में डेटा कलेक्शन के बाद की स्टेप होती है डेटा क्लीनिंग। डुप्लीकेट्स को रिमूव करें, मिसिंग डाटा को हैंडल करें, आउटलेयर्स (outliers) को हैंडल करें, डेटा को standardize करें, डेटा को वैलिडेट करें, डेटा को ट्रांसफॉर्म करें, डाटा क्लीनिंग प्रोसेस को डॉक्यूमेंट करें|

डेटा क्लीनिंग का मतलब होता है कि किसी भी डेटासेट में से एरर, असंगतता, अतिरेक, और अन्य समस्याओं को पहचानना और उसे हटाना या सही करना।

यहां कुछ बेसिक स्टेप्स बताएं गए हैं जिनहें आप डेटा क्लीनिंग के लिए इस्तेमाल कर सकते हैं:

डुप्लीकेट्स को रिमूव करें:

अगर डेटासेट में डुप्लीकेट हैं तो उनको पहचानें और हटाएं। अगर उनको हटाएंगे नहीं तो उसकी वजह से फाइनल रिजल्ट में समस्याएं आ सकती हैं।

नीचे दिए हुए उदाहरण की मदद से हमने ये समझने की कोशिश की है।

उदाहरण:

NameAge (yrs)Weight (kg)
John3285
Daryl2375
Daryl2375

अब, उपरोक्त उदाहरण में यदि हम Daryl से संबंधित दो पंक्तियों को नहीं हटाते हैं तो इसे दो बार गिना जाएगा जबकि हम देख सकते हैं कि दोनों पंक्तियों में एक ही प्रविष्टि है इसलिए यह महत्वपूर्ण है कि हम डुप्लिकेट प्रविष्टि को हटा दें।

ये सिर्फ एक उदाहरण है अगर यहां पे सेल्स का डेटा होता तो हम डुप्लीकेट एंट्रीज को मल्टीपल काउंट कर लेते हैं ,और हमें लगता है कि रियल सेल्स काफी ज्यादा हुई है जबकी असली में रियलिटी कुछ और ही है।

मिसिंग डाटा को हैंडल करें:

अगर डेटासेट में कोई मिसिंग डेटा है तो उसे आइडेंटिफाई करें और उपयुक्त तरीके जैसे मीन, मेडियन, मोड etc. इम्प्यूटेशन का इस्‍तेमाल करके भरें।

उदाहरण के लिए:

नीचे दिए हुए टेबल में आप देख सकते हैं कि सेकेंड रो में weight मिसिंग है, तो या तो इस रो को एनालिसिस करते समय बदलते हैं या फिर कोई अच्छा से अंदाजा लगाकर उसे भर सकते हैं किसी वैल्यू से।

NameAge (yrs)Weight (kg)
John3285
Daryl23
Blake2375

आउटलेयर्स (outliers) को हैंडल करें:

अगर डेटासेट में कोई आउटलेयर है तो उसे पहचानें और उपयुक्त तरीके का इस्तेमाल करके हैंडल करें।

हो सकता है कि कुछ मूल्य बहुत ही बड़ी हो जिसकी वजह से आपका औसत बहुत ज्यादा आ जाए और आप मूल्य के आधार पर निर्णय ले लें जबकी असल में वो मूल्य गलत है।

उदाहरण के लिए:

1000, 8, 10, 20, 17 का औसत 211 है यानी (1000 + 8 + 10 + 20 + 17) / 5, लेकिन आप देख सकते हैं कि यह सही नहीं है क्योंकि 5 में से 4 मान 20 से कम हैं और केवल एक मान है 1000 है जो पूरे औसत को प्रभावित कर रहा है।

डेटा को standardize करें:

डेटा का standardization बहुत ही महत्वपूर्ण कदम है विश्लेषण करते समय उदाहरण के लिए|

नीचे दी हुई टेबल में आप देख सकते हैं कि कैसे उम्र और वजन को अलग तरीके से लिखा गया है वजन कहीं पे किलो में है कहीं पौंड में तो कहीं ग्राम में।

NameAgeWeight
John32 yrs85 kg
Daryl23 yrs 23 days5500 gms
Blake23110 pound

अब अगर आप ऊपर दिए गए डेटा पे डायरेक्ट एनालिसिस करेंगे तो आपको बहुत ही गलत रिजल्ट मिलेंगे, इस सारे वैल्यू का वही मेट्रिक पे होना जरूरी है यानी सबको या तो किलो में कन्वर्ट कर लें या तो पाउंड में और या तो ग्राम में।

डेटा को वैलिडेट करें:

डेटा को एरर और असंगतता जैसे कि गलत डेट और न्यूमेरिकल वैल्यू को आइडेंटिफाई करके वैलिडेट करें और सुनिश्चित करें कि डेटा सटीक है और एरर से फ्री है।

क्योंकि अगर आप तारीख के कॉलम में तारीख की जगह नॉर्मल न्यूमेरिकल वैल्यू है या बिक्री की वैल्यू कि जगह किसी का नाम लिखा है तो वो सही रिजल्ट नहीं देगा। इसलिए ऐसे एरर को ढूंढकर हटा देना बहुत जरूरी है।

डेटा को ट्रांसफॉर्म करें:

डेटा को ट्रांसफॉर्म करें अगर जरूरी है, जैसे कि कैटेगरीकल डेटा को न्यूमेरिकल डेटा में कन्वर्ट करना या डेटा को नॉर्मलाइज करना।

डेटा को नॉर्मलाइज करने का मतलब है न्यूमेरिकल कॉलम की वैल्यू को 0-1 में कन्वर्ट करना।

डेटा ट्रांसफॉर्मेशन की जरूरत होती है क्योंकि कंप्यूटर को सिर्फ नंबर समझ में आते हैं, टेक्स्ट वैल्यू नहीं। इस्लीए ट्रांसफॉर्मेशन/नॉर्मलाइजेशन स्टेप्स की जरूरत पैदा होती है।

डाटा क्लीनिंग प्रोसेस को डॉक्यूमेंट करें:

डॉक्यूमेंटेशन हर स्टेप पे जरूरी होता है, ताकि आपके बाद जो भी वही प्रॉब्लम पे काम कर रहा है वो आपके सॉल्यूशन को रिपीट कर सके। किसी भी विश्लेषण में बहुत सारी छोटी-छोटी बातें होती हैं, जिसका ध्यान रखना बहुत ही जरूरी है, इसके लिए वो सारी स्टेप्स का डॉक्यूमेंटेशन जरूरी है।

डेटा एनालिटिक्स से संबंधित अन्य लेख:

निष्कर्ष:

आशा करते हैं आपको समझ में आ गया होगा कि डेटा क्लीनिंग कैसे करते हैं और क्यों। अगर आपको अभी भी कोई शक रहता है तो प्लीज कमेंट करके बताएं।

1 thought on “डेटा क्लीन कैसे करते हैं | Data clean kaise karte hain?”

Leave a Comment