डेटा क्लीन कैसे करते हैं | Data clean kaise karte hain? किसी भी डेटा एनालिसिस में डेटा कलेक्शन के बाद की स्टेप होती है डेटा क्लीनिंग। डुप्लीकेट्स को रिमूव करें, मिसिंग डाटा को हैंडल करें, आउटलेयर्स (outliers) को हैंडल करें, डेटा को standardize करें, डेटा को वैलिडेट करें, डेटा को ट्रांसफॉर्म करें, डाटा क्लीनिंग प्रोसेस को डॉक्यूमेंट करें|
डेटा क्लीनिंग का मतलब होता है कि किसी भी डेटासेट में से एरर, असंगतता, अतिरेक, और अन्य समस्याओं को पहचानना और उसे हटाना या सही करना।
Table of Contents
यहां कुछ बेसिक स्टेप्स बताएं गए हैं जिनहें आप डेटा क्लीनिंग के लिए इस्तेमाल कर सकते हैं:
डुप्लीकेट्स को रिमूव करें:
अगर डेटासेट में डुप्लीकेट हैं तो उनको पहचानें और हटाएं। अगर उनको हटाएंगे नहीं तो उसकी वजह से फाइनल रिजल्ट में समस्याएं आ सकती हैं।
नीचे दिए हुए उदाहरण की मदद से हमने ये समझने की कोशिश की है।
उदाहरण:
Name | Age (yrs) | Weight (kg) |
John | 32 | 85 |
Daryl | 23 | 75 |
Daryl | 23 | 75 |
अब, उपरोक्त उदाहरण में यदि हम Daryl से संबंधित दो पंक्तियों को नहीं हटाते हैं तो इसे दो बार गिना जाएगा जबकि हम देख सकते हैं कि दोनों पंक्तियों में एक ही प्रविष्टि है इसलिए यह महत्वपूर्ण है कि हम डुप्लिकेट प्रविष्टि को हटा दें।
ये सिर्फ एक उदाहरण है अगर यहां पे सेल्स का डेटा होता तो हम डुप्लीकेट एंट्रीज को मल्टीपल काउंट कर लेते हैं ,और हमें लगता है कि रियल सेल्स काफी ज्यादा हुई है जबकी असली में रियलिटी कुछ और ही है।
मिसिंग डाटा को हैंडल करें:
अगर डेटासेट में कोई मिसिंग डेटा है तो उसे आइडेंटिफाई करें और उपयुक्त तरीके जैसे मीन, मेडियन, मोड etc. इम्प्यूटेशन का इस्तेमाल करके भरें।
उदाहरण के लिए:
नीचे दिए हुए टेबल में आप देख सकते हैं कि सेकेंड रो में weight मिसिंग है, तो या तो इस रो को एनालिसिस करते समय बदलते हैं या फिर कोई अच्छा से अंदाजा लगाकर उसे भर सकते हैं किसी वैल्यू से।
Name | Age (yrs) | Weight (kg) |
John | 32 | 85 |
Daryl | 23 | |
Blake | 23 | 75 |
आउटलेयर्स (outliers) को हैंडल करें:
अगर डेटासेट में कोई आउटलेयर है तो उसे पहचानें और उपयुक्त तरीके का इस्तेमाल करके हैंडल करें।
हो सकता है कि कुछ मूल्य बहुत ही बड़ी हो जिसकी वजह से आपका औसत बहुत ज्यादा आ जाए और आप मूल्य के आधार पर निर्णय ले लें जबकी असल में वो मूल्य गलत है।
उदाहरण के लिए:
1000, 8, 10, 20, 17 का औसत 211 है यानी (1000 + 8 + 10 + 20 + 17) / 5, लेकिन आप देख सकते हैं कि यह सही नहीं है क्योंकि 5 में से 4 मान 20 से कम हैं और केवल एक मान है 1000 है जो पूरे औसत को प्रभावित कर रहा है।
डेटा को standardize करें:
डेटा का standardization बहुत ही महत्वपूर्ण कदम है विश्लेषण करते समय उदाहरण के लिए|
नीचे दी हुई टेबल में आप देख सकते हैं कि कैसे उम्र और वजन को अलग तरीके से लिखा गया है वजन कहीं पे किलो में है कहीं पौंड में तो कहीं ग्राम में।
Name | Age | Weight |
John | 32 yrs | 85 kg |
Daryl | 23 yrs 23 days | 5500 gms |
Blake | 23 | 110 pound |
अब अगर आप ऊपर दिए गए डेटा पे डायरेक्ट एनालिसिस करेंगे तो आपको बहुत ही गलत रिजल्ट मिलेंगे, इस सारे वैल्यू का वही मेट्रिक पे होना जरूरी है यानी सबको या तो किलो में कन्वर्ट कर लें या तो पाउंड में और या तो ग्राम में।
डेटा को वैलिडेट करें:
डेटा को एरर और असंगतता जैसे कि गलत डेट और न्यूमेरिकल वैल्यू को आइडेंटिफाई करके वैलिडेट करें और सुनिश्चित करें कि डेटा सटीक है और एरर से फ्री है।
क्योंकि अगर आप तारीख के कॉलम में तारीख की जगह नॉर्मल न्यूमेरिकल वैल्यू है या बिक्री की वैल्यू कि जगह किसी का नाम लिखा है तो वो सही रिजल्ट नहीं देगा। इसलिए ऐसे एरर को ढूंढकर हटा देना बहुत जरूरी है।
डेटा को ट्रांसफॉर्म करें:
डेटा को ट्रांसफॉर्म करें अगर जरूरी है, जैसे कि कैटेगरीकल डेटा को न्यूमेरिकल डेटा में कन्वर्ट करना या डेटा को नॉर्मलाइज करना।
डेटा को नॉर्मलाइज करने का मतलब है न्यूमेरिकल कॉलम की वैल्यू को 0-1 में कन्वर्ट करना।
डेटा ट्रांसफॉर्मेशन की जरूरत होती है क्योंकि कंप्यूटर को सिर्फ नंबर समझ में आते हैं, टेक्स्ट वैल्यू नहीं। इस्लीए ट्रांसफॉर्मेशन/नॉर्मलाइजेशन स्टेप्स की जरूरत पैदा होती है।
डाटा क्लीनिंग प्रोसेस को डॉक्यूमेंट करें:
डॉक्यूमेंटेशन हर स्टेप पे जरूरी होता है, ताकि आपके बाद जो भी वही प्रॉब्लम पे काम कर रहा है वो आपके सॉल्यूशन को रिपीट कर सके। किसी भी विश्लेषण में बहुत सारी छोटी-छोटी बातें होती हैं, जिसका ध्यान रखना बहुत ही जरूरी है, इसके लिए वो सारी स्टेप्स का डॉक्यूमेंटेशन जरूरी है।
डेटा एनालिटिक्स से संबंधित अन्य लेख:
- डेटा एनालिस्ट कैसे बनें? | Data Analyst kaise banein?
- Data Cleansing and Data Transformation Benefits / Explanation in Data Mining or Machine Learning Tasks
- Data Analysis – wiki
निष्कर्ष:
आशा करते हैं आपको समझ में आ गया होगा कि डेटा क्लीनिंग कैसे करते हैं और क्यों। अगर आपको अभी भी कोई शक रहता है तो प्लीज कमेंट करके बताएं।
1 thought on “डेटा क्लीन कैसे करते हैं | Data clean kaise karte hain?”