स्क्रैपिंग क्या है – What is Scraping in Hindi – historical events, वेब स्क्रैपिंग का उपयोग करके इंटरनेट से डेटा निकालने के कुछ स्मार्ट तरीके, बिना कोडिंग के वेब स्क्रैपिंग, Is web scraping legal?, web scraping के कुछ अनुप्रयोग, वेब स्क्रैपिंग के गलत उपयोग |
Table of Contents
Historical Events:
1989 | Birth of World Wide Web |
1993 | 1st crawler-based web search engine Jumpstation was launched |
2000 | 1st Web API and API crawler were created |
(Source: Web scraping wiki)
Introduction:
वर्षों से, वेबसाइटों से डेटा निकालने के लिए वेब स्क्रैपिंग एक तेजी से लोकप्रिय तरीका बन गया है।
स्वचालित वेब डेटा स्क्रैपिंग इंटरनेट पे उपलब्ध अनंत डेटा से उपयोगी जानकारी निकालने में बहुत ही महत्वपूर्ण रोल प्ले कर रहा है।
वेब स्क्रैपिंग एक वेबसाइट से डेटा निकालने के लिए बॉट्स का उपयोग करने की प्रक्रिया है। यहां बॉट का मतलब एक कोड ही है जो आपको इंटरनेट की वेबसाइट्स से डेटा निकालने में मदद करता है।
वेब स्क्रैपिंग वेबसाइट के एचटीएमएल कोड को एक्सट्रेक्ट करता है और उसके अंदर से जरूरी जानकारी निकालता है। एक और दूसरे तरह मैं स्क्रैपिंग होती है स्क्रीन स्क्रैपिंग जो सिर्फ स्क्रीन पर उपलब्ध पिक्सल को स्क्रैप करती है।
वेब स्क्रैपिंग बाज़ार अनुसंधान में कैसे मदद कर सकती है?
वेब स्क्रैपिंग तकनीक बिना किसी मानवीय प्रयास के अन्य वेबसाइटों से डेटा शीघ्रता से निकालने के लिए विकसित की गई एक तकनीक है। इस पद्धति में कंप्यूटर प्रोग्राम/कोड का उपयोग करके कोई भी आसानी से किसी वेबसाइट से संरचित तरीके से डेटा निकाल सकता है।
कुछ विश्लेषण/कार्य जहां वेब स्क्रैपिंग मदद कर सकती है:
- बाजार की प्रवृत्ति का विश्लेषण,
- बाज़ार का आकार और विकास,
- मूल्य निगरानी,
- अनुसंधान एवं विकास,
- प्रतियोगी निगरानी,
चुनौतियाँ:
- कानूनी और नैतिक मुद्दे,
- बड़ी मात्रा में डेटा को संभालना,
- वेबसाइटों को स्क्रैप करने से बचने के लिए एंटी-स्क्रैपिंग उपाय, जटिल संरचनाएं आदि लागू करें जिससे किसी वेबसाइट को स्क्रैप करना मुश्किल या असंभव हो जाता है,
सर्वोत्तम प्रथाएं:
- सटीक रहें क्योंकि बड़ी मात्रा में डेटा आपको अपने प्राथमिक उद्देश्य पर काम करने से रोक सकता है,
- अंतिम सीख को कुछ अन्य स्रोतों से भी जाँचने के लिए रचनात्मक और जिज्ञासु बनें,
फ़ायदे:
- डेटा तक पहुंच जो अन्यथा संभव नहीं एपीआई (API) का उपयोग करके जैसे सोशल मीडिया पोस्ट, उपयोगकर्ता समीक्षा आदि,
- कम लागत पर तेज़ डेटा संग्रह,
- बड़े डेटासेट तक पहुंच,
- नवीनतम रुझानों और वार्तालापों पर आधारित ताज़ा अंतर्दृष्टि,
- वास्तविक समय में बाज़ार में होने वाले परिवर्तनों पर लगातार नज़र रखें|
वेब स्क्रैपिंग का उपयोग करके इंटरनेट से डेटा निकालने के कुछ स्मार्ट तरीके:
a. Regex का उपयोग करके केवल संख्या या कुछ text पैटर्न जैसे ईमेल_आईडी निकालना:
– Regex for numbers: ^[0-9]*$,
– Regex for email_id: “^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$” etc.
b. HTML parsing:
– Parsing html and extracting only:
– Title tags (<title> tags),
– Paragraphs by identifying <p> tags,
– Only links by identifying href tags etc.
(Source: Web scraping wiki)
बिना कोडिंग के वेब स्क्रैपिंग:
ऑनलाइन ऐसे उपकरण हैं जिनके उपयोग से कोई भी अपने वेब स्क्रैपिंग कार्य को पूरा कर सकता है जैसे उदाहरण के लिए:
- scraperapi: ScraperAPI प्रॉक्सी, ब्राउज़र और कैप्चा को संभालता है, ताकि आप साधारण एपीआई कॉल के साथ किसी भी वेब पेज से एचटीएमएल प्राप्त कर सकें।
- grepsr: नियमित डेटा निष्कर्षण आवश्यकताओं को स्वचालित करने में मदद करता है।
कुछ वेब स्क्रैपिंग ऑनलाइन पाठ्यक्रम:
Is web scraping legal?
वेब स्क्रैपिंग इतनी कॉमन हो गई है कि ये पता करना बहुत ही मुश्किल है कि आपकी वेबसाइट पे हो राही स्क्रैपिंग वैध है कि अवैध है।
अगर आप इंटरनेट पे उपलब्ध पब्लिक डेटा को स्क्रैप कर रहे हैं और उसका कोई कानूनी विनियमन नहीं है तो यह कानूनी है| लेकिन काफी सारे डेटा पे रूल्स और रेगुलेशन होते हैं और ऐसे डेटा को स्क्रैप करना लीगल नहीं माना जाता है।
तो ऐसे डेटा को वेब स्क्रैप करना बॉट्स के थ्रू और कहीं और पब्लिश करना या किसी और के साथ शेयर करना बिलकुल भी लीगल नहीं है e.g. किसी की रिसर्च को अपने नाम पर बताना, किसी की पर्सनल इंफॉर्मेशन लीक करना आदि।
Does Google ban web scraping?
अगर आप बॉट या कोड के थ्रू गूगल से डेटा एक्सट्रेक्ट की कोशिश करेंगे तो एक नंबर तक तो वो आपको इजाजत देगा उसके बाद वो आप की आईपी को ब्लॉक कर देगा।
कुछ अनुप्रयोग:
वेब स्क्रैपिंग के कुछ वास्तविक उपयोग:
- सर्च इंजन द्वारा रेकिंग एल्गोरिथम: सर्च इंजन बॉट किसी साइट को क्रॉल करते हैं, उसकी सामग्री का विश्लेषण करते हैं और फिर उसे एक सर्च इंजन पे रैंकिंग देते हैं,
- Market research agencies/teams मंचों, सोशल मीडिया, विभिन्न review वेबसाइटों आदि से अपने स्वयं के review डेटा को collect के लिए स्क्रेपर्स का उपयोग करती हैं – इसका उद्देश्य अपने ग्राहकों को बेहतर समझना होता है,
- स्क्रैपिंग डेटा और उसका विश्लेषण करके उपयोगी जानकारी निकालना या और नई इनसाइट्स नीकाल के अपनी वेबसाइट या पब्लिक फोरम पे पब्लिश करना जैसे कि डेटा निकल के बताना की कोई नंबर पिछले काफी सालों में बढ़ा है या घाटा है|
ऐसे और भी उदाहरण हैं जहां पे वेब स्क्रैपिंग का अच्छा उपयोग हो रहा है।
वेब स्क्रैपिंग के गलत उपयोग:
वेब स्क्रैपिंग की मदद से लोग कुछ अनड्यू एडवांटेज भी लेते हैं जैसे कि:
- किसी वेबसाइट से कंटेंट स्क्रैप करना उसमें कुछ थोड़े बहुत बदलाव करना और अपनी वेबसाइट पे पब्लिश करना,
- प्रतिस्पर्धियों की वेबसाइटों से मूल्य-निर्धारण जानकारी को स्क्रैप करना अपनी कीमत कम करना और बिक्री बढ़ाना|
तो ऐसे तरीके जहां पे लोगों की मेहनत से बनाए गए मटेरियल को कॉपी करके मिसयूज किया जा रहा है वो तरीके सही नहीं है।और ऐसे तारेकों को गूगल भी अपने सर्च इंजन पे अनुमति नहीं देता है।
वेबसाइट से डेटा स्क्रैप करने के लिए पायथन कोड:
#code – 1
import requests
r = requests.get(‘url’)
print(r)
print(r.content)
वेब स्क्रैपिंग सीखने के लिए कुछ उपयोगी लिंक:
SQL सीखने के लिए कुछ लेख:
- SQL-ORDER BY single/multiple columns ASC and DESC | Data Sorting in SQL
- SQL Queries with Multiple where condition | SQL मे multiple where conditions कैसे डाले? – Data Analysis Tutorial
आशा करते हैं कि आपने कुछ अच्छी बातें वेब स्क्रैपिंग पे जानी, कृपया मुझे लिख कर हमें बताएं कि हम आपकी और क्या मदद कर सकते हैं वेब स्क्रैपिंग से संबंधित विषय पर या किसी अन्य विषय पर।
FAQs
Q1. वेब स्क्रैपिंग बनाम एपीआई में क्या अंतर है?
Ans. एपीआई से सिर्फ एक वेबसाइट से डेटा आता है, जबकी वेब स्क्रैपिंग की मदद से आप किसी भी वेबसाइट से डेटा निकाल सकते हैं।
Q2. वेब स्क्रैपिंग के लिए किस प्रोग्रामिंग भाषा का उपयोग किया जाता है?
Ans. Python.
Q3. क्या Google स्क्रैपिंग पर प्रतिबंध लगाता है?
Ans. जी हां अगर कोई इसे बॉट की मदद से करना चाहिए तो।
Q4. href attribute क्या है?
Ans. href का पूर्ण रूप हाइपरटेक्स्ट रेफरेंस है। यह href attribute उस पृष्ठ का यूआरएल निर्दिष्ट करती है जिस पर लिंक जाता है।
href attribute का उपयोग करने का कारण: कभी-कभी लंबे यूआरएल को सामग्री या वेबसाइट में एम्बेड नहीं किया जा सकता है, बल्कि केवल शीर्षक की आवश्यकता होती है और इसलिए href attribute का उपयोग केवल शीर्षक देने और उसमें एक लिंक जोड़ने के लिए किया जाता है।
Syntax: <a href=”URL“> Title </a>
1 thought on “स्क्रैपिंग क्या है – What is Scraping in Hindi”