स्क्रैपिंग क्या है - What is Scraping in Hindi

Q: Q3. क्या Google स्क्रैपिंग पर प्रतिबंध लगाता है?

Ans. जी हां अगर कोई इसे बॉट की मदद से करना चाहिए तो।

स्क्रैपिंग क्या है – What is Scraping in Hindi – historical events, वेब स्क्रैपिंग का उपयोग करके इंटरनेट से डेटा निकालने के कुछ स्मार्ट तरीके, बिना कोडिंग के वेब स्क्रैपिंग, Is web scraping legal?, web scraping के कुछ अनुप्रयोग, वेब स्क्रैपिंग के गलत उपयोग |

Historical Events:

1989	Birth of World Wide Web
1993	1st crawler-based web search engine Jumpstation was launched
2000	1st Web API and API crawler were created

(Source: Web scraping wiki)

Introduction:

वर्षों से, वेबसाइटों से डेटा निकालने के लिए वेब स्क्रैपिंग एक तेजी से लोकप्रिय तरीका बन गया है।

स्वचालित वेब डेटा स्क्रैपिंग इंटरनेट पे उपलब्ध अनंत डेटा से उपयोगी जानकारी निकालने में बहुत ही महत्वपूर्ण रोल प्ले कर रहा है।

वेब स्क्रैपिंग एक वेबसाइट से डेटा निकालने के लिए बॉट्स का उपयोग करने की प्रक्रिया है। यहां बॉट का मतलब एक कोड ही है जो आपको इंटरनेट की वेबसाइट्स से डेटा निकालने में मदद करता है।

वेब स्क्रैपिंग वेबसाइट के एचटीएमएल कोड को एक्सट्रेक्ट करता है और उसके अंदर से जरूरी जानकारी निकालता है। एक और दूसरे तरह मैं स्क्रैपिंग होती है स्क्रीन स्क्रैपिंग जो सिर्फ स्क्रीन पर उपलब्ध पिक्सल को स्क्रैप करती है।

वेब स्क्रैपिंग बाज़ार अनुसंधान में कैसे मदद कर सकती है?

वेब स्क्रैपिंग तकनीक बिना किसी मानवीय प्रयास के अन्य वेबसाइटों से डेटा शीघ्रता से निकालने के लिए विकसित की गई एक तकनीक है। इस पद्धति में कंप्यूटर प्रोग्राम/कोड का उपयोग करके कोई भी आसानी से किसी वेबसाइट से संरचित तरीके से डेटा निकाल सकता है।

कुछ विश्लेषण/कार्य जहां वेब स्क्रैपिंग मदद कर सकती है:

बाजार की प्रवृत्ति का विश्लेषण,
बाज़ार का आकार और विकास,
मूल्य निगरानी,
अनुसंधान एवं विकास,
प्रतियोगी निगरानी,

चुनौतियाँ:

कानूनी और नैतिक मुद्दे,
बड़ी मात्रा में डेटा को संभालना,
वेबसाइटों को स्क्रैप करने से बचने के लिए एंटी-स्क्रैपिंग उपाय, जटिल संरचनाएं आदि लागू करें जिससे किसी वेबसाइट को स्क्रैप करना मुश्किल या असंभव हो जाता है,

सर्वोत्तम प्रथाएं:

सटीक रहें क्योंकि बड़ी मात्रा में डेटा आपको अपने प्राथमिक उद्देश्य पर काम करने से रोक सकता है,
अंतिम सीख को कुछ अन्य स्रोतों से भी जाँचने के लिए रचनात्मक और जिज्ञासु बनें,

फ़ायदे:

डेटा तक पहुंच जो अन्यथा संभव नहीं एपीआई (API) का उपयोग करके जैसे सोशल मीडिया पोस्ट, उपयोगकर्ता समीक्षा आदि,
कम लागत पर तेज़ डेटा संग्रह,
बड़े डेटासेट तक पहुंच,
नवीनतम रुझानों और वार्तालापों पर आधारित ताज़ा अंतर्दृष्टि,
वास्तविक समय में बाज़ार में होने वाले परिवर्तनों पर लगातार नज़र रखें|

वेब स्क्रैपिंग का उपयोग करके इंटरनेट से डेटा निकालने के कुछ स्मार्ट तरीके:

a. Regex का उपयोग करके केवल संख्या या कुछ text पैटर्न जैसे ईमेल_आईडी निकालना:
– Regex for numbers: ^[0-9]*$,
– Regex for email_id: “^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$” etc.

b. HTML parsing:
– Parsing html and extracting only:
– Title tags (<title> tags),
– Paragraphs by identifying <p> tags,
– Only links by identifying href tags etc.

(Source: Web scraping wiki)

बिना कोडिंग के वेब स्क्रैपिंग:

ऑनलाइन ऐसे उपकरण हैं जिनके उपयोग से कोई भी अपने वेब स्क्रैपिंग कार्य को पूरा कर सकता है जैसे उदाहरण के लिए:

scraperapi: ScraperAPI प्रॉक्सी, ब्राउज़र और कैप्चा को संभालता है, ताकि आप साधारण एपीआई कॉल के साथ किसी भी वेब पेज से एचटीएमएल प्राप्त कर सकें।
grepsr: नियमित डेटा निष्कर्षण आवश्यकताओं को स्वचालित करने में मदद करता है।

कुछ वेब स्क्रैपिंग ऑनलाइन पाठ्यक्रम:

Web scraping – zero to pro by Udemy.

Is web scraping legal?

वेब स्क्रैपिंग इतनी कॉमन हो गई है कि ये पता करना बहुत ही मुश्किल है कि आपकी वेबसाइट पे हो राही स्क्रैपिंग वैध है कि अवैध है।

अगर आप इंटरनेट पे उपलब्ध पब्लिक डेटा को स्क्रैप कर रहे हैं और उसका कोई कानूनी विनियमन नहीं है तो यह कानूनी है| लेकिन काफी सारे डेटा पे रूल्स और रेगुलेशन होते हैं और ऐसे डेटा को स्क्रैप करना लीगल नहीं माना जाता है।

तो ऐसे डेटा को वेब स्क्रैप करना बॉट्स के थ्रू और कहीं और पब्लिश करना या किसी और के साथ शेयर करना बिलकुल भी लीगल नहीं है e.g. किसी की रिसर्च को अपने नाम पर बताना, किसी की पर्सनल इंफॉर्मेशन लीक करना आदि।

Does Google ban web scraping?

अगर आप बॉट या कोड के थ्रू गूगल से डेटा एक्सट्रेक्ट की कोशिश करेंगे तो एक नंबर तक तो वो आपको इजाजत देगा उसके बाद वो आप की आईपी को ब्लॉक कर देगा।

कुछ अनुप्रयोग:

वेब स्क्रैपिंग के कुछ वास्तविक उपयोग:

सर्च इंजन द्वारा रेकिंग एल्गोरिथम: सर्च इंजन बॉट किसी साइट को क्रॉल करते हैं, उसकी सामग्री का विश्लेषण करते हैं और फिर उसे एक सर्च इंजन पे रैंकिंग देते हैं,
Market research agencies/teams मंचों, सोशल मीडिया, विभिन्न review वेबसाइटों आदि से अपने स्वयं के review डेटा को collect के लिए स्क्रेपर्स का उपयोग करती हैं – इसका उद्देश्य अपने ग्राहकों को बेहतर समझना होता है,
स्क्रैपिंग डेटा और उसका विश्लेषण करके उपयोगी जानकारी निकालना या और नई इनसाइट्स नीकाल के अपनी वेबसाइट या पब्लिक फोरम पे पब्लिश करना जैसे कि डेटा निकल के बताना की कोई नंबर पिछले काफी सालों में बढ़ा है या घाटा है|

ऐसे और भी उदाहरण हैं जहां पे वेब स्क्रैपिंग का अच्छा उपयोग हो रहा है।

वेब स्क्रैपिंग के गलत उपयोग:

वेब स्क्रैपिंग की मदद से लोग कुछ अनड्यू एडवांटेज भी लेते हैं जैसे कि:

किसी वेबसाइट से कंटेंट स्क्रैप करना उसमें कुछ थोड़े बहुत बदलाव करना और अपनी वेबसाइट पे पब्लिश करना,
प्रतिस्पर्धियों की वेबसाइटों से मूल्य-निर्धारण जानकारी को स्क्रैप करना अपनी कीमत कम करना और बिक्री बढ़ाना|

तो ऐसे तरीके जहां पे लोगों की मेहनत से बनाए गए मटेरियल को कॉपी करके मिसयूज किया जा रहा है वो तरीके सही नहीं है।और ऐसे तारेकों को गूगल भी अपने सर्च इंजन पे अनुमति नहीं देता है।

वेबसाइट से डेटा स्क्रैप करने के लिए पायथन कोड:

#code – 1
import requests

r = requests.get(‘url’)
print(r)
print(r.content)

वेब स्क्रैपिंग सीखने के लिए कुछ उपयोगी लिंक:

SQL सीखने के लिए कुछ लेख:

आशा करते हैं कि आपने कुछ अच्छी बातें वेब स्क्रैपिंग पे जानी, कृपया मुझे लिख कर हमें बताएं कि हम आपकी और क्या मदद कर सकते हैं वेब स्क्रैपिंग से संबंधित विषय पर या किसी अन्य विषय पर।

FAQs

Q1. वेब स्क्रैपिंग बनाम एपीआई में क्या अंतर है?

Ans. एपीआई से सिर्फ एक वेबसाइट से डेटा आता है, जबकी वेब स्क्रैपिंग की मदद से आप किसी भी वेबसाइट से डेटा निकाल सकते हैं।

Q2. वेब स्क्रैपिंग के लिए किस प्रोग्रामिंग भाषा का उपयोग किया जाता है?

Ans. Python.

Q3. क्या Google स्क्रैपिंग पर प्रतिबंध लगाता है?

Ans. जी हां अगर कोई इसे बॉट की मदद से करना चाहिए तो।

Q4. href attribute क्या है?

Ans. href का पूर्ण रूप हाइपरटेक्स्ट रेफरेंस है। यह href attribute उस पृष्ठ का यूआरएल निर्दिष्ट करती है जिस पर लिंक जाता है।
href attribute का उपयोग करने का कारण: कभी-कभी लंबे यूआरएल को सामग्री या वेबसाइट में एम्बेड नहीं किया जा सकता है, बल्कि केवल शीर्षक की आवश्यकता होती है और इसलिए href attribute का उपयोग केवल शीर्षक देने और उसमें एक लिंक जोड़ने के लिए किया जाता है।
Syntax: <a href=”URL“> Title </a>

स्क्रैपिंग क्या है – What is Scraping in Hindi

Table of Contents