Expert Speak Digital Frontiers
Published on May 24, 2024 Updated 0 Hours ago

इंटरनेट पर अंग्रेज़ी का दबदबा है. लेकिन, जैसे जैसे विकासशील देशों के एक अरब से ज़्यादा नए लोग ऑनलाइन हो रहे हैं, ऐसे में लोगों की समझ में आने वाली भाषा में उपयोगी कंटेंट तक पहुंच बेहद महत्वपूर्ण होगी.

भाषाई विविधता वाले ‘सूचना समाज’ की ओर बढ़ते क़दम!

इंटरनेट की दुनिया में अंग्रेज़ी का बोलबाला है. ऑनलाइन दुनिया में जो कुछ लिखा जाता है, उसमें से आधा अंग्रेज़ी भाषा में होता है. हालांकि, दुनिया की 16 प्रतिशत से भी कम आबादी ऐसी है, जो अंग्रेज़ी भाषा बोलती है. साइबर क्षेत्र में विश्व की लैंगिक विविधता का बेहद असाधारण रूप से छोटा हिस्सा ही नज़र होता है. संयुक्त राष्ट्र के शैक्षणिक, वैज्ञानिक और सांस्कृतिक संगठन (UNESCO) का कहना है कि दुनिया भर में 8,324 भाषाएं लिखी और बोली जाती हैं, जिनमें से लगभग सात हज़ार भाषाओं का उपयोग आज भी किया जाता है. लेकिन, ऑनलाइन दुनिया में अंग्रेज़ी के अलावा केवल आठ और भाषाएं हैं, जिनकी कोई ख़ास मौजूदगी है. हर साल 17 मई को मनाए जाने वाले वर्ल्ड टेलीकम्युनिकेशन ऐंड इन्फॉर्मेशन सोसाइटी डे पर सूचना की इन असमानताओं का हिसाब किताब लगाना और इस बात की संभावनाएं तलाशना काफ़ी उपयोगी हो जाता है कि हम सूचना के भाषाई तौर पर विविधतापूर्ण और समावेशी समाज का निर्माण कैसे कर सकते हैं.

Source: Statista

हम इस हालत में पहुंचे कैसे? इंटरनेट के विकास की शुरुआत अमेरिका और अंग्रेज़ी बोलने वाले दूसरे देशों में हुआ था. इसकी वजह से शुरुआत में इसका इस्तेमाल करने वाले अधिकतर लोग अंग्रेज़ी बोलने वाले थे. अमेरिका के दुनिया के तकनीक़ी अगुवा बने रहने की वजह से भी ऑनलाइन दुनिया में अंग्रेज़ी का दबदबा और मज़बूत होता गया. जैसा कि इंटरनेट सोसाइटी फाउंडेशन का कहना है कि, ‘ख़ुद को मज़बूत बनाने वाला एक चक्र चल रहा है, जिसमें ऑनलाइन प्लेटफॉर्म पर अंग्रेज़ी में अधिक कंटेंट होने से अधिक यूज़र आकर्षित होते हैं, जिससे अंग्रेज़ी भाषा के कंटेंट का और भी विस्तार होता जाता है.’ इसी का नतीजा है कि इंटरनेट पर अन्य भाषाओं को अंग्रेज़ी के बराबर मौक़ा नहीं मिल पाता. इस वजह से अंग्रेज़ी का ऐसा दबदबा और पहुंच हो गए हैं कि उससे पार पाना और भी मुश्किल हो गया है.

 संयुक्त राष्ट्र के शैक्षणिक, वैज्ञानिक और सांस्कृतिक संगठन (UNESCO) का कहना है कि दुनिया भर में 8,324 भाषाएं लिखी और बोली जाती हैं, जिनमें से लगभग सात हज़ार भाषाओं का उपयोग आज भी किया जाता है. लेकिन, ऑनलाइन दुनिया में अंग्रेज़ी के अलावा केवल आठ और भाषाएं हैं, जिनकी कोई ख़ास मौजूदगी है.

हालांकि, ये यथास्थिति बनाए रखना अब संभव नहीं रह गया है. अब जबकि विकासशील देशों के एक अरब से ज़्यादा नए लोग ऑनलाइन हो रहे हैं, तो ऐसे में लोगों की समझ में आने वाली ज़ुबान में उपयोगी कंटेंट भी उतना ही महत्वपूर्ण हो गया है, जितनी ये तकनीक़ है. साइबर दुनिया में ऐतिहासिक रूप से बहुभाषावाद की कमी डिजिटल खाई को और चौड़ा कर दिया है और इसकी वजह से मानवता के एक विशाल तबक़े की अनदेखी होती आई है. ऐसे में भाषा की तकनीक़ में सामरिक निवेश करना ज़रूरी हो गया है; और, मशीन से अनुवाद, डिजिटल स्क्रिप्ट और क़ुदरती तौर पर भाषा की प्रॉसेसिंग को भाषा की शिक्षा और क़ाबिलियत बढ़ाने के ऑफलाइन प्रयासों के साथ क़दम-ताल करनी होगी. निश्चित रूप से आपस में अधिक जुड़े हुए और समतावादी डिजिटल माहौल बनाने की दिशा में पहला क़दम तो भाषाई विविधता के प्रति जागरूकता पैदा करने का होगा.

 

भारतीय तरीका

 

लगभग 25 साल पहले मिस्र की राजधानी काहिरा में इंटरनेट कॉरपोरेशन फॉर एसाइन्ड नेम्स ऐंड नंबर्स (ICANN) की बैठक में शामिल भागीदारों ने ग़ैर अंग्रेज़ीभाषी डोमेन नामों की ज़रूरत की तरफ़ ध्यान खींचा था. इसके एक दशक बाद जाकर ICANN ने अंतरराष्ट्रीय डोमेन नेम (IDNs) रखना और उनका परीक्षण करना शुरू किया. उसके बाद से इस दिशा में काफ़ी प्रगति हुई है. मिसाल के तौर पर भारत में ICAAN, 22 अनुसूचित भाषाओं के साथ साथ देश भर में इस्तेमाल होने वाली तमाम दूसरी भाषाओं में डोमेन नेम रखने में मदद कर रहा है. इसके साथ साथ ये संगठन, भारतीय और दुनिया की अन्य भाषाओं में उच्च स्तर के डोमेन (TLDs) को सुरक्षित रूप से परिभाषित करने के दिशा-निर्देश स्थापित कर रहा है, ताकि ग़ैर अंग्रेज़ी भाषी वक्ता भी ऐसी वेबसाइटों तक पहुंच बना सकें, जो उनकी अपनी ज़बान में लिखे डोमेन नेम का इस्तेमाल करते हैं, न कि उन्हें केवल अंग्रेज़ी भाषा पर आधारित डोमेन नेम के भरोसे रहना पड़े.

 

2014 में भारत सरकार ने देवनागरी लिपि में ‘भारत’ के नाम से डोमेन नेम की शुरुआत की थी, जिसमें हिंदी, कोंकणी और मराठी समेत आठ भारतीय भाषाएं शामिल थी. इससे अपनी वेबसाइट बनाने की इच्छा रखने वाले लोगों और कंपनियों को ज़्यादा आम चलन वाले TLDs जैसे कि ‘.com’, ‘.net’ या फिर ‘.in’ की जगह हिंदी के डोमेन नेम वाली वेबसाइट को हिंदी लिपि में ‘भारत’ के नाम से रजिस्टर करने का मौक़ा मिल सका. इसके अगले साल भारत के नेशनल इंटरनेट एक्सचेंज ने बांग्ला, मणिपुरी, उर्दू, पंजाबी, तेलुगू, तमिल और गुजराती  जैसी भारतीय भाषाओं में भी IDN देने की शुरुआत की.

 2017 से 2018 के दौरान सरकार ने भारतीय मानक ब्यूरो और भाषा के विशेषज्ञों की मदद से आदेश दिया कि देश में स्मार्टफोन और फीचरफोन में भारतीय टेक्स्ट को सपोर्ट करने की सुविधा देनी होगी. इसके अतिरिक्त सारे मोबाइलों को हर भाषा की कुछ मानक लिपि का पालन करना होगा.

इस दिशा में एक लंबी छलांग लगाते हुए 2017 से 2018 के दौरान सरकार ने भारतीय मानक ब्यूरो और भाषा के विशेषज्ञों की मदद से आदेश दिया कि देश में स्मार्टफोन और फीचरफोन में भारतीय टेक्स्ट को सपोर्ट करने की सुविधा देनी होगी. इसके अतिरिक्त सारे मोबाइलों को हर भाषा की कुछ मानक लिपि का पालन करना होगा. ये काफ़ी महत्वपूर्ण क़दम था, क्योंकि इससे पहले अलग अलग फोन में अलग अलग कैरेक्टर वाले टेक्स्ट इस्तेमाल किए जाते थे, जिससे हर मोबाइल में दिखने वाले टेक्स्ट अलग अलग हो जाते थे.

 

इस आदेश का पालन करने से मोबाइल फर्स्ट वाले भारत में इंटरनेट और मोबाइल के इस्तेमाल पर ज़बरदस्त असर पड़ा और इसने भारतीय भाषाओं के कंटेंट और सेवाओं में अभूतपूर्व विकास को गति दी है. गूगल-KPMG के सर्वे के मुताबिक़, भारत में इंटरनेट के यूज़र्स के बीच भारतीय भाषाओं की सेवाओं की भारी मांग है. इनमें से ज़्यादातर अपनी भाषा में इंटरनेट इस्तेमाल करने को तरज़ीह देते हैं. आज भारत में मोबाइलों में देश की 22 अनुसूचित भाषाओं में डिस्प्ले सपोर्ट अनिवार्य होने से स्थानीय भाषाओं में इंटरनेट की उपलब्धता करोड़ों भारतीयों के लिए एक हक़ीक़त बन चुकी है.

 

इन कोशिशों को आगे बढ़ाते हुए निजी क्षेत्र भी अपनी ओर से बहुभाषी प्लेटफॉर्म और कंटेंट विकसित करने पर ज़ोर दे रहा है. मिसाल के तौर पर ई-कॉमर्स की बड़ी कंपनियां जैसे कि फ्लिपकार्ट और अमेज़न ने क्षेत्रीय भाषाओं में अपनी वेबसाइटें लॉन्च की हैं; और फ़ेसबुक, व्हाट्सऐप और एक्स जैसे सोशल मीडिया प्लेटफॉर्म भी कई भारतीय भाषाओं को सपोर्ट करते हैं.

 

देसी भाषाओं में डेटा और कंटेंट की बढ़ती उपलब्धता, भारत में आर्टिफ़िशियल इंटेलिजेंस (AI) के सेक्टर की प्रगति को भी बढ़ावा दे रही है. मिसाल के तौर पर भारत की 1 अरब डॉलर वाली AI की पहली स्टार्ट अप क्रुत्रिम जिसे कई स्टार्ट अप शुरू करने वाले भविश अग्रवाल ने स्थापित किया है, ने देश के पहले बहुभाषी लार्ज लैंग्वेज मॉडल (LLM) को लॉन्च किया है. ये मॉडल दस भारतीय भाषाओं में टेक्स्ट लिख सकता है, जिसमें हिंदी और अंग्रेज़ी के शब्दों को मिलाकर बोली और लिखी जाने वाली लोकप्रिय हिंग्लिश भी शामिल है. 2023 में स्थापित और उपलब्ध ओपेन सोर्स मॉडल से अपना सिस्टम बनाने वाली जेनेरेटिव AI की स्टार्ट अप सर्वम ने  पहले ओपन सोर्स हिंदी LLM OpenHathi को लॉन्च किया है और इसने 4.1 करोड़ डॉलर का फंड भी जुटा लिया है. इसी तरह तेलुगु की LLM लैब्स ने Navarasa 2.0 को लॉन्च किया है, जो 15 भारतीय भाषाओं और अंग्रेज़ी को सपोर्ट करने वाला अपग्रेडेड LLM है, और इसका मक़सद डिजिटल समावेशीकरण और पहुंच को बढ़ावा देना है; और OdiaGenAI ने ओडिया भाषा की भाषाई बारीक़ियों को समझने में मदद के लिए और डिजिटल दुनिया में इस भाषा की पहुंच बढ़ाने के लिए एक लार्ज लैंग्वेज मॉडल निर्मित किया है.

 स्थानीय भाषाओं में कंटेंट की भारी मांग है, ये बात तो साबित हो चुकी है. अब इस मांग का इस्तेमाल करना ज़रूरी है. इस मामले में नेशनल ट्रांसलेशन मिशन जैसी कोशिशें, जो विज्ञान, तकनीक़, कारोबार और प्रशासन जैसे क्षेत्रों में भारतीय भाषाओं के इस्तेमाल को लोकप्रिय बनाना चाहती हैं, वो काफ़ी मूल्यवान हैं.

निजी और सार्वजनिक क्षेत्र की इन परियोजनाओं और उद्यमों में सबसे ऊपर सरकार का ‘मिशन भाषिणी’ है. इसे 2022 में लॉन्च किया गया था और इसका मक़सद भारतीय भाषा में तकनीक़ का इकोसिस्टम विकसित करना है. मिशन भाषिणी के तहत सरकार, अकादेमिक क्षेत्र और स्टार्ट अप के तमाम प्रयासों के लिए एक ही रूप-रेखा का निर्माण करना है, ताकि भारतीय भाषाओं में तकनीक़ का विकास करने के साथ साथ, भारतीय भाषाओं के एक यूनिफाइड लैंग्वेज इंटरफेस (ULI) बनाया जा सके.

 

आगे की राह

 

आज जब भारत वेब के विकास के अपने प्रयासों को मज़बूती दे रहा है, और भाषाई समावेश को बढ़ाने के लिए नया कंटेंट, लिपियां और AI के समाधानों का निर्माण कर रहा है, तो इस मामले में अभी और भी बहुत कुछ किया जा सकता है. आज बहुत से कारोबार, नए अनछुए बाज़ारों तक पहुंच बनाने और अधिक से अधिक लोगों तक पहुंचने और अपनी कमाई बढ़ाने के लिए कई भाषाओं में कंटेंट को एक माध्यम के तौर पर देख रहा है, तो इस बात की पूरी संभावना है कि इस मामले में की जा रही पहलों की रफ़्तार और उनका दायरा और बढ़ेगा. इन कोशिशों के साथ ही सरकार द्वारा लगातार ज़ोर देना भी ज़रूरी होगा, ताकि अंग्रेज़ी की तुलना में ग़ैर अंग्रेज़ी भाषाओं में अच्छे डेटा की कमी से निपटा जा सके. क़िल्लत का ये मसला अभी भारतीय भाषाओं में नेचुरल लैंग्वेज प्रॉसेसिंग के एल्गोरिद्म और AI के मॉडल विकसित करने की राह में रोड़ा बन रहा है, जिसकी वजह से अनुवाद और कंटेंट क्रिएशन की प्रक्रिया को स्वचालित बनाना मुश्किल हो रहा है.

 

स्थानीय भाषाओं में कंटेंट की भारी मांग है, ये बात तो साबित हो चुकी है. अब इस मांग का इस्तेमाल करना ज़रूरी है. इस मामले में नेशनल ट्रांसलेशन मिशन जैसी कोशिशें, जो विज्ञान, तकनीक़, कारोबार और प्रशासन जैसे क्षेत्रों में भारतीय भाषाओं के इस्तेमाल को लोकप्रिय बनाना चाहती हैं, वो काफ़ी मूल्यवान हैं. इसी तरह डिजिटल इंडिया के कार्यक्रम भी काफ़ी उपयोगी हैं, जिनकी वजह से ख़ास भाषाओं के पोर्टल, भारतीय भाषाओं के संसाधनों वाली डिजिटल लाइब्रेरी और डिजिटल साक्षरता की मुहिमों का लाभ आबादी के एक बड़े तबक़े को हो रहा है. सब मिलाकर ये प्रयास सूचना और ज्ञान के ज़्यादा विविधता भरे समाजों के निर्माण में काफ़ी मददगार साबित हो रहे हैं

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.