Expert Speak Digital Frontiers
Published on Jun 05, 2024 Updated 0 Hours ago

इंटरनेटवर इंग्रजीचे वर्चस्व आहे. परंतु विकसनशील जगात आता अब्जावधी लोक ऑनलाइन येत असल्यामुळे लोकांना समजेल अशा भाषेतल्या सामग्रीचा समावेश महत्त्वाचा आहे. 

भाषिकदृष्ट्या वैविध्यपूर्ण 'माहिती समाजा'कडे वाटचाल

इंटरनेटवर इंग्रजीचे वर्चस्व आहे. सर्व लिखित सामग्रीपैकी निम्म्याहून अधिक ऑनलाइन सामग्री इंग्रजीमध्ये आहे. जागतिक लोकसंख्येपैकी फक्त 16 टक्के लोक इंग्रजी भाषा बोलत असले तरी या भाषेचा दबदबा प्रचंड आहे. इंटरनेटवर जगाच्या भाषिक विविधतेचा आलेख बघितला की कोणत्या भाषेचा किती समावेश आहे हे लक्षात येते. युनेस्कोच्या आकडेवारीनुसार जगात 8 हजार 324 लिखित आणि बोलल्या जाणाऱ्या भाषा आहेत. त्यापैकी सुमारे 7 हजार भाषा अजूनही वापरात आहेत. परंतु ऑनलाइन विश्वात इंग्रजी व्यतिरिक्त फक्त आठ भाषांचे लक्षणीय अस्तित्व आहे. दरवर्षी 17 मे ला जागतिक दूरसंचार आणि माहिती समाज दिन असतो. या निमित्ताने या माहितीतील असमानतेचा आढावा घेणे आणि आपण भाषिकदृष्ट्या अधिक वैविध्यपूर्ण आणि सर्वसमावेशक माहिती समाज कसा तयार करू शकतो याचा शोध घेणे आवश्यक आहे.

स्रोत: स्टॅटिस्टा

आपण या टप्प्यापर्यंत कसे पोहोचलो?  अमेरिका आणि इतर इंग्रजी भाषिक देशांमध्ये इंटरनेटचा विकास झाला कारण तिथले बरेच लोक इंग्रजी भाषक होते. जागतिक तंत्रज्ञानामध्ये अमेरिकेची अग्रणी भूमिका असल्याने ऑनलाइन क्षेत्रात इंग्रजीचे वर्चस्व आहे. इंटरनेट सोसायटी फाऊंडेशनच्या निरीक्षणानुसार स्वत:चा विकास करण्यासाठीची बहुतांश सामग्री इंग्रजीत आहे. ती अधिकाधिक वापरकर्त्यांना आकर्षित करते. त्यामुळे इंग्रजी भाषेतील सामग्रीचा आणखी विस्तार होतो. त्यामुळे इतर भाषांमधली सामग्री वापरकर्त्यांना तेवढी आकर्षित करत नाही. तिची दृश्यमानता आणि पोहोच दोन्हीही कमी आहे. 

इंटरनेटवर भाषेचे वैविध्य नसल्यामुळे लोकांमध्ये फूट पडली आहे आणि परिणामी जगातली मोठी लोकसंख्या अजूनही इंटरनेटच्या वापरापासून वंचित आहे.  

पण आता ही स्थिती कायम राहणार नाही. विकसनशील जगात अब्जावधी लोक ऑनलाइनच्या प्रवाहात येत आहेत. त्यामुळे त्यांना समजेल अशा भाषेत सामग्री पोहोचवणे हे तंत्रज्ञानाच्या उपलब्धतेइतकेच महत्त्वाचे असेल. इंटरनेटवर भाषेचे वैविध्य नसल्यामुळे लोकांमध्ये फूट पडली आहे आणि परिणामी जगातली मोठी लोकसंख्या अजूनही इंटरनेटच्या वापरापासून वंचित आहे हे लक्षात घ्यावे लागेल. त्यामुळे भाषा तंत्रज्ञानामध्ये धोरणात्मक गुंतवणूक करणे आवश्यक आहे.  यांत्रिक भाषांतर, डिजिटल स्क्रिप्ट आणि नैसर्गिक भाषा यामधली प्रगती ही भाषा शिक्षण आणि क्षमतांना चालना देण्यासाठीच्या ऑफलाइन प्रयत्नांशी जुळली पाहिजे. खरंच भाषिक विविधतेच्या महत्त्वाबद्दल जागरुकता वाढवणे हे परस्परसंबंधित आणि न्याय्य डिजिटल वातावरणाच्या दिशेने पहिले पाऊल आहे.

भारताची दिशा  

सुमारे 25 वर्षांपूर्वी, इजिप्तमधील कैरो मध्ये इंटरनेट कॉर्पोरेशन फॉर असाइन्ड नेम्स अँड नंबर्स (ICANN) च्या बैठकीत सहभागी झालेल्या सदस्यांनी गैर-इंग्रजी डोमेन नावांच्या गरजेकडे लक्ष वेधले. ICANN ने आंतरराष्ट्रीयीकृत डोमेन नेम (IDNs) सेट करण्यास आणि चाचणी करण्यास सुरुवात करून एक दशक उलटून गेले. तेव्हापासून बरीच प्रगती झाली आहे. उदाहरणार्थ भारतात ICANN त्याच्या 22 अनुसूचित भाषांसह देशभरात वापरल्या जाणाऱ्या एकापेक्षा अधिक भाषांमधील डोमेन नावांना समर्थन देण्यासाठी काम करते आहे. त्याच बरोबरीने जागतिक स्तरावरच्या संस्था भारतीय आणि इतर भाषांमध्ये उच्च-स्तरीय डोमेन (TLDs) सुरक्षितपणे आणि विश्वासार्हपणे परिभाषित करण्यासाठी मार्गदर्शक तत्त्वे ठरवत आहेत. यामुळे इंग्रजी न बोलणारे लोकही त्यांच्या मूळ स्क्रिप्टमध्ये लिहिलेल्या डोमेन नावांचा वापर करणाऱ्या वेबसाइट्स पाहू शकतील. 

2014 मध्ये भारत सरकारने देवनागरी लिपीत ‘भारत’ नावाचे डोमेन सुरू केले. यामध्ये हिंदी, कोकणी आणि मराठीसह आठ भाषांचा समावेश आहे.  यामुळे हिंदी डोमेन नावासह वेबसाइटची मालकी असल्याच्या व्यक्ती किंवा कंपन्यांना '.com', '.net' किंवा ' यांसारख्या सामान्य TLDs ऐवजी हिंदी लिपीत 'भारत' एक्स्टेंशनसह नाव बुक करण्याची परवानगी मिळाली. यानंतर नॅशनल इंटरनेट एक्स्चेंज ऑफ इंडियाने बांगला, मणिपुरी, उर्दू, पंजाबी, तेलुगू, तमिळ आणि गुजराती यांसारख्या इतर भारतीय भाषांमध्ये IDNs  सुरू केले.

देशातील सर्व स्मार्टफोन्स आणि फीचरफोन्सना भारतीय मजकूराचा समावेश करणे आवश्यक आहे, असे आदेश भारत सरकारने 2017 आणि 2018 च्या दरम्यान दिले. यासाठी भारतीय प्रमाणित भाषा आणि तज्ज्ञांची मदत घेण्याच्या सूचनाही देण्यात आल्या होत्या.  याव्यतिरिक्त सर्व मोबाइल उपकरणांना प्रत्येक भाषेसाठी विशिष्ट वर्ण संचांचे पालन करावे लागेल, हेही आदेश आहेत. आतापर्यंत विविध उपकरणांमध्ये भिन्न वर्ण संच वापरले होते.  त्यामुळे प्रत्येक उपकरणावर मजकूर रेंडर करण्याच्या पद्धतीमध्ये विसंगती निर्माण झाली होती.

या आदेशाचे पालन केल्याने आता भारतातल्या इंटरनेट आणि मोबाइल वापरावर मोठा प्रभाव पडला आहे. यामुळे भारतीय भाषा सामग्री आणि भाषिक सेवांमध्ये वाढही झाली आहे. Google-KPMG सर्वेक्षणानुसार, देशातील इंटरनेट वापरकर्त्यांमध्ये भारतीय भाषेतील सेवांना जास्त मागणी आहे. यापैकी बहुतेक लोक त्यांच्या स्वतःच्या भाषेत इंटरनेट वापरण्यास प्राधान्य देतात. सध्याच्या घडीला मोबाइल उपकरणांमध्ये 22 भारतीय भाषांचा समावेश अनिवार्य आहे. त्यामुळे लाखो भारतीय स्थानिक भाषांमध्ये इंटरनेटचा वापर करू शकले आहेत.   

या प्रयत्नांना पूरक म्हणून खाजगी क्षेत्राने बहुभाषिक प्लॅटफॉर्म आणि सामग्रीच्या विकासाला प्रोत्साहन दिले आहे. उदाहरणार्थ, ई-कॉमर्समध्ये अग्रणी असलेल्या फ्लिपकार्ट आणि ॲमेझॉनने प्रादेशिक भाषांमध्ये वेबसाइट्स सुरू केल्या आहेत. Facebook, Whatsapp आणि X सारखे सोशल मीडिया प्लॅटफॉर्मही अनेक भारतीय भाषांमध्ये उपलब्ध आहेत. 

सर्वम या नॅरेटिव्ह AI स्टार्टअपची स्थापना 2023 मध्ये झाली. यामध्ये उपलब्ध मुक्त-स्रोत मॉडेल्सचा वापर करून प्रणाली तयार करण्यात आली. त्यांनी OpenHathi हे त्यांचे पहिले मुक्त-स्रोत हिंदी LLM  सुरू केले आणि त्यासाठी 41 दशलक्ष अमेरिकी डाॅलर्सचा निधीही उभारला. 

स्थानिक भाषांमध्ये डेटा आणि सामग्रीची वाढती उपलब्धता भारताच्या कृत्रिम बुद्धिमत्ता (AI) क्षेत्राच्या प्रगतीलाही आकार देते आहे. उदाहरणार्थ भारतातील पहिले एआय स्टार्टअप उद्योजक भाविश अग्रवाल यांनी सुरू केले आहे. यामध्ये देशातील पहिले बहुभाषिक मॉडेल (LLM) सुरू केले आहे. हे मॉडेल 10 भारतीय भाषांमध्ये मजकूर तयार करू शकते. यासाठी 1 अब्ज अमेरिकी डाॅलर्स खर्च आला. Krutrim's LLM असे याचे नाव आहे. या मॉडेलला आणि हिंदी आणि इंग्रजी यासारख्या भाषांच्या मिश्रणासह अनेक भाषा समजू शकतात. अशा भाषेला ‘हिंग्लिश’ म्हणून ओळखले जाते. सर्वम या नॅरेटिव्ह AI स्टार्टअपची स्थापना 2023 मध्ये झाली. यामध्ये उपलब्ध मुक्त-स्रोत मॉडेल्सचा वापर करून प्रणाली तयार करण्यात आली. त्यांनी OpenHathi हे त्यांचे पहिले मुक्त-स्रोत हिंदी LLM  सुरू केले आणि त्यासाठी  41 दशलक्ष अमेरिकी डाॅलर्सचा निधीही उभारला आहे. त्याचप्रमाणे तेलुगू एलएलएम लॅब्सनी डिजिटल समावेशकता आणि डिजिटल प्रवेशाला प्रोत्साहन देण्यासाठी नवरासा 2.0 चे अनावरण केले आहे. हे सुधारित LLM म्हणजे लार्ज लँग्वेज माॅडेल 15 भारतीय भाषा आणि इंग्रजीमध्ये काम करते. OdiaGenAI ने ओडियाच्या भाषेतील बारकावे ओळखण्यासाठी आणि भाषेची डिजिटल उपस्थिती मजबूत करण्यासाठी LLM तयार केले आहे.

या सर्व सार्वजनिक आणि खाजगी प्रकल्प आणि उपक्रमांना सरकारच्या ‘मिशन भाषिणी’ चा पाठिंबा आहे. 2022 मध्ये लाँच केलेले मिशन भारतीय भाषा तंत्रज्ञान ही परिसंस्था तयार करते आहे.  भारतीय भाषा तंत्रज्ञान विकसित करण्यासाठी आणि भारतीय भाषांसाठी युनिफाइड लँग्वेज इंटरफेस (ULI) म्हणजे एकत्रित भाषेचा मंच तयार करण्यासाठी सरकार, शैक्षणिक संस्था आणि स्टार्टअप्सच्या विविध प्रयत्नांना एकाच चौकटीत आणले जात आहे. 

पुढचा मार्ग

भारताने वेब डेव्हलपमेंटचे प्रयत्न एकत्रित केले आहेत. तसेच नवीन सामग्री, लिपी आणि कृत्रिम बुद्धिमत्तेचे उपाय तयार केले तरीही भाषिक समावेश पुढे नेण्यासाठी आणखी बरेच काही करता येऊ शकेल. जास्तीत जास्त व्यवसायांमध्ये बहुभाषिक सामग्री वापरण्याच्या शक्यता तपासल्या जात आहेत. व्यापक प्रेक्षकांपर्यंत पोहोचण्यासाठी आणि उच्च कमाईचे साधन म्हणूनही याकडे  पाहता येते. त्याचबरोबर यामुळे अवकाशातील उपक्रमांना अधिक गती आणि प्रमाण मिळण्याची शक्यता आहे. इंग्रजीच्या तुलनेत गैर-इंग्रजी भाषांमधील दर्जेदार भाषेच्या डेटाची कमतरता दूर करण्यासाठी सरकारचा पुढाकार आवश्यक आहे पण व्यावसायिक स्तरावरचे प्रयत्नही व्हायला हवेत. सध्या अशा सामग्रीची उणीव आहे. त्यामुळे भारतीय भाषांमध्ये नैसर्गिक भाषा प्रक्रियेसाठी अल्गोरिदम आणि एआय मॉडेल्सच्या विकासात अडथळा येतो आहे. याचमुळे एखाद्या मजकुराचे भाषांतर आणि सामग्रीची निर्मिती स्वयंचलित पद्धतीने होत नाही.  

जास्तीत जास्त व्यवसायांमध्ये बहुभाषिक सामग्री वापरण्याच्या शक्यता तपासल्या जात आहेत. व्यापक प्रेक्षकांपर्यंत पोहोचण्यासाठी आणि उच्च कमाईचे साधन म्हणूनही याकडे पाहता येते. त्याचबरोबर यामुळे अवकाशातील उपक्रमांना अधिक गती आणि प्रमाण मिळण्याचीही शक्यता आहे.

स्थानिक भाषा सामग्रीच्या मागणीचे भांडवलात रूपांतर करणेही आवश्यक आहे. तरच हे तंत्रज्ञान व्यावसायिक स्तरावर यशस्वी होऊ शकेल. विज्ञान, तंत्रज्ञान, व्यवसाय आणि प्रशासन या क्षेत्रांमध्ये भारतीय भाषांचा वापर लोकप्रिय करण्याच्या उद्देशाने राष्ट्रीय अनुवाद अभियानासारखे उपक्रमही खूप मोलाचे आहेत. त्याचप्रमाणे डिजिटल इंडिया सारख्या कार्यक्रमांमुळे भाषा-विशिष्ट पोर्टल्स, भारतीय-भाषिक संसाधनांसाठी डिजिटल लायब्ररी आणि डिजिटल साक्षरता मोहिमेमुळे मोठा फायदा झाला आहे. या सगळ्या प्रयत्नांमुळे डिजिटल क्षेत्रात अधिक वैविध्यपूर्ण माहिती आणि ज्ञानाचा प्रसार करणाऱ्या संस्था तयार होत आहेत. 


अनिर्बन सरमा हे ऑब्झर्व्हर रिसर्च फाउंडेशनचे उपसंचालक आणि वरिष्ठ फेलो आहेत.

सृष्टी जायभाये यांनी ऑब्झर्व्हर रिसर्च फाउंडेशनमध्ये रिसर्च इंटर्न म्हणून काम केले आहे.

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.

Authors

Anirban Sarma

Anirban Sarma

Anirban Sarma is Deputy Director of ORF Kolkata and a Senior Fellow at ORF’s Centre for New Economic Diplomacy. He is also Chair of the ...

Read More +
Shrushti Jaybhaye

Shrushti Jaybhaye

Shrushti Jaybhaye is a Research Intern at the Observer Research Foundation ...

Read More +