Expert Speak Raisina Debates
Published on Feb 20, 2025 Updated 0 Hours ago

चीनमधील मँडरीन भाषेतील ‘एलएलएम’चे उदाहरण घेऊन भारताच्या संरक्षण मंत्रालयाने विविध भारतीय भाषांचे लार्ज लॅंग्वेज मॉडेल बनविण्याचा विचार केला पाहिजे.

संरक्षण क्षेत्रात भारतीय भाषांचे एआय मॉडेल गरजेचे

Image Source: Getty

संरक्षण मंत्रालयाने २०२५ चा प्रारंभ ‘सुधारणांचे वर्ष’ असे संबोधून केला आहे. या वर्षी नवे तंत्रज्ञान विशेषतः रोबोटिक्स, मशिन लर्निंग आणि एआय (AI)  हे मुद्दे केंद्रस्थानी असल्याचे मंत्रालयाने स्पष्ट केले आहे. या वर्षाचा विषयही २०२४ ला नैसर्गिक सातत्य असलेला म्हणजे ‘तंत्रज्ञानाचा वापर करून जवानांना सक्षम करणारे वर्ष’ हा आहे. जवानांना केवळ प्रत्यक्ष रणभूमीवर व लढाईदरम्यान सक्षम असण्याची गरज आहे, असा सामान्यतः समज असतो; परंतु तो पूर्णपणे खरा नाही. अंतर्गत व्यवस्थापन, व्यावसायिक नियमांचे पालन, लॉजिस्टिक्स, कमांड व ब्रिगेड स्तरावरील खरेदी, कर्मचारी पुनर्शिक्षण व प्रशिक्षण, युद्धाचे डावपेच, आपत्तीदरम्यानचे शोधकार्य व बचाव, लष्करी दस्तावेज आणि तंत्रज्ञानविषयक नैतिकता यांसारख्या प्रत्यक्ष युद्धभूमीवर न जाता करावयाच्या कार्यांमध्ये जवानांना मदत करून लष्कराला अधिक कार्यक्षम करणे गरजेचे असते. लष्करामधील युद्धेतर कार्यांमध्ये एआय (AI) वापर करण्यास या आधीच सुरुवात झाली आहे; परंतु ते एआयचे केवळ वापरकर्ते असू शकत नाहीत. त्यासाठी राष्ट्रीय स्तरावरील एआयच्या क्षमता जोपासण्याच्या आणि वाढवण्याच्या क्षमतेचाही वापर करायला हवा.   

लष्करामधील युद्धेतर कार्यांमध्ये एआय (AI) चा वापर करण्यास या आधीच सुरुवात झाली आहे.

संरक्षण मंत्रालयाच्या ‘डिफेन्स आर्टिफिशियल इंटेलिजन्स प्रोजेक्ट्स एजन्सी’ने (डीएआयपीए) लष्कराच्या साह्याने आपल्या स्थापनेपासून म्हणजे २०१८ पासून चॅटबॉट्स, ऑडिओबॉट्स आणि व्हिडीओबॉट्ससारख्या बेस्पोक एआय साधनांचा एक मार्ग तयार केला आहे. याचा वापर जगभरातील सर्वच लष्करांकडून युद्धेतर कार्यांमध्ये जवानांचा आभासी मदतगार म्हणून केला जातो. लष्कराच्या दक्षिण कमांडने २०२४ च्या एप्रिलमध्ये आपल्या तंत्रज्ञान वापर मोहिमेचा एक भाग म्हणून ‘समाधान’ नावाच्या एका एआय चॅटबॉटची निर्मिती केली आहे. हा चॅटबॉट सार्वजनिक खरेदी आणि संबंधित धोरणांशी संबंधित प्रश्नांवर काम करणाऱ्या अधिकाऱ्यांना साह्यकारी ठरतो. ‘संबंध’ हा लष्कराच्या नेतृत्वाखालील आणखी एक चॅटबॉट युद्धवीर आणि हुतात्म्यांच्या पत्नींना वैयक्तिक संवाद साधणे, त्यांच्या प्रश्नांना उत्तरे देणे आणि तक्रारी नोंदवणे व आवश्यक माहिती पुरवणे हे उद्दिष्ट ठेवून निर्माण करण्यात आला आहे. अमेरिकेतील ‘वर्ल्ड वाइड टेक्नॉलॉजी इंक’ या माहिती तंत्रज्ञान सेवा कंपनीने ‘समाधान’ आणि ‘संबंध’ यांप्रमाणेच ‘सार्जंटएआय’ची निर्मिती केली आहे. हा सहायक एआय असून तो अमेरिकी सैनिकांना विशेषतः नॉन-कमिशन्ड अधिकाऱ्यांना अमेरिकेच्या लष्करी नियमांचे पालन करण्यास मदत करतो. चीनच्या नॅशनल डिफेन्स विद्यापीठाच्या जॉइंट ऑपरेशन्स कॉलेजने चीनच्या रिअल वर्ल्ड (प्रत्यक्ष) कमांडरचे एआय रूप असलेल्या ‘व्हर्च्युअल एआय कमांडर’ची निर्मिती केली आहे. ज्या वेळी रिअल वर्ल्ड कमांडर उपलब्ध नसतो, तेव्हा टेबल टॉप सिम्युलेशन व आभासी युद्धासह कनिष्ठ श्रेणीतील सैनिकांना हा एआय कमांडर मदत करतो. चायनीज पीपल्स लिबरेशन आर्मी (पीएलए) ॲकॅडमी ऑफ मिलिटरी सायन्सेसने ‘चॅटबिट’ हा चॅटबॉट विकसित केला आहे. लष्करी गुप्तचर मोहिमांना मदत करण्यासाठी आणि निर्णयक्षमता सुधारण्यासाठी जवानांना आणि गुप्तचर अधिकाऱ्यांना मदत करणे, ही त्यामागची उद्दिष्टे आहेत.

एआय स्वीकारण्याच्या पहिल्या टप्प्यात आभासी एआय सहायक एक भाग बनल्यानंतर, दुसऱ्या टप्प्यात एलएलएम (LLM) निर्माण केली जातात. ‘स्केल एआय’ या अमेरिकेच्या एआय कंपनीने २०२४ च्या नोव्हेंबर महिन्यात मेटाच्या एलएलएएमए ३ वर बनवलेले एलएलएम डिफेन्स एलआयएमए सादर करण्याची घोषणा केली. याचा उपयोग राष्ट्रीय सुरक्षा अभियान विशेषतः गुप्तचर मोहिमा, प्रतिबंधात्मक मोहिमा आणि प्रतिस्पर्ध्यांच्या असुरक्षितता समजून घेण्यासाठी होतो. एलएलएम या संरक्षण ‘एलआयएएमए’ला लष्करी दस्तावेज, संरक्षण मंत्रालयाची धोरणे, मार्गदर्शक तत्त्वे आणि कृत्रिम प्रज्ञेची नैतिक तत्त्वे यांच्यासह खूप मोठ्या डेटासेटवर प्रशिक्षित केले गेले आहे. संरक्षण एलआयएएमएचे वापरकर्ते आणि नियंत्रण व्यासपीठे, गुप्तचर संस्था आणि निर्णय सहायक यंत्रणांचे ऑपरेटर आहेत. स्वदेशी ‘डीपसीक व्ही ३ एलएलएम’चे यश ही चीनच्या पीपल्स लिबरेशन आर्मीची (पीएलए) जमेची बाजू बनली आहे. त्यामुळे चीनच्या लष्कराला आता लष्करी वापरासाठी मेटा किंवा तत्सम अमेरिकी पायाभूत प्रारूपांवर अवलंबून राहण्याची गरज उरलेली नाही. चीनच्या एआय कंपन्यांनी तयार केलेल्या यी, क्वेन, बायच्युआन, एक्सव्हर्स यांसारखे एलएलएम उत्तमरीत्या काम करीत आहेत. ते सुलभ मँडरीन भाषेतील, पारंपरिक मँडरीन भाषेतील आणि कझाख, जिंगपो, ल्हासा तिबेटन यांसारख्या चीनमधील आदिवासी भाषांमध्ये; तसेच पूर्व आशियातील काही भाषांमध्येही उपलब्ध आहे. लवकरच पीएलए आपल्या सिनीक भाषेतील श्रेष्ठत्वाचा उपयोग करून संरक्षण क्षेत्रात सिनीक भाषेतील एलएलएम तयार करू शकेल. अशा प्रकारच्या सिनीक भाषेतील संरक्षण एलएलएमचा वापर युद्धेतर संरक्षण कार्यांसाठी वेगवेगळ्या प्रकारे केला जाऊ शकतो. या गोष्टीवरून प्रेरणा घेऊन भारताच्या संरक्षण मंत्रालयाने एलएलएमचा उपयोग करण्याचा विचार करायला हवा.      

एआय भाषेचे कोणतेही प्रारूप सामान्यतः सत्तामीमांसा, व्याकरण, शब्दकोश आणि कॉर्पोरा या मापकांवर आधारित असते. ते विशिष्ट बोलल्या जाणाऱ्या व लिखित भाषेत लिहिलेल्या सामान्य घटीतांच्या डेटाबेसमधून घेतले जाते. डेटाबेसचे प्रमाण व आकार यांच्यावर मापके निर्धारित केली जातात. चालू वर्षीच्या म्हणजे २०२५ च्या जानेवारीपर्यंत सध्याच्या अत्याधुनिक एलएलएममध्ये अर्थातच इंग्रजीतील डेटाबेसवर आधारित १.५६ ट्रिलियन मापके आहेत. मात्र, भारताने निर्मिलेल्या भारतीय भाषांमधील एलएलएममुळे आघाडीवर राहण्यासाठी भारताला अनुकूल स्थिती आहे. अशी अनुकूल स्थिती येण्यासाठी सार्वजनिक क्षेत्रातील संस्थांकडे असलेल्या मजकूर व दृकश्राव्य डेटाच्या समृद्धतेतून अशा भारतीय भाषांमधील एलएलएमला मोठ्या प्रमाणात मापके देणे महत्त्वाचे ठरेल. देशातील सर्वांत मोठा नियोक्ता असलेल्या संरक्षण मंत्रालयाकडे असलेल्या प्रचंड भारतीय व इंग्रजी भाषेच्या भांडारामुळे स्वतःचा भारतीय भाषा संरक्षण एलएलएम उपक्रम असू शकतो.

स्वदेशी बनावटीच्या एलएलएमकडे भारताचा असलेला कल पाहता काही शंका निर्माण झाल्या असल्या, तरी भारतीय भाषांच्या क्षेत्रावर वर्चस्व गाजवण्याची पुरेशी क्षमता भारतीय एआय कंपन्यांकडे आहे. या लेखाच्या व लेखात व्यक्त केलेल्या मतांसंदर्भात हिंदी व देशातील अन्य २१ अधिकृत भाषांचा विचार केला आहे. ‘सर्वम २ बी’ या भारतीय भाषांच्या मुक्त-स्रोत एआय स्टार्टअपचे भारतीय भाषांचे लहान भाषा प्रारूप (एसएलएम) आहे. ते सुधारित लामा रचनेवर आधारलेले आहे. तरी ते अमेरिकी मूलभूत एसएलएमच्या प्रारूपांपेक्षाही भारतीय भाषांमध्ये अधिक चांगले काम करते. त्यामुळे एमओडीने डेटा संवेदनशीलता व नेटवर्क सुरक्षा क्लोज-सोर्स प्रारूप म्हणून भारतीय भाषांमधील एलएलएमच्या हिताचा निर्णय घेतला, तर आणि मापके निर्धारित करण्यासाठी आपला मोठा डेटाबेस देऊ केला, तर तो त्यांच्या इंट्राम्युरल वापरासाठी क्लोज-स्रोत संरक्षण तयार करीलच. शिवाय अन्य क्षेत्रांतील भाषेच्या व्यापक वापरासाठी अधिक वापर करण्यास प्रोत्साहन देईल; परंतु एमओडी ते कसे करील?        

‘सर्वम २ बी’ या भारतीय भाषांच्या मुक्त-स्रोत एआय स्टार्टअपचे भारतीय भाषांचे लहान भाषा प्रारूप (एसएलएम) आहे. ते सुधारित लामा रचनेवर आधारलेले आहे. तरी ते अमेरिकी मूलभूत एसएलएमच्या प्रारूपांपेक्षाही भारतीय भाषांमध्ये अधिक चांगले काम करते.

एआयसह नव्या तंत्रज्ञानात सुधारणा करण्यासाठी आणि क्षमता निर्मितीच्या दृष्टीने पहिले पाऊल उचलत असल्याची घोषणा भारतीय लष्कराने २०२५ मध्ये केली. त्या वेळी भारतीय लष्कराने २०२५ च्या मध्यापासून नव्या तंत्रज्ञान विभाग तज्ज्ञांना आर्मी एज्युकेशन कॉर्पोरेशनच्या माध्यमातून सहभागी करण्याच्या चालू योजनांची माहिती दिली. याचे नुकतेच आर्मी नॉलेज अँड एनेबलर्स कॉर्प्स असे नामकरण करण्यात आले आहे. पदव्युत्तर पदवी असलेल्या डोमेन तज्ज्ञांना कमिशन्ड अधिकाऱ्यांच्या श्रेणीत समाविष्ट केले जाईल, तर पदवीधर तज्ज्ञांचा कनिष्ठ कमिशन्ड अधिकाऱ्यांच्या श्रेणीमध्ये समावेश केला जाईल.

एमओडीमध्ये कनिष्ठ कमिशन्ड व नॉन कमिशन्ड या श्रेणींचा, एमओडी लष्करेतर कर्मचारी, अग्निवीर, प्रादेशिक सेना व नॅशनल कॅडेट कॉर्प्सचा मोठा भाग येतो. हे सर्व घटक भारतीय भाषांमध्ये विशेषतः हिंदीमध्ये मोठ्या प्रमाणात अधिकृत सामग्री व डेटा निर्माण करतात आणि त्याचा वापरही करतात. डेटाचा हा वापर आणि निर्मिती १९६३ च्या अधिकृत भाषा कायद्याशी संलग्न आहे आणि प्रचंड प्रमाणातील ही सामग्री अनेक दशकांपासून एमओडी आणि अन्य भारतीय सरकारी संस्थांमधून एकत्रित केली गेली आहे. या सामग्रीला डिजिटल रूप देता येते आणि क्लोज्ड-सोर्स भारतीय भाषा संरक्षण एलएलएमसाठी मापके निश्चित करण्यासाठी वापरली जाऊ शकते. अर्थातच, आयआयटी मुंबईने राबविलेल्या ‘उडान’ या एआय प्रकल्पांतर्गत स्टेम शैक्षणिक पाठ्यपुस्तकांचे हिंदी व अन्य भारतीय भाषांमध्ये भाषांतर केले जाते, तसे इंग्रजी भाषेतील या विपुल डेटा भंडाराचे भाषांतर केले जाऊ शकते. हे मापक विपुलतेत अधिक भर घालू शकतील. ते एलएलएमसाठी आवश्यक आहे.

आर्मी नॉलेज अँड एनेबलर्स कॉर्प्स हे डीएआयपीए, डीआरडीओ, खासगी एआय कंपन्या आणि नागरी सरकारी प्रयोगशाळांच्या भागीदारीत एक परिसंस्था तयार करू शकतात.

आर्मी नॉलेज अँड एनेबलर्स कॉर्प्स हे डीएआयपीए, डीआरडीओ, खासगी एआय कंपन्या आणि नागरी सरकारी प्रयोगशाळांच्या भागीदारीत एक परिसंस्था तयार करू शकतात. आपल्या जवानांना काळ-अवकाश-दल-माहिती युद्धे लढायची असतील, तर किंवा त्यांना अत्याधुनिक यंत्रणांचा ह्युमन-इन-लूप बनायचे असेल, तर एआय यंत्रणांशी त्यांचा परिचय असणे गरजेचे आहे. त्याचप्रमाणे ते ज्या भाषेत विचार करतात आणि बोलतात, त्या भाषेत या एआय यंत्रणांनी काम करायला हवे. आणखी म्हणजे, भारतीय भाषांमधील संरक्षण एलएलएमला ‘प्रोजेक्ट उद्भव’चा लाभ होऊ शकतो. हा भारतीय लष्कराचा कार्यक्रम असून त्या अंतर्गत युद्ध, राज्यक्रांती, ऐतिहासिक मोहिमा व नैतिकता यांवरील प्राचीन ज्ञानाची आधुनिक काळातील ऐतिहासिक मोहिमांशी तुलना करून विश्लेषण करण्यात येते. आर्मी ट्रेनिंग कमांड आणि कॉलेज ऑफ डिफेन्स मॅनेजमेंटच्या प्रशिक्षण व उच्च कौशल्य अभ्यासक्रमात संस्कृत आणि अन्य भारतीय भाषांमधील आशय आणल्याने जवानांचे आणखी सक्षमीकरण होईल. भारतीय भाषा एलएलएम हा भारतीय भाषांना प्रोत्साहन देण्यासाठी भारत सरकारच्या सध्याच्या बांधीलकीच्या दृष्टीने एक मैलाचा दगड ठरेल.


जुई मराठे या ऑब्झर्व्हर रीसर्च फाउंडेशनच्या रिसर्च इंटर्न आहेत.

चैतन्य गिरी हे ऑब्झर्व्हर रीसर्च फाउंडेशनच्या सुरक्षा, धोरण व तंत्रज्ञान केंद्राचे फेलो आहेत. 

The views expressed above belong to the author(s). ORF research and analyses now available on Telegram! Click here to access our curated content — blogs, longforms and interviews.