भारतीय प्रौद्योगिकी संस्थान रुड़की के शोधकर्ताओं ने संस्कृत टेक्स्ट के भाव विश्लेषण की एक कारगर विधि विकसित की है।
हालांकि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है, लेकिन इसमें अब तक मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण की खास कोशिश नहीं की गई है। ऐसे में आईआईटी रुड़की की तकनीक से 87.50 प्रतिशत सटीक मशीनी अनुवाद और 92.83 प्रतिशत सटीक भाव वर्गीकरण कर लेना बड़ी उपलब्धि है।
इसके बावजूद कि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है। प्रचूर मात्रा में लेबल डेटा नहीं मिलने की वजह से मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण कार्य बहुत कम हुआ है।
इस शोध में मशीनी अनुवाद, अनुवाद मूल्यांकन और भाव विश्लेषण मॉडल उपयोग करने का प्रस्ताव है। शोध करने वाली टीम में प्रो. बालसुब्रमण्यम रमन, कम्प्यूटर विज्ञान और इंजीनियरिंग विभाग और उनके पीएच.डी. छात्र श्री पुनीत कुमार और गणित विभाग में एमएससी के छात्र क्षितिज पठानिया शामिल हैं।
मशीनी अनुवाद की मदद से मूल स्रोत और लक्षित भाषा की परस्पर भाषाई मैपिंग की गई है। इस तरह प्राप्त अंग्रेजी अनुवाद काफी परिपक्व और सहज हैं और अंग्रेजी के मौलिक वाक्यों की तरह हैं। यह मॉडल एक प्रतिष्ठित पीयर-रिव्यू जर्नल एप्लाइड इंटेलिजेंस में एक शोध पत्र के रूप में प्रकाशित किया गया है।
भाव विश्लेषण मॉडल के बारे में जानकारी देते हुए आईआईटी रुड़की में कम्प्यूटर विज्ञान विभाग के प्रोफेसर बाला सुब्रमण्यम रमन ने कहाकि हमने अपने मॉडल को इस तरह ट्रेन किया है कि पॉजिटिव, न्यूट्रल या फिर निगेटिव रेंज में सेंटीमेंट स्कोर बताए। हमारा मॉडल स्टैटिसटिक्स, सहज भाषा प्रसंस्करण, और मशीन लर्निंग की मदद से 90 प्रतिशत से अधिक सटीक भाव निर्धारण करने में सक्षम है।
शोध के लिए डेटा वाल्मीकि रामायण वेबसाइट से लिए गए, जिसके विकास और मेंटेन करने का काम आईआईटी कानपुर के शोधकर्ताओं ने किया है। शोधकर्ताओं की आगामी योजना बेहतर वर्गीकरण के लिए संस्कृत के मॉर्फोलॉजिकल गुणों का लाभ लेना है जिसके लिए केवल ‘मूल शब्द’ संबंधित ‘प्रत्यय’ और ‘उपसर्ग’ के साथ उपयोग किए जाएंगे। यह आकलन करने की योजना भी है कि क्या अंग्रेजी में अनुवाद करते हुए संस्कृत के मॉर्फोलॉजिकल गुण सुरक्षित रखे जा सकते हैं। इसके अलावा शोधकर्ताओं की योजना ऐसा मॉडल बनाने की है जो शब्दों के संदर्भ कई भाषाओं में समझे और छोटे आयामों में शब्दों का समावेश करे।