चर्चा में क्यों?
शोधकर्ताओं ने चेतावनी दी है कि जेनेरेटिव एआई (generative AI) सिस्टम “मॉडल कोलैप्स” (model collapse) से पीड़ित हो सकते हैं जब उन्हें नए मानव-निर्मित (human-generated) डेटा के बजाय बार-बार उनके स्वयं के आउटपुट पर प्रशिक्षित किया जाता है। King’s College London, Simon Fraser University और University of Oxford के एक नए अध्ययन से पता चलता है कि प्रशिक्षण में एक वास्तविक डेटा पॉइंट (genuine data point) डालने से भी इस गिरावट (degradation) में देरी हो सकती है या इसे रोका जा सकता है।
पृष्ठभूमि
जेनेरेटिव एआई मॉडल - जैसे बड़े भाषा मॉडल (large language models) या इमेज जनरेटर - विशाल डेटासेट से पैटर्न सीखते हैं और फिर नए टेक्स्ट, इमेज या संगीत बनाते हैं। यदि भविष्य के मॉडलों को ज्यादातर पुराने मॉडलों द्वारा निर्मित सामग्री पर प्रशिक्षित किया जाता है, तो त्रुटियां और पूर्वाग्रह (biases) जमा हो सकते हैं। क्रमिक पीढ़ियों (successive generations) में, मॉडल नीरस या असंगत आउटपुट (bland or incoherent outputs) पर अभिसरण (converge) कर सकते हैं, अपनी विविधता और तथ्यात्मक आधार खो सकते हैं; इस घटना को मॉडल कोलैप्स कहा जाता है।
समस्या एक पुरानी अवधारणा (concept) से संबंधित है जिसे “गार्बेज इन, गार्बेज आउट” (garbage in, garbage out) के रूप में जाना जाता है: एआई के आउटपुट की गुणवत्ता उसके प्रशिक्षण डेटा की गुणवत्ता पर निर्भर करती है। जब सिंथेटिक डेटा (synthetic data) का प्रभुत्व होता है, तो दुर्लभ विशेषताएं और लंबी-पूंछ की जानकारी (long-tail information) गायब हो जाती है, जिससे मॉडल भूल जाता है कि असामान्य मामलों को कैसे संभालना है। प्रभाव का तंत्रिका नेटवर्क (neural networks) में विनाशकारी भूलने (catastrophic forgetting) के साथ समानताएं हैं।
हाल के शोध के निष्कर्ष
- अध्ययन ने सिंथेटिक डेटा पर बार-बार सीखने का अनुकरण (simulate) करने के लिए एक्सपोनेंशियल फैमिलीज (exponential families) नामक गणितीय मॉडल का उपयोग किया। इसने पाया कि डेटा का वितरण समय के साथ संकीर्ण (narrows) हो जाता है, जिससे मॉडल कम विविधता वाले आउटपुट उत्पन्न करते हैं।
- प्रशिक्षण प्रक्रिया (training process) में केवल एक वास्तविक, आउट-ऑफ-डिस्ट्रीब्यूशन (out-of-distribution) डेटा बिंदु डालने या पूर्व धारणा (prior belief) को एन्कोड करने से यह संकुचन (narrowing) बाधित होता है और मॉडल का आउटपुट वास्तविकता के करीब रहता है।
- परिणाम जेनेरेटिव मॉडल के कई प्रकारों पर लागू होते हैं, जो एक सरल दिशानिर्देश का सुझाव देते हैं: हमेशा वास्तविक मानव डेटा को प्रशिक्षण सेट में मिलाएं और सिंथेटिक सामग्री के स्रोत (provenance) को ट्रैक करें।
परिणाम और शमन (Consequences and mitigation)
- परिणाम: मॉडल कोलैप्स से अविश्वसनीय सिफारिशें, खराब निर्णय लेने (decision-making), और स्वचालित प्रणालियों (automated systems) में ज्ञान का क्षरण हो सकता है। यह उपयोगकर्ता के विश्वास को कमजोर करता है और उन उद्योगों को नुकसान पहुंचा सकता है जो सामग्री निर्माण, डिजाइन या निदान (diagnostics) के लिए जेनेरेटिव एआई पर भरोसा करते हैं।
- शमन रणनीतियाँ (Mitigation strategies): शोधकर्ता डेटा स्रोतों का दस्तावेजीकरण करने, मूल डेटासेट तक पहुंच को संरक्षित करने और कम गुणवत्ता वाले सिंथेटिक डेटा की पहचान करने और उसे हटाने के लिए गुणवत्ता-नियंत्रण फिल्टर (quality-control filters) का उपयोग करने की सलाह देते हैं। वास्तविक और सिंथेटिक डेटा का मिश्रण विविधता बनाए रखने में मदद करता है।
- संगठनों को मूल्यांकन मेट्रिक्स (evaluation metrics) में भी निवेश करना चाहिए जो कोलैप्स के शुरुआती संकेतों का पता लगाते हैं, जैसे आउटपुट में अचानक एकरूपता (uniformity) या दुर्लभ घटनाओं को संभालने की मॉडल की क्षमता में कमी।
निष्कर्ष
मॉडल कोलैप्स स्व-संदर्भित सीखने (self-referential learning) की सीमाओं के बारे में एक चेतावनी है। जैसे-जैसे जेनेरेटिव एआई अधिक व्यापक (pervasive) होता जाता है, डेवलपर्स और नियामकों (regulators) को यह सुनिश्चित करना चाहिए कि मॉडल वास्तविक दुनिया की जानकारी से जुड़े रहें। प्रामाणिक डेटा को एकीकृत करना और मॉडल के व्यवहार की निगरानी करना नवाचार और विश्वसनीयता (innovation and reliability) बनाए रखने की कुंजी है।