AI Model Collapse: जेनरेटिव एआई, सिंथेटिक डेटा और चुनौतियां

समाचार में क्यों?

शोधकर्ताओं ने चेतावनी दी है कि generative AI सिस्टम “model collapse” (मॉडल पतन) का शिकार हो सकते हैं जब उन्हें ताज़ा मानव-जनित डेटा के बजाय उनके स्वयं के आउटपुट पर बार-बार प्रशिक्षित किया जाता है। King’s College London, Norwegian University of Science and Technology (NTNU) और Abdus Salam International Centre for Theoretical Physics के एक नए अध्ययन से पता चलता है कि प्रशिक्षण में एक वास्तविक डेटा बिंदु सम्मिलित करने से भी इस गिरावट में देरी हो सकती है या इसे रोका जा सकता है।

पृष्ठभूमि

Generative AI मॉडल—जैसे बड़े भाषा मॉडल (large language models) या छवि जनरेटर (image generators)—विशाल डेटासेट से पैटर्न सीखते हैं और फिर नए पाठ, चित्र या संगीत बनाते हैं। यदि भविष्य के मॉडलों को मुख्य रूप से पुराने मॉडलों द्वारा निर्मित सामग्री पर प्रशिक्षित किया जाता है, तो त्रुटियाँ और पूर्वाग्रह (biases) जमा हो सकते हैं। क्रमिक पीढ़ियों (successive generations) में, मॉडल अपनी विविधता और तथ्यात्मक आधार को खोते हुए नीरस (bland) या असंगत आउटपुट पर अभिसरण (converge) कर सकते हैं; इस घटना को model collapse कहा जाता है।

यह समस्या “garbage in, garbage out” (कचरा अंदर, कचरा बाहर) के रूप में जानी जाने वाली एक पुरानी अवधारणा से संबंधित है: AI के आउटपुट की गुणवत्ता इसके प्रशिक्षण डेटा की गुणवत्ता पर निर्भर करती है। जब सिंथेटिक डेटा हावी हो जाता है, तो दुर्लभ विशेषताएँ और लॉन्ग-टेल जानकारी (long‑tail information) गायब हो जाती हैं, जिससे मॉडल यह भूल जाता है कि असामान्य मामलों को कैसे संभालना है। इस प्रभाव की तुलना तंत्रिका नेटवर्क (neural networks) में विनाशकारी भूलने (catastrophic forgetting) से की जा सकती है।

हालिया शोध के निष्कर्ष

अध्ययन में सिंथेटिक डेटा पर बार-बार सीखने का अनुकरण (simulate) करने के लिए घातांकीय परिवारों (exponential families) नामक गणितीय मॉडल का उपयोग किया गया। इसमें पाया गया कि डेटा का वितरण समय के साथ सिकुड़ता है, जिससे मॉडल सिकुड़ती हुई विविधता वाले आउटपुट उत्पन्न करते हैं।
प्रशिक्षण प्रक्रिया में सिर्फ एक वास्तविक, आउट-ऑफ-डिस्ट्रीब्यूशन (out‑of‑distribution) डेटा बिंदु डालना या पूर्व विश्वास (prior belief) को एन्कोड करना इस सिकुड़न को रोकता है और मॉडल के आउटपुट को वास्तविकता के करीब रखता है।
परिणाम कई प्रकार के जनरेटिव मॉडलों पर लागू होते हैं, जो एक सरल दिशानिर्देश का सुझाव देते हैं: प्रशिक्षण सेट में हमेशा वास्तविक मानव डेटा का मिश्रण करें और सिंथेटिक सामग्री की उत्पत्ति (provenance) को ट्रैक करें।

परिणाम और शमन (Consequences and mitigation)

परिणाम: Model collapse अविश्वसनीय अनुशंसाओं, खराब निर्णय लेने और स्वचालित प्रणालियों में ज्ञान के क्षरण का कारण बन सकता है। यह उपयोगकर्ता के विश्वास को कमज़ोर करता है और उन उद्योगों को नुकसान पहुँचा सकता है जो सामग्री निर्माण, डिज़ाइन या डायग्नोस्टिक्स के लिए generative AI पर निर्भर हैं।
शमन रणनीतियाँ: शोधकर्ताओं का सुझाव है कि डेटा स्रोतों का दस्तावेज़ीकरण करें, मूल डेटासेट तक पहुँच सुरक्षित रखें और निम्न-गुणवत्ता वाले सिंथेटिक डेटा को पहचानने और हटाने के लिए गुणवत्ता-नियंत्रण फ़िल्टर का उपयोग करें। वास्तविक और सिंथेटिक डेटा को मिलाना विविधता बनाए रखने में मदद करता है।
संगठनों को ऐसे मूल्यांकन मैट्रिक्स में भी निवेश करना चाहिए जो पतन के शुरुआती संकेतों का पता लगाते हैं, जैसे आउटपुट में अचानक एकरूपता (uniformity) या दुर्लभ घटनाओं को संभालने में मॉडल की क्षमता में कमी।

निष्कर्ष

Model collapse आत्म-संदर्भित शिक्षा (self‑referential learning) की सीमाओं के बारे में एक चेतावनी है। जैसे-जैसे generative AI अधिक व्यापक होता जा रहा है, डेवलपर्स और नियामकों (regulators) को यह सुनिश्चित करना चाहिए कि मॉडल वास्तविक दुनिया की जानकारी पर आधारित रहें। नवाचार और विश्वसनीयता बनाए रखने के लिए प्रामाणिक डेटा को एकीकृत करना और मॉडल के व्यवहार की निगरानी करना महत्वपूर्ण है।