AI Model Collapse: ஜெனரேட்டிவ் AI, செயற்கை தரவு மற்றும் சவால்கள்

செய்திகளில் ஏன்?

புதிய மனிதர்களால் உருவாக்கப்பட்ட தரவுகளுக்குப் பதிலாக generative AI அமைப்புகள் அவற்றின் சொந்த வெளியீடுகளை (outputs) மீண்டும் மீண்டும் பயிற்றுவிக்கப்படும் போது அவை “model collapse” (மாதிரி சரிவு) க்கு ஆளாகக்கூடும் என்று ஆராய்ச்சியாளர்கள் எச்சரித்துள்ளனர். King’s College London, Norwegian University of Science and Technology (NTNU) மற்றும் Abdus Salam International Centre for Theoretical Physics ஆகியவற்றின் புதிய ஆய்வின்படி, பயிற்சியில் ஒரு உண்மையான தரவுப் புள்ளியைச் சேர்ப்பது கூட இந்த வீழ்ச்சியைத் தாமதப்படுத்தலாம் அல்லது தடுக்கலாம் என்று காட்டுகிறது.

பின்னணி

Generative AI மாதிரிகள்—பெரிய மொழி மாதிரிகள் (large language models) அல்லது பட உருவாக்கிகள் (image generators)—பெரிய தரவுத்தொகுப்புகளிலிருந்து வடிவங்களைக் கற்றுக்கொண்டு புதிய உரை, படங்கள் அல்லது இசையை உருவாக்குகின்றன. பழைய மாதிரிகள் உருவாக்கிய உள்ளடக்கத்தில் எதிர்கால மாதிரிகள் அதிகளவில் பயிற்றுவிக்கப்பட்டால், பிழைகள் மற்றும் சார்புகள் (biases) குவியலாம். அடுத்தடுத்த தலைமுறைகளில் (successive generations), மாதிரிகள் தங்கள் பன்முகத்தன்மையையும் உண்மை அடிப்படையையும் இழந்து, சுவாரஸ்யமற்ற (bland) அல்லது அர்த்தமற்ற வெளியீடுகளை நோக்கியதாக மாறக்கூடும்; இந்த நிகழ்வு model collapse என்று அழைக்கப்படுகிறது.

இந்த சிக்கலானது “garbage in, garbage out” (குப்பை உள்ளே சென்றால், குப்பை வெளியே வரும்) என அறியப்படும் பழைய கருத்துடன் தொடர்புடையது: AI வெளியீடுகளின் தரம் அதன் பயிற்சித் தரவின் தரத்தைப் பொறுத்தது. செயற்கைத் தரவு ஆதிக்கம் செலுத்தும் போது, அரிதான அம்சங்கள் மற்றும் நீண்ட வால் தகவல்கள் (long‑tail information) மறைந்துவிடும், இதனால் அசாதாரண சூழ்நிலைகளை எவ்வாறு கையாள்வது என்பதை மாதிரி மறந்துவிடுகிறது. இந்த விளைவு நரம்பியல் நெட்வொர்க்குகளில் (neural networks) ஏற்படும் பேரழிவு மறதியுடன் (catastrophic forgetting) ஒத்திருக்கிறது.

சமீபத்திய ஆய்வின் கண்டுபிடிப்புகள்

செயற்கைத் தரவுகளில் மீண்டும் மீண்டும் நிகழும் கற்றலை உருவகப்படுத்த (simulate) இந்த ஆய்வு அதிவேக குடும்பங்கள் (exponential families) எனப்படும் கணித மாதிரிகளைப் பயன்படுத்தியது. தரவுகளின் விநியோகம் காலப்போக்கில் சுருங்குவதாகவும், இதனால் மாதிரிகள் குறைந்து வரும் பல்வேறு வெளியீடுகளை உருவாக்குவதாகவும் இது கண்டறிந்தது.
விநியோகத்திற்கு அப்பாற்பட்ட (out‑of‑distribution) ஒரு உண்மையான தரவுப் புள்ளியைப் புகுத்துவது அல்லது பயிற்சிச் செயல்பாட்டில் ஒரு முன் நம்பிக்கையை (prior belief) குறியீடு செய்வது (encoding) இந்தச் சுருக்கத்தைத் தடுக்கிறது மற்றும் மாதிரியின் வெளியீட்டை யதார்த்தத்திற்கு நெருக்கமாக வைத்திருக்கிறது.
பல வகையான உற்பத்தி (generative) மாதிரிகள் முழுவதும் இந்த முடிவுகள் பொருந்துகின்றன, இது ஒரு எளிய வழிகாட்டுதலைப் பரிந்துரைக்கிறது: பயிற்சித் தொகுப்புகளில் உண்மையான மனிதத் தரவை எப்போதும் கலந்து, செயற்கை உள்ளடக்கத்தின் தோற்றத்தைக் (provenance) கண்காணிக்கவும்.

விளைவுகள் மற்றும் தணிப்பு (Consequences and mitigation)

விளைவுகள்: Model collapse நம்பகத்தன்மையற்ற பரிந்துரைகள், மோசமான முடிவெடுத்தல் மற்றும் தானியங்கு அமைப்புகளில் (automated systems) அறிவுச் சிதைவு ஆகியவற்றிற்கு வழிவகுக்கும். இது பயனர்களின் நம்பிக்கையை குறைக்கிறது மற்றும் உள்ளடக்க உருவாக்கம், வடிவமைப்பு அல்லது நோயறிதலுக்கு (diagnostics) generative AI ஐ சார்ந்திருக்கும் தொழில்களை பாதிக்கிறது.
தணிப்பு உத்திகள் (Mitigation strategies): தரவு ஆதாரங்களை ஆவணப்படுத்தவும், அசல் தரவுத்தொகுப்புகளுக்கான அணுகலைப் பாதுகாக்கவும் மற்றும் குறைந்த தரமுள்ள செயற்கைத் தரவைக் கண்டறிந்து நீக்க தரக் கட்டுப்பாட்டு வடிப்பான்களைப் (quality‑control filters) பயன்படுத்தவும் ஆராய்ச்சியாளர்கள் பரிந்துரைக்கின்றனர். உண்மையான மற்றும் செயற்கையான (synthetic) தரவுகளை கலப்பது பன்முகத்தன்மையை பராமரிக்க உதவுகிறது.
வெளியீடுகளில் திடீர் சீரான தன்மை (uniformity) அல்லது அரிதான நிகழ்வுகளைக் கையாளுவதில் மாதிரியின் திறனைக் குறைப்பது போன்ற ஆரம்பகால சரிவு அறிகுறிகளைக் கண்டறியும் மதிப்பீட்டு அளவீடுகளில் நிறுவனங்கள் முதலீடு செய்ய வேண்டும்.

முடிவுரை

Model collapse என்பது சுய-குறிப்புக் கற்றலின் (self‑referential learning) வரம்புகளைப் பற்றிய ஒரு எச்சரிக்கைக் கதையாகும். Generative AI மிகவும் பரவலாக மாறும் போது, மாதிரிகள் நிஜ உலகத் தகவல்களின் அடிப்படையில் அமைந்திருப்பதை டெவலப்பர்கள் மற்றும் கட்டுப்பாட்டாளர்கள் (regulators) உறுதி செய்ய வேண்டும். உண்மையான தரவை ஒருங்கிணைத்தல் மற்றும் மாதிரியின் நடத்தையை கண்காணிப்பது ஆகியவை புதுமை மற்றும் நம்பகத்தன்மையை பராமரிப்பதற்கு முக்கியமாகும்.