ശാസ്ത്രവും സാങ്കേതികവിദ്യയും

AI Model Collapse: ജനറേറ്റീവ് എഐ, സിന്തറ്റിക് ഡാറ്റ, വെല്ലുവിളികൾ

AI Model Collapse: ജനറേറ്റീവ് എഐ, സിന്തറ്റിക് ഡാറ്റ, വെല്ലുവിളികൾ
Study next

Convert reading into recall

Read once, then use one quick app action while the topic is fresh. Links open in a new tab.

1 Start True/False practice 2-min recall check Open
Read for
Exam hook Prelims fact Mains angle
Other useful actions
N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs

വാർത്തകളിൽ ഇടംനേടിയത് എന്തുകൊണ്ട്?

പുതിയ മനുഷ്യനിർമ്മിത (human-generated) ഡാറ്റയ്ക്ക് പകരം സ്വന്തം ഔട്ട്പുട്ടുകളിൽ ആവർത്തിച്ച് പരിശീലിപ്പിക്കുമ്പോൾ ജനറേറ്റീവ് AI (generative AI) സിസ്റ്റങ്ങൾക്ക് “മോഡൽ കൊളാപ്സ്” (model collapse) സംഭവിച്ചേക്കാമെന്ന് ഗവേഷകർ മുന്നറിയിപ്പ് നൽകി. King’s College London, Simon Fraser University, University of Oxford എന്നിവർ നടത്തിയ പുതിയ പഠനം കാണിക്കുന്നത് പരിശീലനത്തിൽ ഒരൊറ്റ യഥാർത്ഥ ഡാറ്റാ പോയിന്റ് (genuine data point) ഉൾപ്പെടുത്തുന്നത് പോലും ഈ തകർച്ചയെ (degradation) വൈകിപ്പിക്കുകയോ തടയുകയോ ചെയ്യുമെന്നാണ്.

പശ്ചാത്തലം

വലിയ ഭാഷാ മോഡലുകൾ (large language models) അല്ലെങ്കിൽ ഇമേജ് ജനറേറ്ററുകൾ പോലുള്ള ജനറേറ്റീവ് AI മോഡലുകൾ - വലിയ ഡാറ്റാസെറ്റുകളിൽ നിന്നുള്ള പാറ്റേണുകൾ പഠിക്കുകയും തുടർന്ന് പുതിയ ടെക്സ്റ്റ്, ഇമേജുകൾ അല്ലെങ്കിൽ സംഗീതം സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. പഴയ മോഡലുകൾ നിർമ്മിക്കുന്ന ഉള്ളടക്കത്തിൽ ഭാവിയിലെ മോഡലുകൾ കൂടുതലായി പരിശീലിപ്പിക്കപ്പെടുകയാണെങ്കിൽ, തെറ്റുകളും മുൻവിധികൾ (biases) അടിഞ്ഞുകൂടാം. തുടർച്ചയായ തലമുറകളിൽ (successive generations), മോഡലുകൾ അവയുടെ വൈവിധ്യവും വസ്തുതാപരമായ അടിസ്ഥാനവും നഷ്ടപ്പെട്ട് വിരസമോ അർത്ഥശൂന്യമോ ആയ ഔട്ട്പുട്ടുകളിൽ (bland or incoherent outputs) ഒതുങ്ങിയേക്കാം (converge); ഈ പ്രതിഭാസത്തെ മോഡൽ കൊളാപ്സ് എന്ന് വിളിക്കുന്നു.

ഈ പ്രശ്നം “ഗാർബേജ് ഇൻ, ഗാർബേജ് ഔട്ട്” (garbage in, garbage out) എന്നറിയപ്പെടുന്ന ഒരു പഴയ ആശയവുമായി (concept) ബന്ധപ്പെട്ടിരിക്കുന്നു: ഒരു AI-യുടെ ഔട്ട്പുട്ടുകളുടെ ഗുണനിലവാരം അതിന്റെ പരിശീലന ഡാറ്റയുടെ ഗുണനിലവാരത്തെ ആശ്രയിച്ചിരിക്കുന്നു. സിന്തറ്റിക് ഡാറ്റ (synthetic data) കൂടുതലാകുമ്പോൾ, അപൂർവ്വ സവിശേഷതകളും ലോംഗ്-ടെയിൽ വിവരങ്ങളും (long-tail information) അപ്രത്യക്ഷമാകുന്നു, ഇത് അസാധാരണമായ കേസുകൾ എങ്ങനെ കൈകാര്യം ചെയ്യണമെന്ന് മോഡൽ മറക്കാൻ കാരണമാകുന്നു. ന്യൂറൽ നെറ്റ്‌വർക്കുകളിലെ (neural networks) കാറ്റസ്ട്രോഫിക് ഫോർഗെറ്റിംഗുമായി (catastrophic forgetting) ഈ പ്രഭാവത്തിന് സമാനതകളുണ്ട്.

സമീപകാല ഗവേഷണത്തിന്റെ കണ്ടെത്തലുകൾ

  • സിന്തറ്റിക് ഡാറ്റയിലെ ആവർത്തിച്ചുള്ള പഠനത്തെ അനുകരിക്കാൻ (simulate) പഠനം എക്സ്പോണൻഷ്യൽ ഫാമിലീസ് (exponential families) എന്നറിയപ്പെടുന്ന ഗണിതശാസ്ത്ര മാതൃകകൾ ഉപയോഗിച്ചു. ഡാറ്റയുടെ വിതരണം കാലക്രമേണ ചുരുങ്ങുന്നുവെന്ന് (narrows) അത് കണ്ടെത്തി, ഇത് മോഡലുകൾ ചുരുങ്ങിക്കൊണ്ടിരിക്കുന്ന വൈവിധ്യമാർന്ന ഔട്ട്പുട്ടുകൾ ഉണ്ടാക്കാൻ കാരണമാകുന്നു.
  • പരിശീലന പ്രക്രിയയിൽ (training process) ഒരൊറ്റ യഥാർത്ഥ, ഔട്ട്-ഓഫ്-ഡിസ്ട്രിബ്യൂഷൻ (out-of-distribution) ഡാറ്റാ പോയിന്റ് ചേർക്കുന്നത് അല്ലെങ്കിൽ മുൻകാല വിശ്വാസങ്ങളെ (prior belief) എൻകോഡ് ചെയ്യുന്നത് ഈ ചുരുങ്ങൽ (narrowing) തടയുകയും മോഡലിന്റെ ഔട്ട്പുട്ടിനെ യാഥാർത്ഥ്യത്തോട് ചേർത്തുനിർത്തുകയും ചെയ്യുന്നു.
  • ജനറേറ്റീവ് മോഡലുകളുടെ പല രൂപങ്ങളിലും ഈ ഫലങ്ങൾ ബാധകമാണ്, ഇത് ലളിതമായ ഒരു മാർഗ്ഗനിർദ്ദേശം നിർദ്ദേശിക്കുന്നു: എപ്പോഴും യഥാർത്ഥ മനുഷ്യ ഡാറ്റാ പരിശീലന സെറ്റുകളിൽ കലർത്തുകയും സിന്തറ്റിക് ഉള്ളടക്കത്തിന്റെ ഉറവിടം (provenance) ട്രാക്ക് ചെയ്യുകയും ചെയ്യുക.

പ്രത്യാഘാതങ്ങളും ലഘൂകരണവും (Consequences and mitigation)

  • പ്രത്യാഘാതങ്ങൾ: മോഡൽ കൊളാപ്സ് വിശ്വസനീയമല്ലാത്ത നിർദ്ദേശങ്ങൾ, മോശം തീരുമാനമെടുക്കൽ (decision-making), ഓട്ടോമേറ്റഡ് സിസ്റ്റങ്ങളിലെ (automated systems) അറിവിന്റെ ശോഷണം എന്നിവയിലേക്ക് നയിച്ചേക്കാം. ഇത് ഉപയോക്താക്കളുടെ വിശ്വാസത്തെ ദുർബലപ്പെടുത്തുകയും ഉള്ളടക്ക സൃഷ്ടി, രൂപകൽപ്പന അല്ലെങ്കിൽ രോഗനിർണ്ണയം (diagnostics) എന്നിവയ്ക്കായി ജനറേറ്റീവ് AI-യെ ആശ്രയിക്കുന്ന വ്യവസായങ്ങളെ ദോഷകരമായി ബാധിക്കുകയും ചെയ്യും.
  • ലഘൂകരണ തന്ത്രങ്ങൾ (Mitigation strategies): ഡാറ്റാ സ്രോതസ്സുകൾ രേഖപ്പെടുത്താനും, യഥാർത്ഥ ഡാറ്റാസെറ്റുകളിലേക്കുള്ള പ്രവേശനം സംരക്ഷിക്കാനും, കുറഞ്ഞ നിലവാരമുള്ള സിന്തറ്റിക് ഡാറ്റ തിരിച്ചറിഞ്ഞ് നീക്കം ചെയ്യാൻ ഗുണനിലവാര നിയന്ത്രണ ഫിൽട്ടറുകൾ (quality-control filters) ഉപയോഗിക്കാനും ഗവേഷകർ ശുപാർശ ചെയ്യുന്നു. യഥാർത്ഥ ഡാറ്റയും സിന്തറ്റിക് ഡാറ്റയും കലർത്തുന്നത് വൈവിധ്യം നിലനിർത്താൻ സഹായിക്കുന്നു.
  • ഔട്ട്പുട്ടുകളിലെ പെട്ടെന്നുള്ള ഏകതാനത (uniformity) അല്ലെങ്കിൽ അപൂർവ സംഭവങ്ങൾ കൈകാര്യം ചെയ്യാനുള്ള മോഡലിന്റെ കഴിവിലെ കുറവ് പോലുള്ള തകർച്ചയുടെ ആദ്യകാല ലക്ഷണങ്ങൾ കണ്ടെത്തുന്ന മൂല്യനിർണ്ണയ മെട്രിക്കുകളിലും (evaluation metrics) ഓർഗനൈസേഷനുകൾ നിക്ഷേപം നടത്തണം.

നിഗമനം

സ്വയം റഫറൻഷ്യൽ ലേണിംഗിന്റെ (self-referential learning) പരിമിതികളെക്കുറിച്ചുള്ള ഒരു മുന്നറിയിപ്പാണ് മോഡൽ കൊളാപ്സ്. ജനറേറ്റീവ് AI കൂടുതൽ വ്യാപകമാകുമ്പോൾ (pervasive), മോഡലുകൾ യഥാർത്ഥ ലോക വിവരങ്ങളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നുവെന്ന് ഡെവലപ്പർമാരും റെഗുലേറ്റർമാരും (regulators) ഉറപ്പാക്കണം. ആധികാരിക ഡാറ്റ സംയോജിപ്പിക്കുകയും മോഡൽ പെരുമാറ്റം നിരീക്ഷിക്കുകയും ചെയ്യുന്നത് നവീകരണവും വിശ്വാസ്യതയും (innovation and reliability) നിലനിർത്തുന്നതിനുള്ള താക്കോലാണ്.

ഉറവിടങ്ങൾ

Finished reading?

Do one recall action now

Practice first while the topic is fresh. Save the key points or use Shorts when you want a quick recap.

1 Start True/False practice 2-min recall check N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs
Home Current Affairs 📰 Daily News 🎬 Watch Shorts 📊 Economic Survey 2025-26 Subjects 📚 All Subjects ⚖️ Indian Polity 💹 Economy 🌍 Geography 🌿 Environment 📜 History Exam Info 📋 Syllabus 2026 📝 Prelims Syllabus ✍️ Mains Syllabus ✅ Eligibility Resources 📖 Booklist 📊 Exam Pattern 📄 Previous Year Papers ▶️ YouTube Channel
Sign In / Open Web App