AI Model Collapse: ജനറേറ്റീവ് എഐ, സിന്തറ്റിക് ഡാറ്റ, വെല്ലുവിളികൾ

വാർത്തകളിൽ ഇടംനേടിയത് എന്തുകൊണ്ട്?

മനുഷ്യർ സൃഷ്ടിച്ച പുതിയ ഡാറ്റയ്ക്ക് പകരം generative AI സിസ്റ്റങ്ങളെ സ്വന്തം ഔട്ട്‌പുട്ടുകളിൽ ആവർത്തിച്ച് പരിശീലിപ്പിക്കുമ്പോൾ അവയ്ക്ക് “model collapse” (മോഡൽ തകർച്ച) സംഭവിച്ചേക്കാമെന്ന് ഗവേഷകർ മുന്നറിയിപ്പ് നൽകി. King’s College London, Norwegian University of Science and Technology (NTNU), Abdus Salam International Centre for Theoretical Physics എന്നിവയുടെ പുതിയ പഠനം കാണിക്കുന്നത് പരിശീലനത്തിൽ ഒരു യഥാർത്ഥ ഡാറ്റാ പോയിന്റ് (genuine data point) ഉൾപ്പെടുത്തിയാൽപ്പോലും ഈ തകർച്ച വൈകിപ്പിക്കാനോ തടയാനോ കഴിയുമെന്നാണ്.

പശ്ചാത്തലം

വലിയ ഭാഷാ മോഡലുകൾ (large language models) അല്ലെങ്കിൽ ഇമേജ് ജനറേറ്ററുകൾ (image generators) പോലെയുള്ള ജനറേറ്റീവ് എഐ മോഡലുകൾ—വലിയ ഡാറ്റാസെറ്റുകളിൽ നിന്നുള്ള പാറ്റേണുകൾ പഠിക്കുകയും തുടർന്ന് പുതിയ വാചകം, ചിത്രങ്ങൾ അല്ലെങ്കിൽ സംഗീതം എന്നിവ സൃഷ്ടിക്കുകയും ചെയ്യുന്നു. പഴയ മോഡലുകൾ നിർമ്മിച്ച ഉള്ളടക്കത്തെ അടിസ്ഥാനമാക്കി ഭാവിയിലെ മോഡലുകൾ പരിശീലിപ്പിച്ചാൽ, തെറ്റുകളും പക്ഷപാതങ്ങളും (biases) അടിഞ്ഞുകൂടിയേക്കാം. തുടർച്ചയായ തലമുറകളിൽ (successive generations), മോഡലുകൾ അവയുടെ വൈവിധ്യവും വസ്തുതാപരമായ അടിസ്ഥാനവും നഷ്ടപ്പെട്ട് മൃദുവായതോ (bland) അർത്ഥശൂന്യമായതോ ആയ ഔട്ട്പുട്ടുകളിൽ കൂടിച്ചേർന്നേക്കാം (converge); ഈ പ്രതിഭാസത്തെ model collapse എന്ന് വിളിക്കുന്നു.

ഈ പ്രശ്നം “garbage in, garbage out” (ഗാർബേജ് ഇൻ, ഗാർബേജ് ഔട്ട്) എന്നറിയപ്പെടുന്ന ഒരു പഴയ ആശയവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു: ഒരു AI-യുടെ ഔട്ട്‌പുട്ടുകളുടെ ഗുണനിലവാരം അതിന്റെ പരിശീലന ഡാറ്റയുടെ ഗുണനിലവാരത്തെ ആശ്രയിച്ചിരിക്കുന്നു. സിന്തറ്റിക് ഡാറ്റ ആധിപത്യം സ്ഥാപിക്കുമ്പോൾ, അപൂർവമായ സവിശേഷതകളും ദീർഘകാല വിവരങ്ങളും (long‑tail information) അപ്രത്യക്ഷമാകുന്നു, ഇത് അസാധാരണമായ കേസുകൾ എങ്ങനെ കൈകാര്യം ചെയ്യണമെന്ന് മോഡലിനെ മറക്കാൻ ഇടയാക്കുന്നു. ഈ ഫലത്തിന് ന്യൂറൽ നെറ്റ്‌വർക്കുകളിലെ (neural networks) വിനാശകരമായ മറവിയുമായി (catastrophic forgetting) സാമ്യമുണ്ട്.

സമീപകാല ഗവേഷണത്തിന്റെ കണ്ടെത്തലുകൾ

സിന്തറ്റിക് ഡാറ്റയിലെ ആവർത്തിച്ചുള്ള പഠനം അനുകരിക്കാൻ (simulate) ഈ പഠനം എക്സ്പോണൻഷ്യൽ കുടുംബങ്ങൾ (exponential families) എന്ന ഗണിതശാസ്ത്ര മാതൃകകൾ ഉപയോഗിച്ചു. ഡാറ്റയുടെ വിതരണം കാലക്രമേണ ചുരുങ്ങുന്നുവെന്ന് ഇത് കണ്ടെത്തി, ഇത് മോഡലുകൾ ചുരുങ്ങുന്ന വൈവിധ്യമാർന്ന ഔട്ട്പുട്ടുകൾ ഉണ്ടാക്കാൻ കാരണമാകുന്നു.
പരിശീലന പ്രക്രിയയിലേക്ക് വിതരണത്തിന് പുറത്തുള്ള (out‑of‑distribution) ഒരൊറ്റ യഥാർത്ഥ ഡാറ്റാ പോയിന്റ് ചേർക്കുകയോ മുൻകാല വിശ്വാസം (prior belief) എൻകോഡ് ചെയ്യുകയോ ചെയ്യുന്നത് ഈ ചുരുങ്ങലിനെ തടസ്സപ്പെടുത്തുകയും മോഡലിന്റെ ഔട്ട്പുട്ടിനെ യാഥാർത്ഥ്യത്തോട് കൂടുതൽ ചേർത്തുനിർത്തുകയും ചെയ്യുന്നു.
ഫലങ്ങൾ പലതരം ജനറേറ്റീവ് (generative) മോഡലുകൾക്ക് ബാധകമാണ്, ഇത് ലളിതമായ ഒരു മാർഗ്ഗനിർദ്ദേശം നിർദ്ദേശിക്കുന്നു: പരിശീലന സെറ്റുകളിൽ എല്ലായ്പ്പോഴും യഥാർത്ഥ മനുഷ്യ ഡാറ്റ കലർത്തുകയും സിന്തറ്റിക് ഉള്ളടക്കത്തിന്റെ ഉത്ഭവം (provenance) ട്രാക്ക് ചെയ്യുകയും ചെയ്യുക.

പ്രത്യാഘാതങ്ങളും ലഘൂകരണവും (Consequences and mitigation)

പ്രത്യാഘാതങ്ങൾ: Model collapse വിശ്വസനീയമല്ലാത്ത ശുപാർശകൾ, മോശമായ തീരുമാനങ്ങൾ, ഓട്ടോമേറ്റഡ് സിസ്റ്റങ്ങളിലെ അറിവ് നശിക്കൽ എന്നിവയിലേക്ക് നയിച്ചേക്കാം. ഇത് ഉപയോക്തൃ വിശ്വാസത്തെ ദുർബലപ്പെടുത്തുകയും ഉള്ളടക്കം സൃഷ്ടിക്കുന്നതിനോ രൂപകല്പന ചെയ്യുന്നതിനോ രോഗനിർണ്ണയത്തിനോ (diagnostics) generative AI-യെ ആശ്രയിക്കുന്ന വ്യവസായങ്ങൾക്ക് ദോഷം വരുത്തുകയും ചെയ്യും.
ലഘൂകരണ തന്ത്രങ്ങൾ: ഡാറ്റ ഉറവിടങ്ങൾ രേഖപ്പെടുത്താനും, യഥാർത്ഥ ഡാറ്റാസെറ്റുകളിലേക്കുള്ള ആക്സസ് സംരക്ഷിക്കാനും, നിലവാരം കുറഞ്ഞ സിന്തറ്റിക് ഡാറ്റ തിരിച്ചറിയാനും നീക്കം ചെയ്യാനും ഗുണനിലവാര നിയന്ത്രണ ഫിൽട്ടറുകൾ ഉപയോഗിക്കാൻ ഗവേഷകർ ശുപാർശ ചെയ്യുന്നു. യഥാർത്ഥ ഡാറ്റയും സിന്തറ്റിക് ഡാറ്റയും കലർത്തുന്നത് വൈവിധ്യം നിലനിർത്താൻ സഹായിക്കുന്നു.
ഔട്ട്‌പുട്ടുകളിലെ പെട്ടെന്നുള്ള ഏകീകൃതത (uniformity) അല്ലെങ്കിൽ അപൂർവ സംഭവങ്ങൾ കൈകാര്യം ചെയ്യാനുള്ള മോഡലിന്റെ കഴിവ് കുറയുന്നത് പോലെയുള്ള തകർച്ചയുടെ ആദ്യ ലക്ഷണങ്ങൾ കണ്ടെത്തുന്ന മൂല്യനിർണ്ണയ മെട്രിക്സുകളിലും സ്ഥാപനങ്ങൾ നിക്ഷേപിക്കണം.

ഉപസംഹാരം

സ്വയം-റഫറൻഷ്യൽ പഠനത്തിന്റെ (self‑referential learning) പരിമിതികളെക്കുറിച്ചുള്ള ഒരു മുന്നറിയിപ്പാണ് Model collapse. Generative AI കൂടുതൽ വ്യാപകമാകുമ്പോൾ, മോഡലുകൾ യഥാർത്ഥ ലോക വിവരങ്ങളിൽ ഉറച്ചുനിൽക്കുന്നുവെന്ന് ഡെവലപ്പർമാരും റെഗുലേറ്റർമാരും (regulators) ഉറപ്പാക്കേണ്ടതുണ്ട്. ആധികാരിക ഡാറ്റ സംയോജിപ്പിക്കുകയും മോഡലിന്റെ പെരുമാറ്റം നിരീക്ഷിക്കുകയും ചെയ്യുന്നത് നവീകരണവും വിശ്വാസ്യതയും നിലനിർത്തുന്നതിന് നിർണായകമാണ്.