సైన్స్ మరియు టెక్నాలజీ

AI Model Collapse: జెనరేటివ్ AI, సింథటిక్ డేటా మరియు సవాళ్లు

AI Model Collapse: జెనరేటివ్ AI, సింథటిక్ డేటా మరియు సవాళ్లు
Study next

Convert reading into recall

Read once, then use one quick app action while the topic is fresh. Links open in a new tab.

1 Start True/False practice 2-min recall check Open
Read for
Exam hook Prelims fact Mains angle
Other useful actions
N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs

వార్తల్లో ఎందుకు?

కొత్త మానవ-ఉత్పత్తి (human-generated) డేటాకు బదులుగా వాటి స్వంత అవుట్‌పుట్‌లపై పదేపదే శిక్షణ పొందినప్పుడు ఉత్పాదక AI (generative AI) వ్యవస్థలు “మోడల్ కొలాప్స్” (model collapse) కు గురవుతాయని పరిశోధకులు హెచ్చరించారు. King’s College London, Simon Fraser University మరియు University of Oxford ల కొత్త అధ్యయనం, శిక్షణలో ఒకే ఒక నిజమైన డేటా పాయింట్‌ను (genuine data point) చొప్పించినా ఈ క్షీణతను (degradation) ఆలస్యం చేయవచ్చు లేదా నివారించవచ్చు అని చూపిస్తుంది.

నేపథ్యం

జనరేటివ్ AI మోడల్స్ - లార్జ్ లాంగ్వేజ్ మోడల్స్ (large language models) లేదా ఇమేజ్ జనరేటర్లు - పెద్ద డేటాసెట్‌ల నుండి నమూనాలను నేర్చుకుంటాయి మరియు కొత్త టెక్స్ట్, ఇమేజ్‌లు లేదా సంగీతాన్ని ఉత్పత్తి చేస్తాయి. భవిష్యత్తు మోడల్స్ పాత మోడల్స్ సృష్టించే కంటెంట్‌పై అధికంగా శిక్షణ పొందితే, లోపాలు మరియు పక్షపాతాలు (biases) పేరుకుపోవచ్చు. రాబోయే తరాలలో (successive generations), మోడల్స్ వాటి వైవిధ్యం మరియు వాస్తవికతను కోల్పోయి, చప్పని లేదా అసంబద్ధమైన అవుట్‌పుట్‌లకు (bland or incoherent outputs) పరిమితం కావచ్చు (converge); ఈ ప్రక్రియను మోడల్ కొలాప్స్ అంటారు.

ఈ సమస్య “గార్బేజ్ ఇన్, గార్బేజ్ అవుట్” (garbage in, garbage out) అనే పాత భావనకు (concept) సంబంధించినది: AI అవుట్‌పుట్‌ల నాణ్యత దాని శిక్షణ డేటా నాణ్యతపై ఆధారపడి ఉంటుంది. సింథటిక్ డేటా (synthetic data) పెరిగినప్పుడు, అరుదైన లక్షణాలు మరియు లాంగ్-టైల్ సమాచారం (long-tail information) అదృశ్యమవుతాయి, దీనివల్ల అసాధారణమైన కేసులను ఎలా నిర్వహించాలో మోడల్ మరచిపోతుంది. ఈ ప్రభావం న్యూరల్ నెట్‌వర్క్‌లలోని (neural networks) విపత్కర మతిమరుపు (catastrophic forgetting) లాంటిదే.

ఇటీవలి పరిశోధన యొక్క అన్వేషణలు

  • సింథటిక్ డేటాపై పదేపదే నేర్చుకోవడాన్ని అనుకరించడానికి (simulate) ఈ అధ్యయనం ఎక్స్‌పోనెన్షియల్ ఫ్యామిలీస్ (exponential families) అని పిలువబడే గణిత నమూనాలను ఉపయోగించింది. కాలక్రమేణా డేటా పంపిణీ తగ్గుతుందని (narrows) ఇది కనుగొంది, దీనివల్ల మోడల్స్ వైవిధ్యం లేని అవుట్‌పుట్‌లను ఉత్పత్తి చేస్తాయి.
  • శిక్షణ ప్రక్రియలో (training process) ఒకే ఒక నిజమైన, ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ (out-of-distribution) డేటా పాయింట్‌ను చొప్పించడం లేదా ముందస్తు నమ్మకాన్ని (prior belief) ఎన్‌కోడ్ చేయడం ఈ తగ్గుదలకు (narrowing) అంతరాయం కలిగిస్తుంది మరియు మోడల్ యొక్క అవుట్‌పుట్‌ను వాస్తవికతకు దగ్గరగా ఉంచుతుంది.
  • ఈ ఫలితాలు అనేక రకాల ఉత్పాదక మోడల్స్‌కు వర్తిస్తాయి, ఇవి ఒక సాధారణ మార్గదర్శకాన్ని సూచిస్తాయి: ఎల్లప్పుడూ నిజమైన మానవ డేటాను శిక్షణ సెట్‌లలో కలపండి మరియు సింథటిక్ కంటెంట్ యొక్క మూలాన్ని (provenance) ట్రాక్ చేయండి.

పర్యవసానాలు మరియు ఉపశమనం (Consequences and mitigation)

  • పర్యవసానాలు: మోడల్ కొలాప్స్ నమ్మదగని సూచనలు, పేలవమైన నిర్ణయాలు (decision-making) మరియు ఆటోమేటెడ్ సిస్టమ్స్‌లో (automated systems) జ్ఞానం క్షీణించడానికి దారితీస్తుంది. ఇది వినియోగదారుల నమ్మకాన్ని దెబ్బతీస్తుంది మరియు కంటెంట్ సృష్టి, డిజైన్ లేదా రోగ నిర్ధారణ (diagnostics) కోసం ఉత్పాదక AI పై ఆధారపడే పరిశ్రమలకు హాని చేస్తుంది.
  • ఉపశమన వ్యూహాలు (Mitigation strategies): డేటా మూలాలను డాక్యుమెంట్ చేయడం, అసలైన డేటాసెట్‌లకు యాక్సెస్‌ను సంరక్షించడం మరియు తక్కువ నాణ్యత గల సింథటిక్ డేటాను గుర్తించి తొలగించడానికి క్వాలిటీ-కంట్రోల్ ఫిల్టర్‌లను (quality-control filters) ఉపయోగించాలని పరిశోధకులు సిఫార్సు చేస్తున్నారు. నిజమైన మరియు సింథటిక్ డేటాను కలపడం వైవిధ్యాన్ని కాపాడుకోవడానికి సహాయపడుతుంది.
  • అవుట్‌పుట్‌లలో ఆకస్మిక ఏకరూపత (uniformity) లేదా అరుదైన సంఘటనలను నిర్వహించడంలో మోడల్ సామర్థ్యం తగ్గడం వంటి కొలాప్స్ యొక్క ప్రారంభ సంకేతాలను గుర్తించే మూల్యాంకన కొలమానాలలో (evaluation metrics) సంస్థలు పెట్టుబడి పెట్టాలి.

ముగింపు

మోడల్ కొలాప్స్ అనేది సెల్ఫ్-రిఫరెన్షియల్ లెర్నింగ్ (self-referential learning) పరిమితుల గురించి ఒక హెచ్చరిక. ఉత్పాదక AI మరింత విస్తృతంగా (pervasive) మారుతున్నందున, మోడల్స్ వాస్తవ ప్రపంచ సమాచారంతో అనుసంధానించబడి ఉన్నాయని డెవలపర్లు మరియు రెగ్యులేటర్లు (regulators) నిర్ధారించుకోవాలి. ప్రామాణికమైన డేటాను ఏకీకృతం చేయడం మరియు మోడల్ ప్రవర్తనను పర్యవేక్షించడం ఆవిష్కరణ మరియు విశ్వసనీయతను (innovation and reliability) కొనసాగించడానికి కీలకం.

మూలాలు

Finished reading?

Do one recall action now

Practice first while the topic is fresh. Save the key points or use Shorts when you want a quick recap.

1 Start True/False practice 2-min recall check N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs
Home Current Affairs 📰 Daily News 🎬 Watch Shorts 📊 Economic Survey 2025-26 Subjects 📚 All Subjects ⚖️ Indian Polity 💹 Economy 🌍 Geography 🌿 Environment 📜 History Exam Info 📋 Syllabus 2026 📝 Prelims Syllabus ✍️ Mains Syllabus ✅ Eligibility Resources 📖 Booklist 📊 Exam Pattern 📄 Previous Year Papers ▶️ YouTube Channel
Sign In / Open Web App