వార్తల్లో ఎందుకు?
కొత్త మానవ-ఉత్పత్తి (human-generated) డేటాకు బదులుగా వాటి స్వంత అవుట్పుట్లపై పదేపదే శిక్షణ పొందినప్పుడు ఉత్పాదక AI (generative AI) వ్యవస్థలు “మోడల్ కొలాప్స్” (model collapse) కు గురవుతాయని పరిశోధకులు హెచ్చరించారు. King’s College London, Simon Fraser University మరియు University of Oxford ల కొత్త అధ్యయనం, శిక్షణలో ఒకే ఒక నిజమైన డేటా పాయింట్ను (genuine data point) చొప్పించినా ఈ క్షీణతను (degradation) ఆలస్యం చేయవచ్చు లేదా నివారించవచ్చు అని చూపిస్తుంది.
నేపథ్యం
జనరేటివ్ AI మోడల్స్ - లార్జ్ లాంగ్వేజ్ మోడల్స్ (large language models) లేదా ఇమేజ్ జనరేటర్లు - పెద్ద డేటాసెట్ల నుండి నమూనాలను నేర్చుకుంటాయి మరియు కొత్త టెక్స్ట్, ఇమేజ్లు లేదా సంగీతాన్ని ఉత్పత్తి చేస్తాయి. భవిష్యత్తు మోడల్స్ పాత మోడల్స్ సృష్టించే కంటెంట్పై అధికంగా శిక్షణ పొందితే, లోపాలు మరియు పక్షపాతాలు (biases) పేరుకుపోవచ్చు. రాబోయే తరాలలో (successive generations), మోడల్స్ వాటి వైవిధ్యం మరియు వాస్తవికతను కోల్పోయి, చప్పని లేదా అసంబద్ధమైన అవుట్పుట్లకు (bland or incoherent outputs) పరిమితం కావచ్చు (converge); ఈ ప్రక్రియను మోడల్ కొలాప్స్ అంటారు.
ఈ సమస్య “గార్బేజ్ ఇన్, గార్బేజ్ అవుట్” (garbage in, garbage out) అనే పాత భావనకు (concept) సంబంధించినది: AI అవుట్పుట్ల నాణ్యత దాని శిక్షణ డేటా నాణ్యతపై ఆధారపడి ఉంటుంది. సింథటిక్ డేటా (synthetic data) పెరిగినప్పుడు, అరుదైన లక్షణాలు మరియు లాంగ్-టైల్ సమాచారం (long-tail information) అదృశ్యమవుతాయి, దీనివల్ల అసాధారణమైన కేసులను ఎలా నిర్వహించాలో మోడల్ మరచిపోతుంది. ఈ ప్రభావం న్యూరల్ నెట్వర్క్లలోని (neural networks) విపత్కర మతిమరుపు (catastrophic forgetting) లాంటిదే.
ఇటీవలి పరిశోధన యొక్క అన్వేషణలు
- సింథటిక్ డేటాపై పదేపదే నేర్చుకోవడాన్ని అనుకరించడానికి (simulate) ఈ అధ్యయనం ఎక్స్పోనెన్షియల్ ఫ్యామిలీస్ (exponential families) అని పిలువబడే గణిత నమూనాలను ఉపయోగించింది. కాలక్రమేణా డేటా పంపిణీ తగ్గుతుందని (narrows) ఇది కనుగొంది, దీనివల్ల మోడల్స్ వైవిధ్యం లేని అవుట్పుట్లను ఉత్పత్తి చేస్తాయి.
- శిక్షణ ప్రక్రియలో (training process) ఒకే ఒక నిజమైన, ఔట్-ఆఫ్-డిస్ట్రిబ్యూషన్ (out-of-distribution) డేటా పాయింట్ను చొప్పించడం లేదా ముందస్తు నమ్మకాన్ని (prior belief) ఎన్కోడ్ చేయడం ఈ తగ్గుదలకు (narrowing) అంతరాయం కలిగిస్తుంది మరియు మోడల్ యొక్క అవుట్పుట్ను వాస్తవికతకు దగ్గరగా ఉంచుతుంది.
- ఈ ఫలితాలు అనేక రకాల ఉత్పాదక మోడల్స్కు వర్తిస్తాయి, ఇవి ఒక సాధారణ మార్గదర్శకాన్ని సూచిస్తాయి: ఎల్లప్పుడూ నిజమైన మానవ డేటాను శిక్షణ సెట్లలో కలపండి మరియు సింథటిక్ కంటెంట్ యొక్క మూలాన్ని (provenance) ట్రాక్ చేయండి.
పర్యవసానాలు మరియు ఉపశమనం (Consequences and mitigation)
- పర్యవసానాలు: మోడల్ కొలాప్స్ నమ్మదగని సూచనలు, పేలవమైన నిర్ణయాలు (decision-making) మరియు ఆటోమేటెడ్ సిస్టమ్స్లో (automated systems) జ్ఞానం క్షీణించడానికి దారితీస్తుంది. ఇది వినియోగదారుల నమ్మకాన్ని దెబ్బతీస్తుంది మరియు కంటెంట్ సృష్టి, డిజైన్ లేదా రోగ నిర్ధారణ (diagnostics) కోసం ఉత్పాదక AI పై ఆధారపడే పరిశ్రమలకు హాని చేస్తుంది.
- ఉపశమన వ్యూహాలు (Mitigation strategies): డేటా మూలాలను డాక్యుమెంట్ చేయడం, అసలైన డేటాసెట్లకు యాక్సెస్ను సంరక్షించడం మరియు తక్కువ నాణ్యత గల సింథటిక్ డేటాను గుర్తించి తొలగించడానికి క్వాలిటీ-కంట్రోల్ ఫిల్టర్లను (quality-control filters) ఉపయోగించాలని పరిశోధకులు సిఫార్సు చేస్తున్నారు. నిజమైన మరియు సింథటిక్ డేటాను కలపడం వైవిధ్యాన్ని కాపాడుకోవడానికి సహాయపడుతుంది.
- అవుట్పుట్లలో ఆకస్మిక ఏకరూపత (uniformity) లేదా అరుదైన సంఘటనలను నిర్వహించడంలో మోడల్ సామర్థ్యం తగ్గడం వంటి కొలాప్స్ యొక్క ప్రారంభ సంకేతాలను గుర్తించే మూల్యాంకన కొలమానాలలో (evaluation metrics) సంస్థలు పెట్టుబడి పెట్టాలి.
ముగింపు
మోడల్ కొలాప్స్ అనేది సెల్ఫ్-రిఫరెన్షియల్ లెర్నింగ్ (self-referential learning) పరిమితుల గురించి ఒక హెచ్చరిక. ఉత్పాదక AI మరింత విస్తృతంగా (pervasive) మారుతున్నందున, మోడల్స్ వాస్తవ ప్రపంచ సమాచారంతో అనుసంధానించబడి ఉన్నాయని డెవలపర్లు మరియు రెగ్యులేటర్లు (regulators) నిర్ధారించుకోవాలి. ప్రామాణికమైన డేటాను ఏకీకృతం చేయడం మరియు మోడల్ ప్రవర్తనను పర్యవేక్షించడం ఆవిష్కరణ మరియు విశ్వసనీయతను (innovation and reliability) కొనసాగించడానికి కీలకం.