ವಿಜ್ಞಾನ ಮತ್ತು ತಂತ್ರಜ್ಞಾನ

AI Model Collapse: ಜನರೇಟಿವ್ ಎಐ, ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಮತ್ತು ಸವಾಲುಗಳು

AI Model Collapse: ಜನರೇಟಿವ್ ಎಐ, ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಮತ್ತು ಸವಾಲುಗಳು
Study next

Convert reading into recall

Read once, then use one quick app action while the topic is fresh. Links open in a new tab.

1 Start True/False practice 2-min recall check Open
Read for
Exam hook Prelims fact Mains angle
Other useful actions
N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs

ಸುದ್ದಿಯಲ್ಲಿ ಏಕಿದೆ?

ತಾಜಾ ಮಾನವ-ಉತ್ಪಾದಿತ (human-generated) ಡೇಟಾದ ಬದಲಿಗೆ ಪದೇ ಪದೇ ತಮ್ಮದೇ ಆದ ಔಟ್‌ಪುಟ್‌ಗಳ ಮೇಲೆ ತರಬೇತಿ ನೀಡಿದಾಗ ಜನರೇಟಿವ್ AI (generative AI) ವ್ಯವಸ್ಥೆಗಳು “ಮಾಡೆಲ್ ಕೊಲ್ಯಾಪ್ಸ್” ನಿಂದ (model collapse) ಬಳಲಬಹುದು ಎಂದು ಸಂಶೋಧಕರು ಎಚ್ಚರಿಸಿದ್ದಾರೆ. King’s College London, Simon Fraser University ಮತ್ತು University of Oxford ನ ಹೊಸ ಅಧ್ಯಯನವು ತರಬೇತಿಯಲ್ಲಿ ಒಂದು ನೈಜ ಡೇಟಾ ಪಾಯಿಂಟ್ ಅನ್ನು (genuine data point) ಸೇರಿಸುವುದರಿಂದಲೂ ಈ ಅವನತಿಯನ್ನು (degradation) ವಿಳಂಬಗೊಳಿಸಬಹುದು ಅಥವಾ ತಡೆಯಬಹುದು ಎಂದು ತೋರಿಸುತ್ತದೆ.

ಹಿನ್ನೆಲೆ

ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು (large language models) ಅಥವಾ ಇಮೇಜ್ ಜನರೇಟರ್‌ಗಳಂತಹ ಜನರೇಟಿವ್ AI ಮಾದರಿಗಳು - ಬೃಹತ್ ಡೇಟಾಸೆಟ್‌ಗಳಿಂದ ವಿನ್ಯಾಸಗಳನ್ನು ಕಲಿಯುತ್ತವೆ ಮತ್ತು ನಂತರ ಹೊಸ ಪಠ್ಯ, ಚಿತ್ರಗಳು ಅಥವಾ ಸಂಗೀತವನ್ನು ರಚಿಸುತ್ತವೆ. ಭವಿಷ್ಯದ ಮಾದರಿಗಳಿಗೆ ಹೆಚ್ಚಾಗಿ ಹಳೆಯ ಮಾದರಿಗಳು ಉತ್ಪಾದಿಸುವ ವಿಷಯದ ಮೇಲೆ ತರಬೇತಿ ನೀಡಿದರೆ, ದೋಷಗಳು ಮತ್ತು ಪಕ್ಷಪಾತಗಳು (biases) ಸಂಗ್ರಹಗೊಳ್ಳಬಹುದು. ಸತತ ತಲೆಮಾರುಗಳಲ್ಲಿ (successive generations), ಮಾದರಿಗಳು ತಮ್ಮ ವೈವಿಧ್ಯತೆ ಮತ್ತು ವಾಸ್ತವಿಕ ಆಧಾರವನ್ನು ಕಳೆದುಕೊಂಡು ನೀರಸ ಅಥವಾ ಅಸಂಬದ್ಧ ಔಟ್‌ಪುಟ್‌ಗಳ (bland or incoherent outputs) ಮೇಲೆ ಒಮ್ಮುಖವಾಗಬಹುದು (converge); ಈ ವಿದ್ಯಮಾನವನ್ನು ಮಾಡೆಲ್ ಕೊಲ್ಯಾಪ್ಸ್ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ.

ಈ ಸಮಸ್ಯೆಯು “ಗಾರ್ಬೇಜ್ ಇನ್, ಗಾರ್ಬೇಜ್ ಔಟ್” (garbage in, garbage out) ಎಂದು ಕರೆಯಲ್ಪಡುವ ಹಳೆಯ ಪರಿಕಲ್ಪನೆಗೆ (concept) ಸಂಬಂಧಿಸಿದೆ: AI ಯ ಔಟ್‌ಪುಟ್‌ಗಳ ಗುಣಮಟ್ಟವು ಅದರ ತರಬೇತಿ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ (synthetic data) ಪ್ರಾಬಲ್ಯ ಹೊಂದಿರುವಾಗ, ಅಪರೂಪದ ವೈಶಿಷ್ಟ್ಯಗಳು ಮತ್ತು ಲಾಂಗ್-ಟೈಲ್ ಮಾಹಿತಿ (long-tail information) ಕಣ್ಮರೆಯಾಗುತ್ತವೆ, ಇದರಿಂದಾಗಿ ಅಸಾಮಾನ್ಯ ಪ್ರಕರಣಗಳನ್ನು ಹೇಗೆ ನಿರ್ವಹಿಸಬೇಕೆಂದು ಮಾದರಿಯು ಮರೆತುಬಿಡುತ್ತದೆ. ಪರಿಣಾಮವು ನರ ಜಾಲಗಳಲ್ಲಿನ (neural networks) ದುರಂತ ಮರೆಯುವಿಕೆಗೆ (catastrophic forgetting) ಸಮಾನಾಂತರಗಳನ್ನು ಹೊಂದಿದೆ.

ಇತ್ತೀಚಿನ ಸಂಶೋಧನೆಯ ಆವಿಷ್ಕಾರಗಳು

  • ಅध्यಯನವು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಮೇಲೆ ಪುನರಾವರ್ತಿತ ಕಲಿಕೆಯನ್ನು ಅನುಕರಿಸಲು (simulate) ಎಕ್ಸ್‌ಪೋನೆನ್ಷಿಯಲ್ ಫ್ಯಾಮಿಲೀಸ್ (exponential families) ಎಂಬ ಗಣಿತದ ಮಾದರಿಗಳನ್ನು ಬಳಸಿತು. ಕಾಲಾನಂತರದಲ್ಲಿ ಡೇಟಾದ ವಿತರಣೆಯು ಕಿರಿದಾಗುತ್ತದೆ (narrows) ಎಂದು ಅದು ಕಂಡುಹಿಡಿದಿದೆ, ಇದರಿಂದಾಗಿ ಮಾದರಿಗಳು ಕುಗ್ಗುತ್ತಿರುವ ವಿವಿಧ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ.
  • ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ (training process) ಕೇವಲ ಒಂದು ನೈಜ, ಔಟ್-ಆಫ್-ಡಿಸ್ಟ್ರಿಬ್ಯೂಷನ್ (out-of-distribution) ಡೇಟಾ ಪಾಯಿಂಟ್ ಅನ್ನು ಸೇರಿಸುವುದು ಅಥವಾ ಪೂರ್ವ ನಂಬಿಕೆಯನ್ನು (prior belief) ಎನ್ಕೋಡಿಂಗ್ ಮಾಡುವುದು ಈ ಕಿರಿದಾಗುವಿಕೆಯನ್ನು (narrowing) ಅಡ್ಡಿಪಡಿಸುತ್ತದೆ ಮತ್ತು ಮಾದರಿಯ ಔಟ್‌ಪುಟ್ ಅನ್ನು ವಾಸ್ತವಕ್ಕೆ ಹತ್ತಿರವಾಗಿರಿಸುತ್ತದೆ.
  • ಫಲಿತಾಂಶಗಳು ಜನರೇಟಿವ್ ಮಾದರಿಗಳ ಹಲವಾರು ಪ್ರಕಾರಗಳಾದ್ಯಂತ ಅನ್ವಯಿಸುತ್ತವೆ, ಸರಳವಾದ ಮಾರ್ಗದರ್ಶಿಯನ್ನು ಸೂಚಿಸುತ್ತವೆ: ಯಾವಾಗಲೂ ನೈಜ ಮಾನವ ಡೇಟಾವನ್ನು ತರಬೇತಿ ಸೆಟ್‌ಗಳಲ್ಲಿ ಬೆರೆಸಿ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ವಿಷಯದ ಮೂಲವನ್ನು (provenance) ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.

ಪರಿಣಾಮಗಳು ಮತ್ತು ತಗ್ಗಿಸುವಿಕೆ (Consequences and mitigation)

  • ಪರಿಣಾಮಗಳು: ಮಾಡೆಲ್ ಕೊಲ್ಯಾಪ್ಸ್ ವಿಶ್ವಾಸಾರ್ಹವಲ್ಲದ ಶಿಫಾರಸುಗಳು, ಕಳಪೆ ನಿರ್ಧಾರ ತೆಗೆದುಕೊಳ್ಳುವಿಕೆ (decision-making), ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ (automated systems) ಜ್ಞಾನದ ಸವೆತಕ್ಕೆ ಕಾರಣವಾಗಬಹುದು. ಇದು ಬಳಕೆದಾರರ ನಂಬಿಕೆಯನ್ನು ದುರ್ಬಲಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ವಿಷಯ ರಚನೆ, ವಿನ್ಯಾಸ ಅಥವಾ ರೋಗನಿರ್ಣಯಕ್ಕಾಗಿ (diagnostics) ಜನರೇಟಿವ್ AI ಅನ್ನು ಅವಲಂಬಿಸಿರುವ ಕೈಗಾರಿಕೆಗಳಿಗೆ ಹಾನಿ ಮಾಡುತ್ತದೆ.
  • ತಗ್ಗಿಸುವ ತಂತ್ರಗಳು (Mitigation strategies): ಡೇಟಾ ಮೂಲಗಳನ್ನು ದಾಖಲಿಸಲು, ಮೂಲ ಡೇಟಾಸೆಟ್‌ಗಳಿಗೆ ಪ್ರವೇಶವನ್ನು ಸಂರಕ್ಷಿಸಲು ಮತ್ತು ಕಡಿಮೆ-ಗುಣಮಟ್ಟದ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು ಗುರುತಿಸಲು ಹಾಗೂ ತೆಗೆದುಹಾಕಲು ಗುಣಮಟ್ಟ-ನಿಯಂತ್ರಣ ಫಿಲ್ಟರ್‌ಗಳನ್ನು (quality-control filters) ಬಳಸಲು ಸಂಶೋಧಕರು ಶಿಫಾರಸು ಮಾಡುತ್ತಾರೆ. ನೈಜ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು ಬೆರೆಸುವುದು ವೈವಿಧ್ಯತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.
  • ಔಟ್‌ಪುಟ್‌ಗಳಲ್ಲಿ ಹಠಾತ್ ಏಕರೂಪತೆ (uniformity) ಅಥವಾ ಅಪರೂಪದ ಘಟನೆಗಳನ್ನು ನಿಭಾಯಿಸುವ ಮಾದರಿಯ ಸಾಮರ್ಥ್ಯದಲ್ಲಿನ ಇಳಿಕೆಯಂತಹ ಕುಸಿತದ ಆರಂಭಿಕ ಚಿಹ್ನೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುವ ಮೌಲ್ಯಮಾಪನ ಮೆಟ್ರಿಕ್‌ಗಳಲ್ಲಿಯೂ (evaluation metrics) ಸಂಸ್ಥೆಗಳು ಹೂಡಿಕೆ ಮಾಡಬೇಕು.

ತೀರ್ಮಾನ

ಮಾಡೆಲ್ ಕೊಲ್ಯಾಪ್ಸ್ ಎನ್ನುವುದು ಸ್ವಯಂ-ಉಲ್ಲೇಖಿತ ಕಲಿಕೆಯ (self-referential learning) ಮಿತಿಗಳ ಬಗ್ಗೆ ಎಚ್ಚರಿಕೆಯ ಕಥೆಯಾಗಿದೆ. ಜನರೇಟಿವ್ AI ಹೆಚ್ಚು ವ್ಯಾಪಕವಾಗುತ್ತಿದ್ದಂತೆ (pervasive), ಡೆವಲಪರ್‌ಗಳು ಮತ್ತು ನಿಯಂತ್ರಕರು (regulators) ಮಾದರಿಗಳು ನೈಜ-ಪ್ರಪಂಚದ ಮಾಹಿತಿಯಲ್ಲಿ ಆಧಾರವಾಗಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಬೇಕು. ಅಧಿಕೃತ ಡೇಟಾವನ್ನು ಸಂಯೋಜಿಸುವುದು ಮತ್ತು ಮಾದರಿಯ ನಡವಳಿಕೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುವುದು ನಾವೀನ್ಯತೆ ಮತ್ತು ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು (innovation and reliability) ಕಾಪಾಡಿಕೊಳ್ಳಲು ಪ್ರಮುಖವಾಗಿದೆ.

ಮೂಲಗಳು

Finished reading?

Do one recall action now

Practice first while the topic is fresh. Save the key points or use Shorts when you want a quick recap.

1 Start True/False practice 2-min recall check N Save key points Build a revision note S Watch related Shorts Quick visual recap App Open News in Web App Browse related current affairs
Home Current Affairs 📰 Daily News 🎬 Watch Shorts 📊 Economic Survey 2025-26 Subjects 📚 All Subjects ⚖️ Indian Polity 💹 Economy 🌍 Geography 🌿 Environment 📜 History Exam Info 📋 Syllabus 2026 📝 Prelims Syllabus ✍️ Mains Syllabus ✅ Eligibility Resources 📖 Booklist 📊 Exam Pattern 📄 Previous Year Papers ▶️ YouTube Channel
Sign In / Open Web App