Як повідомляють експерти, у компаній, що здійснюють розробку штучного інтелекту, закінчуються навчальні текстові дані для подальшого розвитку мовних моделей.
Якісний стрибок останніх версій штучного інтелекту від таких компаній, як OpenAI, Google, Meta та інших, пов’язаний з тим, що мовні моделі навчали величезними масивами текстових даних. Однак бази знань, створені за багато десятків років людиною, закінчуються. Мільярди слів, мільярди web-сторінок практично вичерпані, що робить подальший розвиток ШІ практично неможливим заходом.
Дослідник ШІ Тамай Бесіроглу в інтерв’ю Associated Press зазначив:
Річ у тім, що використовувати абсолютно всю інформацію, зокрема з веб-архівів, у компаній, що розробляють ШІ, немає можливості. Адже автори можуть подати на них до суду, як це було з видавцями газети New York Times – вони судилися з OpenAI через порушення авторських прав. З цієї причини дослідники з аналітичного центру Epoch AI вважають, що вже у 2026 році ChatGPT і Llama 3 просто нічим буде “годувати”.
Однак певне рішення у проблеми є. Фахівці вважають, що подальше навчання мовних моделей можливе вже за рахунок згенерованого ними ж матеріалу. При цьому OpenAI і Google вже практикують цю стратегію. Мінусом такого підходу є те, що якість навчання за рахунок контенту, створеного ШІ, знизиться. За підсумком може закрутитися “воронка самообману” і мовні моделі видаватимуть відповіді на основі раніше помилкових даних, створених ШІ.