Дослідники провели експеримент, який показав, що ШІ здатний успішно складати університетські іспити, залишаючись при цьому непоміченим спеціальними програмами. Екзаменаційні роботи ChatGPT отримали вищі оцінки, ніж роботи студентів. Цікаво, що деякі роботи ШІ були виявлені не через їхню роботизованість, а через занадто високу загальну якість – вона була значно вищою, ніж у середніх робіт звичайних студентів. Системи, покликані виявляти контент, створений ШІ, зокрема від самої OpenAI, у проведеному тесті повністю провалилися.
Команда вчених із Редінгського університету в Англії (University of Reading) під керівництвом Пітера Скарфа провела масштабний експеримент, щоб перевірити, наскільки ефективно сучасні системи штучного інтелекту можуть справлятися з університетськими іспитами. Дослідники створили понад 30 фіктивних облікових записів студентів-психологів і використовували їх для складання іспитів, використовуючи відповіді, згенеровані ChatGPT, повідомляє видання Ars Technica. Експеримент охопив п’ять модулів бакалаврату з психології, включаючи завдання для всіх трьох років навчання. Завдання являли собою або відповіді на короткі запитання на 200 слів, або більш складні есе довжиною приблизно 1500 слів. При цьому екзаменатори не знали про експеримент.
Більш короткі відповіді готувалися просто шляхом копіювання та вставки екзаменаційних запитань у ChatGPT-4 разом із підказкою, що не має перевищувати 160 слів. Есе запитувалися таким самим чином, але необхідну кількість слів було збільшено до 2000. Встановивши обмеження таким чином, команда Скарфа змогла змусити ChatGPT-4 створювати контент, досить близький до необхідної довжини. “Ідея полягала в тому, щоб відправляти ці відповіді взагалі без будь-якого редагування, за винятком есе, де ми застосували мінімальне форматування”, – пояснив Скарф.
Результати виявилися приголомшливими – 94% робіт, створених ШІ, пройшли перевірки на роботизованість з боку спеціальних алгоритмів, які мають виявляти підміну відповідей справжніх студентів. Ба більше, майже 84% цих робіт отримали вищі оцінки, ніж роботи студентів, у середньому на півбала вище. “Екзаменатори були вельми здивовані результатами”, – зазначив Скарф. Причому цікаво, що деякі роботи ШІ були виявлені не через їхню роботизованість, а через занадто високу якість – вона була значно вищою, ніж у середніх робіт студентів.
Однак не всі результати були на користь ШІ. На останньому курсі, де було потрібне більш глибоке розуміння і складні аналітичні навички, студенти-люди показали кращі результати, ніж ChatGPT.
Експеримент також виявив обмеження наявних систем виявлення контенту, створеного ШІ. За словами Скарфа, такі інструменти, як GPTZero від Open AI і система Turnitin, показують хороші результати в лабораторних умовах, але їхня ефективність значно знижується в реальній життєвій ситуації. Так, Open AI стверджує, що GPTZero може позначати згенерований ШІ текст як “ймовірний” ШІ в 26% випадків, з досить тривожним показником помилкових спрацьовувань у 9 відсотків. З іншого боку, система Turnitin рекламувалася як така, що виявляє 97% написаного ChatGPT і GPT-3 в лабораторії з лише одним помилковим спрацьовуванням на сотню спроб. Але, за словами команди Скарфа, випущена бета-версія цієї системи працювала значно гірше.
Скарф наголосив, що з огляду на постійне вдосконалення ШІ і відсутність надійних способів виявлення його використання, університетам доведеться адаптуватися і інтегрувати ШІ в освітній процес. “Роль сучасного університету полягає в підготовці студентів до професійної кар’єри, і реальність така, що після закінчення навчання вони, безсумнівно, будуть використовувати різні інструменти штучного інтелекту”, – вважає вчений.
Експеримент порушує проблему перегляду наявних методів навчання та екзаменації – вони перестали відповідати реаліям життя.