ChatGPT перевершив на іспитах студентів-психологів, обдуривши захист іспитів від ШІ

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Дослідники провели експеримент, який показав, що ШІ здатний успішно складати університетські іспити, залишаючись при цьому непоміченим спеціальними програмами. Екзаменаційні роботи ChatGPT отримали вищі оцінки, ніж роботи студентів. Цікаво, що деякі роботи ШІ були виявлені не через їхню роботизованість, а через занадто високу загальну якість – вона була значно вищою, ніж у середніх робіт звичайних студентів. Системи, покликані виявляти контент, створений ШІ, зокрема від самої OpenAI, у проведеному тесті повністю провалилися.

Команда вчених із Редінгського університету в Англії (University of Reading) під керівництвом Пітера Скарфа провела масштабний експеримент, щоб перевірити, наскільки ефективно сучасні системи штучного інтелекту можуть справлятися з університетськими іспитами. Дослідники створили понад 30 фіктивних облікових записів студентів-психологів і використовували їх для складання іспитів, використовуючи відповіді, згенеровані ChatGPT, повідомляє видання Ars Technica. Експеримент охопив п’ять модулів бакалаврату з психології, включаючи завдання для всіх трьох років навчання. Завдання являли собою або відповіді на короткі запитання на 200 слів, або більш складні есе довжиною приблизно 1500 слів. При цьому екзаменатори не знали про експеримент.

Більш короткі відповіді готувалися просто шляхом копіювання та вставки екзаменаційних запитань у ChatGPT-4 разом із підказкою, що не має перевищувати 160 слів. Есе запитувалися таким самим чином, але необхідну кількість слів було збільшено до 2000. Встановивши обмеження таким чином, команда Скарфа змогла змусити ChatGPT-4 створювати контент, досить близький до необхідної довжини. “Ідея полягала в тому, щоб відправляти ці відповіді взагалі без будь-якого редагування, за винятком есе, де ми застосували мінімальне форматування”, – пояснив Скарф.

Результати виявилися приголомшливими – 94% робіт, створених ШІ, пройшли перевірки на роботизованість з боку спеціальних алгоритмів, які мають виявляти підміну відповідей справжніх студентів. Ба більше, майже 84% цих робіт отримали вищі оцінки, ніж роботи студентів, у середньому на півбала вище. “Екзаменатори були вельми здивовані результатами”, – зазначив Скарф. Причому цікаво, що деякі роботи ШІ були виявлені не через їхню роботизованість, а через занадто високу якість – вона була значно вищою, ніж у середніх робіт студентів.

Однак не всі результати були на користь ШІ. На останньому курсі, де було потрібне більш глибоке розуміння і складні аналітичні навички, студенти-люди показали кращі результати, ніж ChatGPT.

Експеримент також виявив обмеження наявних систем виявлення контенту, створеного ШІ. За словами Скарфа, такі інструменти, як GPTZero від Open AI і система Turnitin, показують хороші результати в лабораторних умовах, але їхня ефективність значно знижується в реальній життєвій ситуації. Так, Open AI стверджує, що GPTZero може позначати згенерований ШІ текст як “ймовірний” ШІ в 26% випадків, з досить тривожним показником помилкових спрацьовувань у 9 відсотків. З іншого боку, система Turnitin рекламувалася як така, що виявляє 97% написаного ChatGPT і GPT-3 в лабораторії з лише одним помилковим спрацьовуванням на сотню спроб. Але, за словами команди Скарфа, випущена бета-версія цієї системи працювала значно гірше.

Скарф наголосив, що з огляду на постійне вдосконалення ШІ і відсутність надійних способів виявлення його використання, університетам доведеться адаптуватися і інтегрувати ШІ в освітній процес. “Роль сучасного університету полягає в підготовці студентів до професійної кар’єри, і реальність така, що після закінчення навчання вони, безсумнівно, будуть використовувати різні інструменти штучного інтелекту”, – вважає вчений.

Експеримент порушує проблему перегляду наявних методів навчання та екзаменації – вони перестали відповідати реаліям життя.

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Анатолій Шевченко03.07.2024

Час читання: 2 хв

ChatGPT перевершив на іспитах студентів-психологів, обдуривши захист іспитів від ШІ

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Успішно випробувано ракету з двигуном, надрукованим на 3D-принтері за три доби

Винайшли навушники-плеєр

Створено бетонний дах, який перетворює житловий будинок в електростанцію

Близько 1,4% ВВП Німеччини залежить від смартфонів

Створено компактний генератор запахів для віртуальної реальності

У NASA готуються до висадки на Марс

Протягом 10 років буде створено реактор на основі водню і бору

Європейські експерти підтримали будівництво нової величезної гравітаційної обсерваторії

Оголошені фіналісти конкурсу “Зелений автомобіль 2014 року”

Електрокари всюди: наскільки такий сценарій реалістичний?

Успішно випробувано ракету з двигуном, надрукованим на 3D-принтері за три доби

Винайшли навушники-плеєр

Створено бетонний дах, який перетворює житловий будинок в електростанцію

Близько 1,4% ВВП Німеччини залежить від смартфонів

Створено компактний генератор запахів для віртуальної реальності

У NASA готуються до висадки на Марс

Протягом 10 років буде створено реактор на основі водню і бору

Європейські експерти підтримали будівництво нової величезної гравітаційної обсерваторії

Оголошені фіналісти конкурсу “Зелений автомобіль 2014 року”

Електрокари всюди: наскільки такий сценарій реалістичний?

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Підписуйтеся на нас в Гугл Новини, а також читайте в Телеграм і Фейсбук

Читайте далі

Успішно випробувано ракету з двигуном, надрукованим на 3D-принтері за три доби

Винайшли навушники-плеєр

Створено бетонний дах, який перетворює житловий будинок в електростанцію

Близько 1,4% ВВП Німеччини залежить від смартфонів

Створено компактний генератор запахів для віртуальної реальності

У NASA готуються до висадки на Марс

Протягом 10 років буде створено реактор на основі водню і бору

Європейські експерти підтримали будівництво нової величезної гравітаційної обсерваторії

Оголошені фіналісти конкурсу “Зелений автомобіль 2014 року”

Електрокари всюди: наскільки такий сценарій реалістичний?

Який кінець чекає на Всесвіт: 3 сценарії загибелі нашого світу

Розпочалися клінічні випробування таблетки-робота PillBot (відео)