Згідно з новим дослідженням Університету Джорджії, опубліковане в журналі Technology, Knowledge and Learning, інструменти штучного інтелекту можуть суттєво оптимізувати процес оцінювання учнівських робіт та надати вчителям більше часу для змістовної педагогічної діяльності.
Проблема оцінювання в сучасній освіті
Сучасні освітні стандарти наголошують на розвитку в учнів навичок аргументації, дослідження та аналізу даних. Проте, коли вчителі просять дітей “намалювати модель, написати пояснення, посперечатися один з одним”, процес оцінювання таких складних завдань стає надзвичайно трудомістким. За словами Сяомін Чжай, доцента і директора Освітнього центру AI4STEM, “викладачам часто не вистачає часу, щоб оцінити всі відповіді студентів”, що перешкоджає отриманню учнями своєчасного зворотного зв’язку.
Дослідження ефективності ШІ в оцінюванні
Наукова група досліджувала, як великі мовні моделі (LLM) оцінюють роботи учнів порівняно з людьми. У рамках експерименту LLM Mixtral отримав письмові відповіді від учнів середньої школи з фізики. Зокрема, в одному з завдань учням пропонувалося створити модель, яка демонструє поведінку частинок при передачі теплової енергії. Після цього Mixtral створив рубрики для оцінювання та виставив підсумкові бали.
Результати виявили як переваги, так і обмеження штучного інтелекту в освітньому оцінюванні:
Дослідники виявили, що LLM здатні швидко оцінювати відповіді, але часто використовують спрощені підходи, як-от виділення певних ключових слів, і на цій підставі роблять висновок про розуміння теми учнем. Такий підхід знижує точність оцінювання рівня засвоєння матеріалу.
Відмінності в підходах до оцінювання
Основна відмінність між ШІ та людиною-оцінювачем полягає в процесі аналізу робіт. Хоча рубрики, створені LLM, мають певну схожість з людськими, штучний інтелект не здатен міркувати як люди. Як зазначає Чжай, LLM часто робить “надмірні висновки” – припускає розуміння учнем матеріалу лише на основі використання певних ключових слів, не оцінюючи логіку міркувань.
Рівень точності LLM в оцінюванні сильно залежить від наявності створених людиною рубрик. Без таких рубрик точність оцінювання складає лише 33,5%. З доступом до людських рубрик цей показник підвищується до трохи більше 50%.
Перспективи використання ШІ в освіті
Технологія ШІ відкриває нові можливості для оптимізації освітніх процесів, зокрема звільняючи вчителів від рутинних завдань. Як зазначає Чжай, багато вчителів відзначають, що автоматичне оцінювання дозволяє їм не витрачати вихідні на перевірку робіт і зосередитися на “більш значущій роботі”.
Проте дослідники підкреслюють, що технологія потребує вдосконалення. ШІ можна покращити, надавши йому детальні рубрики, які відображають глибоке аналітичне мислення людини-оцінювача. Такі рубрики мають містити конкретні правила щодо того, що саме оцінювач шукає у відповіді учня.
Як влучно зазначає Сяомін Чжай: “Поїзд від’їхав від станції, але він щойно покинув станцію. Це означає, що у нас попереду ще довгий шлях до використання штучного інтелекту, і нам все ще потрібно з’ясувати, в якому напрямку рухатися”.