Штучний інтелект

Стажер DeepMind розповів як будував AlphaGo, що підкорив світ

Березень 2016 року. Сеул. На великих екранах на перехрестях — як на Таймс-сквер — показують партію в го між людиною і машиною. Сотні мільйонів глядачів у Китаї не відходять від телевізорів. Програма AlphaGo від Google DeepMind перемагає найсильнішого гравця планети Лі Седоля — і цей момент назвуть переломним в історії штучного інтелекту. Десять років потому журнал New Scientist опублікував розмову з Крисом Меддісоном — тоді ще стажером-магістрантом, а нині професором ШІ університету Торонто, — який стояв біля самих витоків AlphaGo.

Перемога AlphaGo транслювалася по телебаченню

Що відомо коротко

  • Меддісон приєднався до проєкту влітку 2014 року як стажер Google Brain — і саме він будував перші нейромережі для AlphaGo.
  • Ідея перевірити здібності ШІ в го належить Іллі Суцкеверу — майбутньому засновнику OpenAI.
  • Базова архітектура AlphaGo — «передбачення наступного ходу» — є прямим попередником того, як сьогодні навчають великі мовні моделі на кшталт ChatGPT.
  • Меддісон повернувся до PhD ще до матчу з Лі Седолем, але був присутній у Сеулі й описав цей момент як «зупинку Східної Азії».

Як виникла ідея і чому го

Усе почалося з короткого, але переконливого аргументу Іллі Суцкевера. Він запитав Меддісона: якщо досвідчений гравець може вибрати кращий хід за пів секунди — то чи не можна навчити нейромережу робити те саме? Пів секунди — приблизно час одного «прямого проходу» у зоровій корі мозку. А саме такі завдання нейромережі вже вміли вирішувати добре, що довело змагання ImageNet із розпізнавання зображень.

Меддісон купив цей аргумент і влітку 2014 року приєднався до Google Brain як стажер. Там він зустрів невелику команду DeepMind у складі Аджи Хуана та Девіда Сільвера, яка вже починала працювати з го. Завданням Меддісона стало будувати нейромережі. Усі початкові спроби зазнавали невдачі, доки він, за його словами, не спробував «найтупіше й найпростіше рішення» — навчити мережу передбачати наступний хід, який зробив би гросмейстер у цій позиції, тренуючись на великому корпусі партій майстрів. Саме це стало фундаментом, який підняв проєкт на ноги. Так само, як великі мовні моделі сьогодні навчаються передбачати наступне слово — той самий принцип, лише на іншому матеріалі.

Два кроки від стажера до матчу

Вже наприкінці літа 2014 року Меддісон влаштував невеликий матч між своїми мережами і Торе Ґрепелем — дослідником DeepMind, який вважав себе непоганим гравцем у го. Мережа виграла. DeepMind зрозумів, що проєкт має перспективи, і почав вкладати в нього ресурси.

Але Меддісон прийняв рішення, яке сам пізніше назвав «одним з дурнуватіших»: відмовився залишатися на проєкті й повернувся до свого PhD. «Я академік у душі», — пояснив він. Та нейромережі, які він побудував, трималися ще довго — команді знадобився час, щоб їх перевершити. Кінцевий AlphaGo, що зіграв із Лі Седолем, став плодом великої інженерної роботи цілої команди. Те, як одна ідея переросла в колективне досягнення, дещо нагадує принцип, описаний у дослідженнях про те, як мозок зберігає й перебудовує знання: первинні зв’язки закладаються першими, але зростання відбувається через накопичення.

Сеул, великий екран і «зупинена Східна Азія»

Незважаючи на відхід із команди, Меддісон опинився в Сеулі під час матчу. Напруга там була майже фізичною: впевненість у перемозі є — але фінальний результат, як у спортивному матчі, ніколи не гарантований. А потім він глянув у вікно готелю.

На одному з головних міських перехресть стояв великий екран — і на ньому показували їхню партію. Перехожі зупинялися й дивилися. «Я чув числа — нібито сотні мільйонів людей у Китаї дивилися першу партію, але саме той момент я відчув як: боже, ми справді зупинили Східну Азію», — розповів Меддісон. Лі Седоль після поразки вибачився перед людством, назвавши це своїм особистим провалом. Для Меддісона це було трагічно. Так само болюче виглядала ситуація з традицією го — аналізом партії разом із суперником: AlphaGo не був людиною, і Лі Седоль мусив переглядати матч зі своїми друзями, а не з опонентом.

Чому AlphaGo і ChatGPT — це одна ідея

Меддісон наполягає: між AlphaGo 2016 року і сучасними великими мовними моделями набагато менше різниці, ніж здається. Перший крок в обох випадках — навчання нейромережі на великому корпусі людських дій: у AlphaGo це партії майстрів, у ChatGPT — текст з інтернету. Другий крок — налаштування за допомогою навчання з підкріпленням. У грі в го ціль — виграш, але людські ходи не завжди оптимальні: гравці помиляються або не знають найкращого рішення. Тому систему «вирівнюють» до реальної мети. У мовних моделях після передтренування аналогічно: поведінка мережі не збігається з тим, чого ми від неї хочемо, тому проводять кілька кроків навчання з підкріпленням. «У певному сенсі нічого принципово не змінилося», — підсумовує Меддісон. Це роздуми, співзвучні з тим, що «хрещена мати ШІ» Фей-Фей Лі називала необхідністю наукового, а не фантастичного підходу до розуміння сучасних систем.

Що означає перемога ШІ для людського сенсу гри

Чи знищив AlphaGo го як людську гру? Меддісон переконаний: ні. Він проводить різницю між ціллю гри (виграти) і її призначенням (отримати задоволення, відчути красу позиції). Шахи не зникли після Deep Blue — навпаки, це процвітаюча індустрія. ШІ може навчити людей новим ідеям у грі, розкрити нові виміри краси, яку вони вже цінують. Перемога машини не скасовує людського досягнення — вона змінює контекст, у якому це досягнення оцінюється.

Цікаві факти

  • Го — одна з найстаріших настільних ігор у світі, якій понад 2500 років; кількість можливих позицій на дошці перевищує кількість атомів у видимому Всесвіті.
  • Ілля Суцкевер, який надихнув Меддісона на роботу над AlphaGo, пізніше заснував OpenAI — компанію, що створила ChatGPT.
  • AlphaGo у 2016 році став першою програмою, що перемогла чинного чемпіона світу з го у повноцінному матчі без форного.
  • Девід Сільвер, співавтор AlphaGo, у 2024 році отримав премію Тюрінга — найвищу нагороду в галузі інформатики — разом із Демісом Хассабісом.

FAQ

Що зробив Крис Меддісон для AlphaGo? Будучи стажером-магістрантом у Google Brain влітку 2014 року, він розробив перші нейромережі для AlphaGo — зокрема базовий підхід до передбачення ходів на основі партій майстрів, що став фундаментом усього проєкту.

Чому перемога AlphaGo вважається такою важливою? Го вважалося «останньою фортецею» людини в настільних іграх через майже нескінченну кількість можливих позицій. Перемога у 2016 році показала: нейромережі можуть опанувати не лише прості завдання, а й ті, де навіть формалізація «правила перемоги» є нетривіальною.

Чим AlphaGo схожий на ChatGPT? Обидві системи проходять два ключові етапи: (1) навчання на великому корпусі людських дій — ходи майстрів або текст з інтернету; (2) вдосконалення за допомогою навчання з підкріпленням, щоб вирівняти поведінку системи до реальної цілі.

Чи зміг Лі Седоль реабілітуватися після поразки? У четвертій партії того самого матчу Лі Седоль зробив хід, який тепер називають «Ход Бога» — і виграв єдину партію з чотирьох проти AlphaGo. У 2019 році він пішов на пенсію, заявивши, що ШІ «неможливо перемогти».

Що Меддісон думає про майбутнє ШІ? Він зосереджується на практичних умовах прогресу: наявності даних для попереднього навчання й сигналів підкріплення для пост-тренування. «Якщо немає цих інгредієнтів — жоден алгоритм не допоможе», — каже він.

Іллі Суцкевер знадобилося одне речення, щоб переконати майбутнього професора ШІ стати стажером і побудувати нейромережу, яка зупинила Східну Азію: «Якщо майстер вибирає найкращий хід за пів секунди — нейромережа може навчитися того самого».
Back to top button