Опубліковано найбільший загальнодоступний набір даних для контекстного навчання з підкріпленням, повідомляє прес-служба Інституту штучного інтелекту AIRI.
Дослідники з російського Інституту штучного інтелекту AIRI і лабораторії T-Bank AI Research опублікували два загальнодоступних набори даних для контекстного навчання з підкріпленням на основі середовища XLand-MiniGrid. Спрощена версія містить трохи менше 20 млрд кортежів – упорядкованих наборів даних фіксованої довжини, повна – понад 112 млрд.
Набори даних валідували за допомогою графіків навчальних історій – траєкторії були природним чином упорядковані за зростанням сумарної нагороди за епізод, повідомляють розробники. Вони вважають, що набори допоможуть налаштовувати ШІ-системи для вирішення нових завдань без залучення вузькопрофільних фахівців, а також стануть джерелом корисних синтетичних даних.
Контекстне навчання з підкріпленням (In-Context Reinforcement Learning) сфокусовано на створенні моделей, які добре працюють не тільки на тренувальних завданнях, а й здатні максимально ефективно донавчатися за мінімальний час. Наприклад, більшість чат-ботів можна навчити новому завданню, додавши в промпт деяку кількість прикладів його розв’язання.
Такі методи підходять, щоб навчати ШІ приймати рішення, пояснюють розробники. ШІ-агент повинен досліджувати середовище (exploration) і зрозуміти, які дії ведуть до хорошого результату, а які – до поганого. Потім він має зупинитися і перейти у фазу “експлуатації хороших дій” (exploitation). Завдання exploration – exploitation полягає в тому, щоб знайти механізм навчання, який на горизонті N кроків забезпечує найкращий результат за меншу кількість кроків.
У царині контекстного навчання з підкріпленням немає стандартизації, і автори всіх робіт, що існували раніше, були змушені щоразу збирати новий датасет з нуля, додають розробники. Вони вважають, що опубліковані набори даних допоможуть демократизувати дослідження, прискорять розвиток цього напрямку навчання і масштабування технологій.