Специалисты из компании Nvidia и ряда американских университетов представили новую модель искусственного интеллекта под названием NitroGen. Её ключевая особенность — способность обучаться играть в видеоигры, анализируя исключительно визуальную информацию с экрана.
NitroGen представляет собой базовую модель визуально-действенного обучения, предназначенную для создания универсальных игровых агентов. Система была обучена на огромном массиве данных — 40 тысячах часов игровых видеозаписей, охватывающих более тысячи различных игр. В основе разработки лежат три основных компонента. Первый — это масштабный набор данных, автоматически собранный из общедоступных игровых роликов в интернете, где были извлечены действия игроков. Второй — многоигровая тестовая среда, позволяющая оценивать, насколько хорошо модель обобщает навыки между разными играми. Третий — единая политика обучения, построенная на крупномасштабном клонировании поведения.
Модель демонстрирует высокую эффективность в самых разных игровых жанрах. Она успешно справляется с боями в трехмерных экшн-играх, точно управляет персонажем в двухмерных платформерах и исследует процедурно генерируемые миры. Важнейшее достижение NitroGen — способность переноситься на совершенно новые, незнакомые игры, где она показывает до 52 процентов относительного улучшения в успешности выполнения задач по сравнению с моделями, обученными с нуля. Все материалы исследования, включая набор данных, инструменты для оценки и веса модели, находятся в открытом доступе для содействия дальнейшим научным изысканиям.
Хотя демонстрация возможностей модели напрямую связана с видеоиграми, её потенциал выходит далеко за рамки игровой индустрии как с технической, так и с концептуальной точки зрения. Во-первых, в основе NitroGen лежит архитектура GROOT N1.5, которая изначально создавалась для задач в области робототехники. Во-вторых, сам принцип обучения — путем наблюдения за действиями человека — идеально подходит для обучения роботов, предлагая новый эффективный метод.
Гибкость модели подтверждается её успешной адаптацией к играм с абсолютно разной механикой и физикой, что открывает массу возможностей для практического применения. Разработчики отмечают, что особенно ценными для обучения оказались видеоролики, где игроки в реальном времени накладывали на трансляцию данные о своих действиях с геймпада.