AlphaGo обыгрывает чемпионов

Программа AlphaGo, искусственный интеллект Google, одержала победу в пятой и заключительной игре в матче, проходившем в Сеуле, Южной Корее, против одного из величайших игроков старинной китайской игры, Ли Седоля, обладателя 9 профессионального дана. Итоговый счет составил 4:1, в пользу AlphaGo. Древняя китайская настольная игра го долгое время считалась недосягаемой для компьютера. Несмотря на прорывы в других играх, таких как шашки и шахматы, в го программы, в значительной степени, уступали человеку.

Стремительная победа означает, что компания DeepMind, новое британское приобретение Google, передаст на благотворительность 1 000 000$. AlphaGo при всей своей вычислительной мощности, главным образом, обязана своей победой радикально новым подходом: через глубокие нейронные сети. Эти сети могут тренировать себя с помощью минимального вмешательства человека. Исследователи из DeepMind надеются, что эти методы могут быть привнесены на освоение практических задач во многих других областях, включая медицину и робототехнику.

Программирование игр началось с шахмат, используя методы, впервые разработанные Клодом Шенноном и Аланом Тьюрингом еще в далеких 40-ых. Машина просчитывает все возможные варианты для каждой стороны, перебирая множество ходов вперед и генерируя дерево анализа с миллионами игровых позиций. Она ранжирует позиции путем применения эмпирических правил, которые знают даже начинающие шахматисты, такие как разная ценность различных частей и важность контроля над центром доски. В итоге, алгоритм отслеживает путь от конечной точки назад до текущей позиции, чтобы найти тот ход, который приведет к оптимальному результату, при условии идеальной игры с обеих сторон.

Впервые в 1997 году суперкомпьютер Deep Blue от IBM обыграл чемпиона мира по шахматам Гарри Каспарова. Сегодня мы можем скачать программу, которая играет даже лучше, на смартфон.

По сравнению с шахматами, китайская игра го предлагает гораздо больше ходов и гораздо больше вариантов, создавая необычайно большое дерево анализа. Кроме того, в ней недостаточно точных эмпирических правил для классификации позиций.

В последние годы многие программисты пытались обойти эту проблему с помощью моделирования методом Монте-Карло. Это статистический метод нахождения наилучшего первого хода из огромной базы игр. Этот метод используется и в AlphaGo совместно с методом генерации дерева анализа былых времен. Но ключевым улучшением в AlphaGo является использование глубоких нейронных сетей для распознавания образов.

Как играть в Го?

Го — это настольная игра, где два игрока соревнуются, чтобы контролировать большую территорию на игровом поле. Игроки размещают на доске камни двух цветов и пытаются отгородить область больше, чем оппонент. Один игрок использует черные камни, другой-белые. Черный и белый поочередно выставляют свои камни на пустых пересечениях на сетке размером 19Х19. Противники пытаются захватить пустые пересечения на доске своими камнями.

Кто побеждает в Го?

Игра заканчивается, когда все открытые пространства на доске окружены. Игроки получают очки за количество пространств, которые им удалось оградить. Игрок может также захватить камни противника, окружая их своими собственными. Эти захваченные камни вычитаются из очков противника в конце игры. Игрок с наибольшим количеством очков побеждает.

Сложности игры в Го

При внешней простоте Го во много раз сложнее шахмат. Если быть точным в 10 в 100-ой степени. Именно во столько раз больше возможных вариантов размещения камней на стандартной доске, чем в шахматах. До появления AlphaGo считалось, что пока что любые программы играют на уровне любителей, и до уровня мастеров им ещё десятилетие.

AlphaGo использует две нейронные сети. Стратегия нейронной сети, которая обучалась на миллионах успешных игр, с целью воспроизведения их способов ведения игры, состоит в том, что она пытается определить вероятность выигрыша для каждой позиции. Таким образом, машина может сосредоточить свои усилия на наиболее перспективных вариантах. Потом наступает время дерева анализа, которое смотрит на множество ходов вперед.

Итак, DeepMind использовали сочетание трех различных методов искусственного интеллекта. Первый- это контролируемое обучение, где команда обучала AlphaGo как играть в игру хорошо.Второй-это обучение через самостоятельную игру, где программа сыграла кучу партий сама с собой. И, наконец, метод Монте-Карло для поиска наилучших потенциальных ходов. И все это в сочетании с огромными объемами вычислительной мощности.

Человек и AlphaGo играют по-разному. Человек пытается захватить не только одно дополнительное очко на доске, но и 10 и 20 очков, если это возможно. Таким образом, у него будет больше шансов выиграть, даже если позже он сделает небольшую ошибку. AlphaGo предпочитает выиграть 1 очко но с больше вероятностью, чем ,скажем, 20 очков с более низкой вероятностью.
AlphaGo выиграла в 4 их 5 игр, так,что усилия по ее совершенствованию будут продолжаться.

Конечной целью исследований в области искусственного интеллекта является создание всеобъемлющего машинного обучения, которое будет выполнять различные вещи и заменит людей во многих областях. Например, программа сама сможет подготавливать репортажи или вести блог, подобно моему.

[add_ratings]

AlphaGo обыгрывает чемпионов

Еще по этой теме

Оставить ответ Отменить ответ