Система искусственного интеллекта AlphaGo, построенная на принципах глубинного машинного обучения и созданная группой Google DeepMind, со счетом 5-0 победила Фань Хуэя (Fan Hui) трехкратного европейского чемпиона по игре Го (Go). Этот случай является первым разом в истории, когда компьютерная программ обыграла профессионального игрока в Го, хотя некоторые эксперты в области искусственного интеллекта прогнозировали, что наступления данного события можно ожидать не ранее, чем через одно десятилетие.
«Система AlphaGo использует методы глубинного машинного изучения и самообучения. При помощи этого она улучшает саму себя, просматривая ходы реальных игр и играя сама с собой» — рассказывают Дэвид Сильвер (David Silver) и Демис Хассабис (Demis Hassabis), члены группы Google DeepMind, — «Обучение системы было произведено на обширном наборе данных о 30 миллионах ходов, сделанных профессиональными игроками в Го. А после этого система отточила свое мастерство, играя сама с собой».
Для того, чтобы сделать возможной победу системы искусственного интеллекта над человеком, ее разработчики реализовали современный алгоритм поиска по дереву решений. Две независимые нейронные сети сформировали из миллионов своих подобных нейронам структур 12 слоев, которые были «пронзены насквозь» деревом решений игры Го, в котором насчитывается более чем 10^100 вариантов. Это больше, чем количество вариантов ходов в шахматах и больше, чем количество атомов во всей Вселенной.
«Сначала мы обучили одну из сетей на базе данных о 30 миллионов ходов, которые были сделаны людьми-экспертами в этой игре. Уже после этого система AlphaGo стала в состоянии правильно предугадать ход человека в 57 случаях из 100 возможных и выигрывала в 99.8 процентах матчей у других Го-программ» — рассказывают Дэвид Сильвер и Демис Хассабис, — «Но наша цель заключалась не в подражании людям-игрокам, мы намеревались одержать полную победу над ними. Поэтому мы заставили две нейронных сети системы AlphaGo тысячи раз играть друг с другом, обнаруживая новые стратегии, приобретая новый опыт при помощи эмпирического процесса, известного как «укрепляющее обучение» (reinforcement learning)».
Следующей задачей, которую поставили перед собой разработчики системы AlphaGo, станет попытка победы над Ли Седолем (Lee Sedol), признанным мировым игроком в игру Го. И этот матч состоится в Сеуле, Южная Корея, в марте этого года.
«Логические игры являются прекрасной платформой для разработки, обучения, тестирования и совершенствования алгоритмов систем искусственного интеллекта. А такие системы в будущем могут быть использованы в самых различных областях реального мира» — пишут исследователи, — «Методы, которые мы используем для поиска решений в играх, однажды могут быть расширены и модернизированы так, что при их помощи люди найдут решения всех самых насущных проблем, связанных с проблемами общества, изменениями климата и здравоохранением».
Источник: