Student of Games: новият алгоритъм, който играе шах и покер
Нов алгоритъм на Google DeepMind, наречен Student of Games, е способен да печели различни логически настолни игри и то само чрез научаване на правилата. Програмата за изкуствен интелект (ИИ) съчетава насочено търсене, машинно обучение и теория на игрите, както обясняват изследователите, които са я разработили, в статия, публикувана в списание Science Advances.
Игрите имат дълга история като еталон за напредък в областта на изкуствения интелект. Подходите, използващи търсене и учене, показват високи резултати в много игри с пълна информация като шах, при които всички фигури са видими на дъската, а тези, използващи теоретични разсъждения, демонстрират високи резултати при предизвикателства с непълна информация като покер, където картите на противниците са неизвестни. Student of Games е алгоритъм с общо предназначение, който обединява предишните подходи, комбинирайки насочено търсене, самообучение и теоретично разсъждение, като по този начин постига силни емпирични резултати в игри и от двата типа.
Алгоритъмът е способен да печели в игри от всякакъв характер, при това с минимални познания. Съчетавайки техники като насочено търсене, машинно обучение и теория на игрите, той вече демонстрира високи резултати в четири различни игри: две с перфектна информация (шах и Го) и две с несъвършена информация (покер и Скотланд Ярд). „Нашият алгоритъм е способен да разсъждава въз основа на правилата на игрите. Например, той се научава да играе във всички тях само с правилата, без да му се дава повече информация“, обяснява Финбар Тимбърс, който работи в изследователската лаборатория Midjourney и е един от авторите на изследването. „С това той може да определи какви действия трябва да предприемете и дали сте спечелили или загубили“.
За да прецени ходовете си, алгоритъмът се фокусира не само на успешните резултати на масата или на игралната дъска. При играта на покер например, той взема предвид всички възможни сценарии и комбинации с видимите на масата карти и ги осреднява.
Всички възможни сценарии се приближават към равновесието на Наш – теорема за вземане на решения, разработена от американския математик Джон Наш. Играчите в една игра прилагат своите стратегии, за да максимизират печалбите си, като ги адаптират по време на играта в зависимост от ходовете на другите участници. Тимбърс и колегите му са използвали това като основа за обучението на алгоритъма, за да му позволят да намери оптимална стратегия в повечето ситуации.
Всяка игра пренася участника в различни сценарии. В шаха, когато сте в определена позиция на дъската, можете да обмислите възможните ходове, за да намерите най-добрия. В покера обаче нещата изглеждат по по-различен начин. Освен че картите на опонентите са скрити, а тези на масата се откриват в определена последователност, играчите разчитат много на своята интуиция и езика на тялото, за да разчетат всеки един сигнал и да предвидят най-добрия възможен ход. „Ако започнете да залагате високо всеки път, когато имате силна ръка, като залагате агресивно, ще разкриете на опонента си, че имате добра ръка. По същия начин, ако спрете да залагате, когато имате слаба ръка, ще разкриете на опонента си каква е вашата ръка.“, обяснява Тимбърс.
Разгадаването на този психологически елемент е невъзможно за компютърните алгоритми, колкото и добре развита да е тяхната стратегия и теория. Ролята на Student of Games е да групира подобни игри, които се третират по един и същи начин, и да намира решение и отговор в ситуации с голям брой възможни изходи. Това означава, че алгоритъмът ще генерира извадка от всички възможни стратегии и ще оперира с определен брой извадки, вместо да изброява всеки отделен възможен вариант. Така той ще може да прави изчисления например за ефективността на компютърни програми и друг вид задачи с ясни възможни резултати.
Макар и подобни алгоритми да постигат впечатляващ напредък, все още трябва да извървят дълъг път, преди да могат да се определят като генерално интелигентни. Те показват забележителни резултати в игрална среда с определени правила и конкретна цел, но нещата не стоят точно така в реалния свят, където възможните ходове и резултати са неизмерими. Въпреки това модели като Student of Games могат да бъдат използвани като основа за справяне със сложни логически задачи, както и за подобряване на стратегическите умения и цялостното игрово преживяване на играчите.