Inteligência artificial já aprende sozinha a ser invencível

É só um jogo de mesa. Mas o tab­uleiro do jogo Go (Weiqi ou Baduk), um com­plexo xadrez ori­en­tal, é o ter­reno escol­hi­do para explo­rar as fron­teiras da inteligên­cia arti­fi­cial, que no futuro poderão aju­dar a “resolver todo tipo de prob­le­mas pre­mentes do mun­do real”, nas palavras de Demis Has­s­abis, líder do Google Deep­Mind. Essa divisão da mul­ti­m­il­ionária empre­sa tec­nológ­i­ca já con­seguiu cri­ar um pro­gra­ma, o Alpha­Go, que é capaz de jog­ar go e der­ro­tar inclu­sive os campeões mundi­ais, desnudan­do muitos seg­re­dos da mente humana. Ago­ra a empre­sa foi um pas­so adi­ante ao desen­volver um pro­gra­ma capaz de esma­gar todas as ver­sões prévias do todo-poderoso Alpha­Go, apren­den­do do zero e sem aju­da. Uma máquina que se ensi­na a si mes­ma, sem exem­p­los de jogos reais nem inter­venção humana, até se tornar invencív­el. E além do mais con­seguiu isso com uma força incom­paráv­el, num tem­po recorde e con­sumin­do uma quan­ti­dade mín­i­ma de recur­sos infor­máti­cos.

O pro­gra­ma orig­i­nal treinou-se estu­dan­do mil­hões de movi­men­tos reais de mil­hares de par­tidas jogadas entre humanos, um mon­u­men­tal pas­so prévio antes de começar a treinar-se jogan­do con­tra si mes­mo, até se tornar imbat­ív­el. Mas esta nova ver­são desen­volvi­da pelo Deep­Mind, denom­i­na­da Alpha­Go Zero, con­ta com um novo algo­rit­mo que lhe per­mite apren­der a gan­har do nada, a sós com o tab­uleiro e as peças. O novo algo­rit­mo se sus­ten­ta numa rede neu­ronal basea­da na apren­diza­gem por reforço: a máquina sabe se ensi­nar soz­in­ha, prat­i­can­do con­si­go mes­ma, até alcançar uma capaci­dade muito supe­ri­or à de suas ver­sões prévias.

 

Esta nova ver­são desen­volvi­da pelo Deep­Mind con­ta com um algo­rit­mo que lhe per­mite apren­der a gan­har do nada, treinan­do con­tra si mes­mo

 

A equipe do Deep­Mind que­ria ilus­trar como a inteligên­cia arti­fi­cial pode ser efi­ciente frente àque­les desafios nos quais não há dados sufi­cientes ou con­hec­i­men­tos prévios para guiar a máquina até uma solução ide­al, como expli­cam no estu­do que pub­licaram na revista Nature. “Nos­sos resul­ta­dos demon­stram”, escrevem, “que um enfoque de apren­diza­gem por reforço puro é com­ple­ta­mente fac­tív­el, inclu­sive nos domínios mais exi­gentes: é pos­sív­el treinar a um nív­el sobre-humano, sem exem­p­los humanos nem ori­en­tação, sem mais con­hec­i­men­to de cam­po além das regras bási­cas”. A ideia já não é super­ar os humanos subindo sobre os seus ombros, e sim ser chegar aonde eles não estão nem podem aju­dar.

Em ape­nas 24 horas, a máquina auto­di­da­ta der­ro­tou uma máquina igual­mente potente, mas ensi­na­da com infor­mação de par­tidas humanas

Partin­do do zero, com movi­men­tos aleatórios, o Alpha­Go Zero começou a enten­der as noções deste jogo extrema­mente com­plexo, em que pedras bran­cas e negras dis­putam ter­ritório num tab­uleiro de 19 por 19 casas. Em ape­nas três dias, depois de jog­ar con­tra si mes­mo quase cin­co mil­hões de vezes, esta máquina venceu a bem suce­di­da ver­são prévia, que por sua vez der­ro­tara pela primeira vez um campeão humano de nív­el mundi­al. Aque­la máquina orig­i­nal neces­si­tou de meses de treina­men­to e 30 mil­hões de jogadas. O algo­rit­mo atu­al é tão efi­ciente que se tornou invencív­el com ape­nas qua­tro chips espe­cial­iza­dos, frente aos 48 que sua pre­de­ces­so­ra de 2015 neces­si­ta­va. O Alpha­Go Zero der­ro­tou o Alpha­Go por 100 a 0.

O mais inter­es­sante é o que esta nova máquina nos ensi­na sobre a apren­diza­gem, sobre nos­sos con­hec­i­men­tos (ou como são dis­pen­sáveis) e sobre a nos­sa própria inteligên­cia. “Após três horas, o jogo se cen­tra em com­er pedras com avareza, como um prin­cipi­ante humano”, detal­ha o estu­do. “Após 19 horas, o jogo exibe os fun­da­men­tos de vida e morte, a influên­cia e o ter­ritório”, con­tin­ua. Após 70 horas, a máquina é extra­or­di­nar­i­a­mente capaz, em níveis sobre-humanos, apta a visu­alizar estraté­gias sofisti­cadas impen­sáveis para os jogadores de carne e osso. E em 40 dias é invencív­el.

A ideia já não é mais super­ar os humanos subindo sobre seus ombros, e sim chegar aonde eles não estão nem podem aju­dar

De for­ma intu­iti­va, a máquina foi desco­brindo táti­cas, posições e movi­men­tos que o tal­en­to humano lev­ou milênios para aper­feiçoar. Mas desco­briu soz­in­ha out­ras estraté­gias ino­vado­ras descon­heci­das, que se mostravam mais efi­cientes, e optou por aban­donar os movi­men­tos humanos clás­si­cos. Essa cria­tivi­dade do algo­rit­mo, um dos acha­dos mais notáveis do Deep­Mind, já pôde ser vista em sua famosa batal­ha con­tra o campeão Lee Sedol, de quem sem­pre se recor­dará o sem­blante, com olho vidra­dos e boquiaber­to, ao obser­var um bril­hante movi­men­to gan­hador do Alpha­Go.

Além do mais, o Alpha­Go Zero demon­strou que o con­hec­i­men­to humano pode inclu­sive atra­pal­har na hora de alcançar uma maior eficá­cia. Os espe­cial­is­tas do Deep­Mind ali­men­ta­ram uma cópia desse algo­rit­mo com infor­mação de par­tidas reais entre humanos, para com­parar seu rendi­men­to com a ver­são auto­di­da­ta. O resul­ta­do: a máquina auto­di­da­ta der­ro­tou a máquina ensi­na­da por humanos nas primeiras 24 horas de treina­men­to. “Isto sug­ere que o Alpha­Go Zero pode estar apren­den­do uma estraté­gia que é qual­i­ta­ti­va­mente difer­ente do jogo humano”, con­cluem os pesquisadores do Google.

A verdadeira capacidade das máquinas

O Deep­Mind já havia con­segui­do que as máquinas apren­dessem soz­in­has a gan­har, como fez com videogames clás­si­cos. Mas o nív­el de sofisti­cação do go, com mais pos­si­bil­i­dades no tab­uleiro que áto­mos no uni­ver­so, o trans­for­ma em uma pro­va mel­hor que os mar­cian­in­hos. Sobre­tu­do se, como afir­ma Has­s­abis, os cien­tis­tas pre­ten­dem usar estes desen­volvi­men­tos para solu­cionar questões tão difí­ceis como a dobradu­ra das pro­teí­nas e o desen­volvi­men­to de novos mate­ri­ais: “Se pud­er­mos obter com estes prob­le­mas o mes­mo pro­gres­so que com o Alpha­Go, ele tem o poten­cial de impul­sion­ar o con­hec­i­men­to humano e impactar pos­i­ti­va­mente as vidas de todos nós”.

O Alpha­Go Zero pode estar apren­den­do uma estraté­gia que é qual­i­ta­ti­va­mente difer­ente do jogo humano, con­cluem os pesquisadores do Google

Con­heci­dos os resul­ta­dos do Deep­Mind, con­vém recor­dar a Lei de Ama­ra, pro­pos­ta pelo cien­tista Roy Ama­ra: “Ten­demos a super­es­ti­mar o efeito de uma tec­nolo­gia em cur­to pra­zo e a subes­ti­mar seu efeito no lon­go pra­zo”. Este algo­rit­mo do Google não tem rival na hora de se ensi­nar soz­in­ho a gan­har, mas hoje em dia está muito lim­i­ta­do pela tare­fa encomen­da­da. Assim admi­ti­ram seus desen­volve­dores meses atrás, quan­do foram per­gun­ta­dos sobre o que acon­te­ceria com o Alpha­Go se de repente as dimen­sões do tab­uleiro fos­sem alter­adas de 19 x 19 para 29 x 29: “Estaríamos mor­tos”, respon­der­am. Um jogador humano saberia se adap­tar sem maiores prob­le­mas à mudança.

Como con­tex­to, cabe men­cionar um estu­do pub­li­ca­do no mês pas­sa­do por pesquisadores da Acad­e­mia de Ciên­cias da Chi­na sobre o risco real da inteligên­cia arti­fi­cial, anal­isan­do suas atu­ais capaci­dades. Eles estu­daram qual seria o quo­ciente int­elec­tu­al (QI) dos difer­entes sis­temas de inteligên­cia arti­fi­cial, chegan­do à con­clusão de que são como cri­anças peque­nas: o do Google é 47, o dobro que o sis­tema Siri (24). Levan­do em con­sid­er­ação as habil­i­dades dos sis­temas em torno do seu “domínio do con­hec­i­men­to, apren­diza­gem, uso e cri­ação”, chegaram à con­clusão de que a inteligên­cia ger­al do Alpha­Go (a ver­são de 2016) está abaixo da humana. Isso sim, apon­tavam que para subir um degrau em suas capaci­dades int­elec­tu­ais o Alpha­Go pre­cisa­va demon­strar a cria­tivi­dade necessária para apren­der soz­in­ho a vencer. E esse desafio ago­ra foi super­a­do.

Posts Similares

1 Comentário

Os Comentários estão Encerrados.