O que está provocando a explosão do aprendizado de máquina?

O que está provocando a explosão do aprendizado de máquina

Os sis­temas de apren­diza­do de máquina exis­tem des­de a déca­da de 1950, então por que só ago­ra esta­mos obser­van­do avanços em áreas tão diver­si­fi­cadas? Três fatores estão em jogo: dados que cresce­r­am enorme­mente, algo­rit­mos que mel­ho­raram sig­ni­fica­ti­va­mente e hard­ware de com­puta­dores sub­stan­cial­mente mais poderosos. Nas últi­mas duas décadas a disponi­bil­i­dade de dados aumen­tou cer­ca de mil vezes, algo­rit­mos divi­sores de águas mel­ho­raram de dez a cem vezes e a veloci­dade do hard­ware aumen­tou em pelo menos cem vezes. De acor­do com Toma­so Pog­gio, do MIT, essas mel­ho­rias podem se com­bi­nar para ger­ar avanços de até um mil­hão de vezes em apli­cações como os sis­temas de visuais de detecção de pedestres usa­dos nos car­ros autodi­rigi­dos.

Vamos anal­is­ar cada fator sep­a­rada­mente.

Dados. CDs de músi­ca, DVDs de filmes e pági­nas da web foram sendo adi­ciona­dos ao estoque mundi­al de infor­mação dig­i­tal­mente cod­i­fi­ca­da durante décadas, mas nos últi­mos anos a taxa de cri­ação explodiu. Sinais de sen­sores em smart­phones e equipa­men­tos indus­tri­ais, fotos e vídeos dig­i­tais, uma tor­rente dig­i­tal sem-fim de mídias soci­ais e várias out­ras fontes se com­bi­nam para nos colo­car numa era total­mente sem prece­dentes de abundân­cia de dados. Cer­ca de 90% dos dados dig­i­tais no mun­do atu­al foi cri­a­do somente nos últi­mos dois anos. Com a promes­sa cres­cente da inter­net das coisas (IoT) de conec­tar bil­hões de novos apar­el­hos e seus respec­tivos flux­os de dados, é uma apos­ta segu­ra afir­mar que muito mais dados dig­i­tais estarão disponíveis na próx­i­ma déca­da.

Algo­rit­mos. A tor­rente de dados é impor­tante não só porque tor­na os algo­rit­mos atu­ais mais efi­cientes, mas tam­bém porque enco­ra­ja, sus­ten­ta e acel­era o desen­volvi­men­to de algo­rit­mos mel­hores. Os algo­rit­mos e abor­da­gens que estão dom­i­nan­do a dis­ci­plina — como apren­diza­do pro­fun­do super­vi­sion­a­do e apren­diza­do por reforço — com­par­til­ham uma pro­priedade bási­ca vital: seus resul­ta­dos mel­ho­ram à medi­da que aumen­ta a quan­ti­dade de dados de treina­men­to que estão pro­duzin­do. O desem­pen­ho de um algo­rit­mo geral­mente esta­bi­liza em algum pon­to, depois dis­so intro­duzir mais dados pro­duz pouco ou nen­hum efeito. Mas isso ain­da não parece ser o caso de muitos algo­rit­mos ampla­mente usa­dos hoje em dia. Ao mes­mo tem­po, novos algo­rit­mos estão trans­ferindo o apren­diza­do de uma apli­cação para out­ra, per­mitin­do apren­der com menos exem­p­los.

Hard­ware de com­puta­dores. A lei de Moore — a capaci­dade dos cir­cuitos inte­gra­dos dobra con­sis­ten­te­mente a cada 18 a 24 meses — comem­o­rou seus 50 anos em 2015, época em que ela ain­da vig­o­ra­va. Algu­mas pes­soas comen­taram recen­te­mente que ela está extrap­olan­do os lim­ites da físi­ca, por isso dev­erá desacel­er­ar nos próx­i­mos anos. De fato, a veloci­dade do reló­gio para os micro­proces­sadores padrão esta­bi­li­zou. Mas, por uma for­tui­ta coin­cidên­cia, um tipo de chip de com­puta­dor rela­ciona­do, chama­do unidade de proces­sa­men­to grá­fi­co, ou GPU, se mostrou muito efi­ciente quan­do apli­ca­do aos cál­cu­los necessários para as redes neu­rais.

Na ver­dade, aumen­tos de veloci­dade de 10 vezes não são raros quan­do as redes neu­rais pas­sam de unidades cen­trais tradi­cionais de proces­sa­men­to para GPUs. De iní­cio as GPUs foram desen­volvi­das para exibir com rapi­dez inter­faces grá­fi­cas em apli­cações como jogos de com­puta­dor. Isso sig­nifi­ca­va econo­mia de escala e per­mi­tia reduzir os cus­tos unitários, mas um número cres­cente de GPUs está sendo usa­do em redes neu­rais. Como as apli­cações de redes neu­rais se tornaram ain­da mais comuns, várias empre­sas desen­volver­am chips otimiza­dos e espe­cial­iza­dos para essas apli­cações, incluin­do a unidade de proces­sa­men­to de ten­sor, ou TPU, da Google. De acor­do com Shane Legg, cofun­dador da Deep­Mind da Google, uma roda­da de treina­men­to que leva um dia num dis­pos­i­ti­vo com uma úni­ca TPU teria lev­a­do 250 mil anos num mod­e­lo 80486 da déca­da de 1990. Isso pode mais que decu­plicar a mel­ho­ra de desem­pen­ho.

Ess­es aper­feiçoa­men­tos têm um efeito sin­ergéti­co acu­mu­la­ti­vo. Um hard­ware com mais capaci­dade per­mite que os engen­heiros testem e desen­volvam mel­hores algo­rit­mos e, é claro, que as máquinas absorvam con­jun­tos de dados muito maiores e em tem­po razoáv­el. Algu­mas dessas apli­cações que estão sendo resolvi­das hoje — con­vert­er ondas sono­ras da fala em tex­to com­preen­sív­el, por exem­p­lo — levari­am, lit­eral­mente, sécu­los para rodar num hard­ware anti­go da déca­da de 1990. O suces­so moti­va pesquisadores bril­hantes a tra­bal­har na área e mais investi­dores e exec­u­tivos a finan­ciar novos empreendi­men­tos.

Amplian­do ain­da mais essas sin­er­gias estão out­ras duas tec­nolo­gias: redes globais e a nuvem. A inter­net móv­el ago­ra pode entre­gar tec­nolo­gias dig­i­tais prati­ca­mente em qual­quer lugar do plan­e­ta, conectan­do bil­hões de clientes poten­ci­ais aos avanços da IA. Pense nos assis­tentes inteligentes que você provavel­mente já uti­liza em seu smart­phone, nas bases de con­hec­i­men­to dig­i­tal que as grandes empre­sas ago­ra com­par­til­ham glob­al­mente, nos sis­temas colab­o­ra­tivos, como Wikipedia e Kag­gle, cujos prin­ci­pais usuários e con­tribuidores são pes­soas bril­hantes de fora da orga­ni­za­ção.

Talvez ain­da mais impor­tante seja o poten­cial de IA basea­da na nuvem para acel­er­ar o apren­diza­do e a difusão. Pense num robô que está em deter­mi­na­do local proces­san­do uma tare­fa como recon­hec­i­men­to de um obje­to. Uma vez que ele domine a tare­fa, estará apto faz­er o upload desse con­hec­i­men­to para a nuvem e com­par­til­há-lo com out­ros robôs que usam um sis­tema de rep­re­sen­tação de con­hec­i­men­to com­patív­el (a Rethink Robot­ics está tra­bal­han­do nes­sa platafor­ma). Dessa for­ma, robôs que tra­bal­ham inde­pen­den­te­mente podem, de modo efe­ti­vo, reunir dados de cen­te­nas, mil­hares e até mil­hões de olhos e ouvi­dos. Se essas infor­mações forem com­bi­nadas num úni­co sis­tema, os robôs podem apren­der muito mais rápi­do e com­par­til­har seus insights quase instan­ta­nea­mente.

Por Erik Bryn­jolf­s­son e Andrew McAfee

Posts Similares