Os sistemas de aprendizado de máquina existem desde a década de 1950, então por que só agora estamos observando avanços em áreas tão diversificadas? Três fatores estão em jogo: dados que cresceram enormemente, algoritmos que melhoraram significativamente e hardware de computadores substancialmente mais poderosos. Nas últimas duas décadas a disponibilidade de dados aumentou cerca de mil vezes, algoritmos divisores de águas melhoraram de dez a cem vezes e a velocidade do hardware aumentou em pelo menos cem vezes. De acordo com Tomaso Poggio, do MIT, essas melhorias podem se combinar para gerar avanços de até um milhão de vezes em aplicações como os sistemas de visuais de detecção de pedestres usados nos carros autodirigidos.
Vamos analisar cada fator separadamente.
Dados. CDs de música, DVDs de filmes e páginas da web foram sendo adicionados ao estoque mundial de informação digitalmente codificada durante décadas, mas nos últimos anos a taxa de criação explodiu. Sinais de sensores em smartphones e equipamentos industriais, fotos e vídeos digitais, uma torrente digital sem-fim de mídias sociais e várias outras fontes se combinam para nos colocar numa era totalmente sem precedentes de abundância de dados. Cerca de 90% dos dados digitais no mundo atual foi criado somente nos últimos dois anos. Com a promessa crescente da internet das coisas (IoT) de conectar bilhões de novos aparelhos e seus respectivos fluxos de dados, é uma aposta segura afirmar que muito mais dados digitais estarão disponíveis na próxima década.
Algoritmos. A torrente de dados é importante não só porque torna os algoritmos atuais mais eficientes, mas também porque encoraja, sustenta e acelera o desenvolvimento de algoritmos melhores. Os algoritmos e abordagens que estão dominando a disciplina — como aprendizado profundo supervisionado e aprendizado por reforço — compartilham uma propriedade básica vital: seus resultados melhoram à medida que aumenta a quantidade de dados de treinamento que estão produzindo. O desempenho de um algoritmo geralmente estabiliza em algum ponto, depois disso introduzir mais dados produz pouco ou nenhum efeito. Mas isso ainda não parece ser o caso de muitos algoritmos amplamente usados hoje em dia. Ao mesmo tempo, novos algoritmos estão transferindo o aprendizado de uma aplicação para outra, permitindo aprender com menos exemplos.
Hardware de computadores. A lei de Moore — a capacidade dos circuitos integrados dobra consistentemente a cada 18 a 24 meses — comemorou seus 50 anos em 2015, época em que ela ainda vigorava. Algumas pessoas comentaram recentemente que ela está extrapolando os limites da física, por isso deverá desacelerar nos próximos anos. De fato, a velocidade do relógio para os microprocessadores padrão estabilizou. Mas, por uma fortuita coincidência, um tipo de chip de computador relacionado, chamado unidade de processamento gráfico, ou GPU, se mostrou muito eficiente quando aplicado aos cálculos necessários para as redes neurais.
Na verdade, aumentos de velocidade de 10 vezes não são raros quando as redes neurais passam de unidades centrais tradicionais de processamento para GPUs. De início as GPUs foram desenvolvidas para exibir com rapidez interfaces gráficas em aplicações como jogos de computador. Isso significava economia de escala e permitia reduzir os custos unitários, mas um número crescente de GPUs está sendo usado em redes neurais. Como as aplicações de redes neurais se tornaram ainda mais comuns, várias empresas desenvolveram chips otimizados e especializados para essas aplicações, incluindo a unidade de processamento de tensor, ou TPU, da Google. De acordo com Shane Legg, cofundador da DeepMind da Google, uma rodada de treinamento que leva um dia num dispositivo com uma única TPU teria levado 250 mil anos num modelo 80486 da década de 1990. Isso pode mais que decuplicar a melhora de desempenho.
Esses aperfeiçoamentos têm um efeito sinergético acumulativo. Um hardware com mais capacidade permite que os engenheiros testem e desenvolvam melhores algoritmos e, é claro, que as máquinas absorvam conjuntos de dados muito maiores e em tempo razoável. Algumas dessas aplicações que estão sendo resolvidas hoje — converter ondas sonoras da fala em texto compreensível, por exemplo — levariam, literalmente, séculos para rodar num hardware antigo da década de 1990. O sucesso motiva pesquisadores brilhantes a trabalhar na área e mais investidores e executivos a financiar novos empreendimentos.
Ampliando ainda mais essas sinergias estão outras duas tecnologias: redes globais e a nuvem. A internet móvel agora pode entregar tecnologias digitais praticamente em qualquer lugar do planeta, conectando bilhões de clientes potenciais aos avanços da IA. Pense nos assistentes inteligentes que você provavelmente já utiliza em seu smartphone, nas bases de conhecimento digital que as grandes empresas agora compartilham globalmente, nos sistemas colaborativos, como Wikipedia e Kaggle, cujos principais usuários e contribuidores são pessoas brilhantes de fora da organização.
Talvez ainda mais importante seja o potencial de IA baseada na nuvem para acelerar o aprendizado e a difusão. Pense num robô que está em determinado local processando uma tarefa como reconhecimento de um objeto. Uma vez que ele domine a tarefa, estará apto fazer o upload desse conhecimento para a nuvem e compartilhá-lo com outros robôs que usam um sistema de representação de conhecimento compatível (a Rethink Robotics está trabalhando nessa plataforma). Dessa forma, robôs que trabalham independentemente podem, de modo efetivo, reunir dados de centenas, milhares e até milhões de olhos e ouvidos. Se essas informações forem combinadas num único sistema, os robôs podem aprender muito mais rápido e compartilhar seus insights quase instantaneamente.
Por Erik Brynjolfsson e Andrew McAfee