Os limites da análise de dados

Os limites da análise de dados

Dez anos após a crise financeira, os mercados de ações têm atingido novas altas com frequência, e os níveis de volatilidade têm chegado a novos níveis mais baixos. Incentivado pelos muitos triunfos do machine learning, o setor financeiro adotou o big data e os algoritmos com entusiasmo e sucesso. Entretanto, é imprescindível questionar a confiança depositada na nova geração de modelos quantitativos, inovações que podem, segundo alerta William Dudley, “levar ao excesso e colocar o sistema financeiro em risco”.

Há 80 anos, John Maynard Keynes apresentou o conceito de incerteza irredutível, fazendo distinção entre acontecimentos cuja probabilidade pode ser razoavelmente calculada, como o giro de uma roleta, e eventos que se mantêm inerentemente desconhecidos, como a deflagração de uma guerra em um prazo de dez anos.

Hoje, corremos o risco de investidores, operadores e reguladores não compreenderem até que ponto o progresso tecnológico está – ou, mais precisamente, não está – reduzindo a incerteza financeira.

Há duas questões especialmente preocupantes. Em primeiro lugar, há muitas semelhanças inquietantes entre os últimos avanços do aprendizado de máquina, a negociação algorítmica e o crescimento exponencial da engenharia financeira antes da crise. Em segundo, o crescente volume de dados e o avanço na capacidade de processamento não podem ser simplesmente uma fonte de conforto, pois a teoria estatística mostra que o big data não garante a prevenção de grandes problemas.

Assim como ocorre hoje, na década de 1990 e início dos anos 2000, as finanças atraíram muitas das mentes quantitativas mais brilhantes, que geraram extraordinários avanços teóricos e metodológicos. Assim como ocorre hoje, na virada do milênio, a engenharia financeira trouxe grande sucesso comercial: as ferramentas matemáticas desenvolvidas pelo mercado de derivativos geraram negócios, aumentaram os lucros e trouxeram melhores retornos financeiros. Nessa época, eu morava em Nova York, parte de um mundo dinâmico e empreendedor, de modelos probabilísticos avançados e capacidade de processamento inédita. Estávamos acalmando a incerteza financeira ou, pelo menos, era o que pensávamos.

A crise financeira mostrou que essa mentalidade era uma “ilusão quantitativa”, algo que, agora, corremos o risco de repetir. Muitas hipóteses mostraram-se altamente falhas, como as correlações entre os preços dos ativos. Além disso, a base das finanças quantitativas – como os essenciais limites lógicos do preço de títulos – foi destruída. Também ficou claro que os analistas quantitativos haviam calculado muito mal as possíveis consequências e as probabilidades condicionadas dos acontecimentos, que dependiam de o mundo permanecer, de certa forma, inalterado. Tomaram decisões que se mostraram insensatas quando episódios aparentemente impossíveis aconteceram.

Sobretudo, houve ainda uma proliferação do que o estatístico Arthur Dempster chamou de “procedimentalismo”: a aplicação impensada de técnicas sofisticadas, em detrimento do raciocínio qualitativo e do julgamento subjetivo, levando a resultados ilógicos. Por exemplo, os bancos costumavam adotar diferentes modelos de precificação de contratos derivativos, fazendo com que a mesma instituição colocasse dois preços diferentes no mesmo produto.

Um enorme influxo de talento quantitativo, rápidos avanços tecnológicos, explosão de lucros: são as características que o atual mundo das finanças quantitativas atribui ao milênio. Talvez o procedimentalismo seja ainda mais predominante agora, impulsionado pelo amplo sucesso dos algoritmos e pela pressão competitiva por adotá-los, assim como pelo ímpeto regulatório para validar ou “comprovar” modelos com resultados então revestidos de credibilidade irreal.

É verdade que, hoje, com mais dados e maior capacidade de processamento do que havia dez anos atrás, podemos estimar melhor as possíveis consequências. Mas ainda não sabemos até que ponto as probabilidades condicionadas calculadas diferem das probabilidades reais. Ainda não sabemos que hipóteses se confirmarão. Na verdade, assim como acontece no aprendizado profundo (deep learning), conforme os algoritmos ficam mais complexos, torna-se mais difícil identificar suas brechas lógicas ou compreender quando os modelos poderão falhar.

O aprendizado de máquina pode ser muito eficaz nas previsões de curto prazo, usando os dados e mercados que encontramos, mas não é tão útil nas inferências, já que utiliza dados de ciência e de mecanismos de mercado que estão por trás do modelo. Nosso conhecimento sobre mercado ainda é incompleto.

Além disso, talvez o próprio big data não seja tão benéfico, como meu colega de Harvard, Xiao-Li Meng, mostrou recentemente no artigo “Statistical paradises and paradoxes in big data”. Suponhamos que se queiram estimar as características de uma grande fatia da população, por exemplo, o percentual de pessoas que votaram em Donald Trump para presidente dos Estados Unidos, em novembro de 2016. A qualidade da estimativa depende de três variáveis: o volume de dados (quanto mais, melhor), a variação de interesses (se todos forem eleitores de Trump, o problema fica fácil) e a qualidade dos dados. Essa última depende da correlação entre a intenção de voto de uma pessoa e da inclusão ou não de seus dados no estudo. Se os eleitores de Trump tiverem menos probabilidade de ser incluídos, por exemplo, a análise pode ser tendenciosa.

Meng comprova que a qualidade dos dados prevalece sobre sua quantidade em muitos aspectos. Por exemplo, suponhamos que a pesquisa tenha considerado 1% dos eleitores americanos, quase 2,3 milhões de pessoas, e que a probabilidade de um eleitor de Trump havê-la respondido fielmente seja apenas 0,1% menor que a de um eleitor opositor tê-lo feito. Logo, a ampla base de dados oferece uma estimativa menos segura do percentual total de eleitores de Trump quando comparada a uma simples amostra aleatória de apenas 450 pessoas cujas respostas são verídicas.

O alerta para as finanças é gritante. Não importa o tamanho da base de dados; se ela contiver uma representatividade da amostragem com erros sistemáticos, mesmo que mínimos, o big data não evitará grandes problemas. Aqueles que retrocedem à abordagem procedimentalista de aplicar algoritmos complexos e grandes bases de dados a questões desafiadoras são especialmente vulneráveis. Quem pode medir a falta de representatividade dos dados atuais em termos de previsões para o futuro? Mesmo que tenhamos aprendido a lição de que os preços dos imóveis podem, sim, cair simultaneamente em todos os estados, ainda não sabemos que outras suposições estão sendo feitas inconscientemente.

Mais do que nunca, o discernimento – necessariamente subjetivo e baseado em experiências passadas – terá um papel importante na moderação do excesso de confiança nos modelos quantitativos e em seu emprego incorreto. O discernimento para questionar até o mais bem-sucedido dos algoritmos e manter a humildade diante da incerteza irredutível pode marcar a diferença entre a estabilidade financeira e as “terríveis consequências” de uma nova crise.

Por Stephen Blyth