Os limites da análise de dados

Os limites da análise de dados

Dez anos após a crise finan­ceira, os mer­ca­dos de ações têm atingi­do novas altas com fre­quên­cia, e os níveis de volatil­i­dade têm chega­do a novos níveis mais baixos. Incen­ti­va­do pelos muitos tri­un­fos do machine learn­ing, o setor finan­ceiro ado­tou o big data e os algo­rit­mos com entu­si­as­mo e suces­so. Entre­tan­to, é impre­scindív­el ques­tionar a con­fi­ança deposi­ta­da na nova ger­ação de mod­e­los quan­ti­ta­tivos, ino­vações que podem, segun­do aler­ta William Dud­ley, “levar ao exces­so e colo­car o sis­tema finan­ceiro em risco”.

Há 80 anos, John May­nard Keynes apre­sen­tou o con­ceito de incerteza irre­dutív­el, fazen­do dis­tinção entre acon­tec­i­men­tos cuja prob­a­bil­i­dade pode ser razoavel­mente cal­cu­la­da, como o giro de uma role­ta, e even­tos que se man­têm iner­ente­mente descon­heci­dos, como a defla­gração de uma guer­ra em um pra­zo de dez anos.

Hoje, cor­re­mos o risco de investi­dores, oper­adores e reg­u­ladores não com­preen­derem até que pon­to o pro­gres­so tec­nológi­co está – ou, mais pre­cisa­mente, não está – reduzin­do a incerteza finan­ceira.

Há duas questões espe­cial­mente pre­ocu­pantes. Em primeiro lugar, há muitas semel­hanças inqui­etantes entre os últi­mos avanços do apren­diza­do de máquina, a nego­ci­ação algo­rít­mi­ca e o cresci­men­to expo­nen­cial da engen­haria finan­ceira antes da crise. Em segun­do, o cres­cente vol­ume de dados e o avanço na capaci­dade de proces­sa­men­to não podem ser sim­ples­mente uma fonte de con­for­to, pois a teo­ria estatís­ti­ca mostra que o big data não garante a pre­venção de grandes prob­le­mas.

Assim como ocorre hoje, na déca­da de 1990 e iní­cio dos anos 2000, as finanças atraíram muitas das mentes quan­ti­ta­ti­vas mais bril­hantes, que ger­aram extra­ordinários avanços teóri­cos e metodológi­cos. Assim como ocorre hoje, na vira­da do milênio, a engen­haria finan­ceira trouxe grande suces­so com­er­cial: as fer­ra­men­tas matemáti­cas desen­volvi­das pelo mer­ca­do de deriv­a­tivos ger­aram negó­cios, aumen­taram os lucros e troux­er­am mel­hores retornos finan­ceiros. Nes­sa época, eu mora­va em Nova York, parte de um mun­do dinâmi­co e empreende­dor, de mod­e­los prob­a­bilís­ti­cos avança­dos e capaci­dade de proces­sa­men­to inédi­ta. Está­va­mos acal­man­do a incerteza finan­ceira ou, pelo menos, era o que pen­sá­va­mos.

A crise finan­ceira mostrou que essa men­tal­i­dade era uma “ilusão quan­ti­ta­ti­va”, algo que, ago­ra, cor­re­mos o risco de repe­tir. Muitas hipóte­ses mostraram-se alta­mente fal­has, como as cor­re­lações entre os preços dos ativos. Além dis­so, a base das finanças quan­ti­ta­ti­vas – como os essen­ci­ais lim­ites lógi­cos do preço de títu­los – foi destruí­da. Tam­bém ficou claro que os anal­is­tas quan­ti­ta­tivos havi­am cal­cu­la­do muito mal as pos­síveis con­se­quên­cias e as prob­a­bil­i­dades condi­cionadas dos acon­tec­i­men­tos, que depen­di­am de o mun­do per­manecer, de cer­ta for­ma, inal­ter­ado. Tomaram decisões que se mostraram insen­sa­tas quan­do episó­dios aparente­mente impos­síveis acon­te­ce­r­am.

Sobre­tu­do, hou­ve ain­da uma pro­lif­er­ação do que o estatís­ti­co Arthur Demp­ster chamou de “pro­ced­i­men­tal­is­mo”: a apli­cação impen­sa­da de téc­ni­cas sofisti­cadas, em detri­men­to do raciocínio qual­i­ta­ti­vo e do jul­ga­men­to sub­je­ti­vo, levan­do a resul­ta­dos ilógi­cos. Por exem­p­lo, os ban­cos cos­tu­mavam ado­tar difer­entes mod­e­los de pre­ci­fi­cação de con­tratos deriv­a­tivos, fazen­do com que a mes­ma insti­tu­ição colo­casse dois preços difer­entes no mes­mo pro­du­to.

Um enorme influxo de tal­en­to quan­ti­ta­ti­vo, rápi­dos avanços tec­nológi­cos, explosão de lucros: são as car­ac­terís­ti­cas que o atu­al mun­do das finanças quan­ti­ta­ti­vas atribui ao milênio. Talvez o pro­ced­i­men­tal­is­mo seja ain­da mais pre­dom­i­nante ago­ra, impul­sion­a­do pelo amp­lo suces­so dos algo­rit­mos e pela pressão com­pet­i­ti­va por adotá-los, assim como pelo ímpeto reg­u­latório para val­i­dar ou “com­pro­var” mod­e­los com resul­ta­dos então revesti­dos de cred­i­bil­i­dade irre­al.

É ver­dade que, hoje, com mais dados e maior capaci­dade de proces­sa­men­to do que havia dez anos atrás, podemos esti­mar mel­hor as pos­síveis con­se­quên­cias. Mas ain­da não sabe­mos até que pon­to as prob­a­bil­i­dades condi­cionadas cal­cu­ladas difer­em das prob­a­bil­i­dades reais. Ain­da não sabe­mos que hipóte­ses se con­fir­marão. Na ver­dade, assim como acon­tece no apren­diza­do pro­fun­do (deep learn­ing), con­forme os algo­rit­mos ficam mais com­plex­os, tor­na-se mais difí­cil iden­ti­ficar suas bre­chas lóg­i­cas ou com­preen­der quan­do os mod­e­los poderão fal­har.

O apren­diza­do de máquina pode ser muito efi­caz nas pre­visões de cur­to pra­zo, usan­do os dados e mer­ca­dos que encon­tramos, mas não é tão útil nas infer­ên­cias, já que uti­liza dados de ciên­cia e de mecan­is­mos de mer­ca­do que estão por trás do mod­e­lo. Nos­so con­hec­i­men­to sobre mer­ca­do ain­da é incom­ple­to.

Além dis­so, talvez o próprio big data não seja tão bené­fi­co, como meu cole­ga de Har­vard, Xiao-Li Meng, mostrou recen­te­mente no arti­go “Sta­tis­ti­cal par­adis­es and para­dox­es in big data”. Supon­hamos que se queiram esti­mar as car­ac­terís­ti­cas de uma grande fatia da pop­u­lação, por exem­p­lo, o per­centu­al de pes­soas que votaram em Don­ald Trump para pres­i­dente dos Esta­dos Unidos, em novem­bro de 2016. A qual­i­dade da esti­ma­ti­va depende de três var­iáveis: o vol­ume de dados (quan­to mais, mel­hor), a vari­ação de inter­ess­es (se todos forem eleitores de Trump, o prob­le­ma fica fácil) e a qual­i­dade dos dados. Essa últi­ma depende da cor­re­lação entre a intenção de voto de uma pes­soa e da inclusão ou não de seus dados no estu­do. Se os eleitores de Trump tiverem menos prob­a­bil­i­dade de ser incluí­dos, por exem­p­lo, a análise pode ser ten­den­ciosa.

Meng com­pro­va que a qual­i­dade dos dados prevalece sobre sua quan­ti­dade em muitos aspec­tos. Por exem­p­lo, supon­hamos que a pesquisa ten­ha con­sid­er­a­do 1% dos eleitores amer­i­canos, quase 2,3 mil­hões de pes­soas, e que a prob­a­bil­i­dade de um eleitor de Trump havê-la respon­di­do fiel­mente seja ape­nas 0,1% menor que a de um eleitor opos­i­tor tê-lo feito. Logo, a ampla base de dados ofer­ece uma esti­ma­ti­va menos segu­ra do per­centu­al total de eleitores de Trump quan­do com­para­da a uma sim­ples amostra aleatória de ape­nas 450 pes­soas cujas respostas são verídi­cas.

O aler­ta para as finanças é gri­tante. Não impor­ta o taman­ho da base de dados; se ela con­tiv­er uma rep­re­sen­ta­tivi­dade da amostragem com erros sis­temáti­cos, mes­mo que mín­i­mos, o big data não evi­tará grandes prob­le­mas. Aque­les que retro­ce­dem à abor­dagem pro­ced­i­men­tal­ista de aplicar algo­rit­mos com­plex­os e grandes bases de dados a questões desafi­ado­ras são espe­cial­mente vul­neráveis. Quem pode medir a fal­ta de rep­re­sen­ta­tivi­dade dos dados atu­ais em ter­mos de pre­visões para o futuro? Mes­mo que ten­hamos apren­di­do a lição de que os preços dos imóveis podem, sim, cair simul­tane­a­mente em todos os esta­dos, ain­da não sabe­mos que out­ras suposições estão sendo feitas incon­scien­te­mente.

Mais do que nun­ca, o dis­cern­i­men­to – nec­es­sari­a­mente sub­je­ti­vo e basea­do em exper­iên­cias pas­sadas – terá um papel impor­tante na mod­er­ação do exces­so de con­fi­ança nos mod­e­los quan­ti­ta­tivos e em seu emprego incor­re­to. O dis­cern­i­men­to para ques­tionar até o mais bem-suce­di­do dos algo­rit­mos e man­ter a humil­dade diante da incerteza irre­dutív­el pode mar­car a difer­ença entre a esta­bil­i­dade finan­ceira e as “ter­ríveis con­se­quên­cias” de uma nova crise.

Por Stephen Blyth

Posts Similares