Google Cloud disponibiliza ferramenta que converte texto em voz

Google Cloud disponibiliza ferramenta que converte texto em voz

O Google Cloud anun­ciou recen­te­mente a disponi­bil­i­dade ger­al da fer­ra­men­ta de con­ver­são de tex­to para voz Text-to-Speech, que foi disponi­bi­liza­da ao públi­co ini­cial­mente há alguns meses.

Entre out­ras coisas, a solução gan­hou 17 novas vozes, incluin­do por­tuguês, inglês (EUA) e espan­hol, que per­mitem a cri­ação de aplica­tivos em idiomas vari­a­dos, como anun­ci­a­do no even­to Cloud Next’ 18, em jul­ho.

No total, a API ago­ra ofer­ece 56 vozes em 14 idiomas e vari­antes, sendo 30 delas padrão e 26 delas WaveNet (pro­du­to da Deep­Mind), capazes de imi­tar vozes humanas e sons nat­u­rais, o que per­mite uma mel­hor exper­iên­cia aos usuários.

Audio Pro­files

O Google Cloud tam­bém rev­el­ou que o recur­so Audio Pro­files ago­ra tam­bém está disponív­el. Com a novi­dade, o usuário pode otimizar a repro­dução dos áudios Text-to-Speech nos difer­entes tipos de equipa­men­tos, como fones de ouvi­do, alto-falantes e lin­has tele­fôni­cas.

“Por exem­p­lo, se o áudio que o seu aplica­ti­vo pro­duz é ouvi­do prin­ci­pal­mente em fones de ouvi­do, você pode cri­ar uma voz sin­téti­ca a par­tir da API Cloud Text-to-Speech que seja otimiza­da especi­fi­ca­mente para fones de ouvi­do”, expli­ca o Google em um post no seu blog sobre as novi­dades.

Novas funções do Speech-to-Text

Além dis­so, o Google tam­bém anun­ciou novas atu­al­iza­ções beta para o serviço que trans­for­ma voz em tex­to Speech-to-Text, incluin­do recon­hec­i­men­to mul­ti­canal, diariza­ção de alto-falante e detecção automáti­ca de idiomas, todas anun­ci­adas durante o Google Cloud Next’ 18.

Entre out­ras coisas, essas funções pos­si­bili­tam a tran­scrição de vários canais de áudio com iden­ti­fi­cação de vozes, de modo a reg­is­trar quais palavras foram ditas por quem.

E nos casos em que as amostras de áudio que não são sep­a­radas em canais, como em uma palestra, por exem­p­lo, o Google disponi­bi­liza a chama­da diariza­ção. Para usá-la, bas­ta inserir o número de pes­soas falantes como parâmetro à API e, por meio de apren­diza­gem de máquina (Machine Learn­ing), a fer­ra­men­ta elab­o­ra uma cat­e­go­ria de cada palavra com um número e, na tran­scrição, con­segue iden­ti­ficar o falante de maneira asserti­va.

Posts Similares