Conversão de voz em texto com tecnologia de machine learning, disponível para áudios de curta e longa duração. O aplicativo do Google ajuda o usuário na produção textual, escrevendo o que se fala, evitando com isso ficar travado na escrita de textos acadêmicos.
Reconhecimento de voz avançado
Com o Cloud Speech-to-Text, os desenvolvedores convertem áudio em texto ao aplicar modelos de rede neural avançados em uma API fácil de usar. A API reconhece 120 idiomas e variantes para oferecer suporte à sua base de usuários global. Ative o comando e o controle de voz, transcreva áudio de call centers e muito mais. Além disso, essa API processa streaming em tempo real ou áudio pré-gravado usando a tecnologia de machine learning do Google.
Transcrição de texto em tempo real para áudio de curta e longa duração
A Cloud Speech-to-Text é capaz de fazer streaming dos resultados, ou seja, ela retorna o texto no momento em que ele é reconhecido a partir do streaming de áudio ou durante a fala do usuário. A Cloud Speech-to-Text também pode retornar texto reconhecido de áudios armazenados em arquivo. Com essa API, é possível analisar áudio de curta e longa duração.
Transcrição automática de nomes próprios e formatação do contexto
A Cloud Speech-to-Text é personalizada para conseguir lidar com situações de fala reais e transcrever nomes próprios corretamente (como Sundar Pichai), bem como aplicar a formatação adequada para o idioma (como datas e números de telefone). O Google reconhece 10 vezes mais nomes próprios do que o número de palavras contidas em todo o dicionário Oxford de inglês.