Mejoramiento de los modelos integrales para el reconocimiento de voz

Publicado por Tara N. Sainath, científica investigadora, equipo de voz, y Yonghui Wu, ingeniero de software, equipo de ideas de Google.

Los sistemas de reconocimiento de voz automáticos (ASR) tradicionales, que se usan para diferentes aplicaciones de búsqueda por voz en Google, constan de un modelo acústico (AM), un modelo de pronunciación (PM) y un modelo de idioma (LM), que se preparan individualmente y, por lo general, se diseñan manualmente, en diferentes conjuntos de datos [1]. Los AM toman funciones acústicas y predicen un conjunto de unidades de subpalabras; normalmente, fonemas dependientes e independientes del contexto.

Leer el artículo completo en https://developers-latam.googleblog.com/2018/02/mejoramiento-de-los-modelos-integrales.html