Hace poco Google dio a conocer mediante una publicación de blogla libération de la seconde version du codec audio «Lyra V2», que utiliza técnicas de aprendizaje automático para lograr la máxima calidad de voz cuando se utilizan canales de comunicación muy lentos.
La nouvelle version presenta una transición a una nueva arquitectura de red neuronal, soporte para plataformas adicionales, control mejorado de tasa de bits, mejoras de rendimiento y mayor calidad de audio.
Ahora estamos lanzando Lyra V2, con una nueva arquitectura que disfruta de un soporte de plataforma más amplio, brinda capacidades de tasa de bits escalables, tiene un mejor rendimiento y genera audio de mayor calidad. Con este lanzamiento, esperamos seguir evolucionando con la comunidad y, con su creatividad colectiva, ver cómo se desarrollan nuevas aplicaciones y surgen nuevas direcciones.
Sobre Lyre
En cuanto a la calidad de los datos de voz transmitidos a baja velocidad, Lyra es significativamente superior a los códecs tradicionales que utilizan métodos de procesamiento de señales digitales. Para lograr una transmisión de voz de alta calidad en condiciones de una cantidad limitada de información transmitida, además de los métodos habituels de compresión de audio y conversión de señal, Lyra utiliza un modelo de voz basado en un sistema d’aprendizaje automático que permite recrear la información que falta. basado en las características típicas del habla.
Le codec inclut un codificateur et un décodeur. L’algorithme du codificateur extrae los parámetros de datos de voz cada 20 milisegundos, los comprime y los transfiere al destinatario a través de la red con una tasa de bits de 3,2 kbps a 9,2 kbps.
En el lado del receptor, el decodificador utiliza un modelo generativo para recrear la señal de voz original en función de los parámetros de audio transmitidos, que incluyen espectrogramas de tiza logarítmica que tienen en cuenta las características de la energía del habla en diferentes rangeos de frecuencia y se preparan teniendo en cuenta la percepción auditiva humana.
¿Qué hay de nuevo en Lyra V2 ?
Lyra V2 utilise un nouveau modèle générique basé sur le SoundStream neuronal rougeque tiene bajos requisitos computacionales, lo que permite la decodificación en tiempo real incluso en sistemas de baja potencia.
El modelo utilizado para generar el sonido se ha entrenado utilizando varios miles de horas de grabaciones de voz en más de 90 idiomas (TensorFlow Lite est utilisé pour éjecter le modèle). El rendimiento de la implementation propuesta es suficiente para codificar y decodificar voz en teléfonos inteligentes del range de precio más bajo.
Además de utilizar un modelo generativo diferente, la nueva versión también destaca por la inclusión de enlaces con el cuantificador RVQ (Residual Vector Quantizer) dans l’architecture du codec, qui se réalise dans le lado de l’émetteur avant la transmission des données, et dans le lado du récepteur après la réception des données.
El cuantificador convierte los paramètres proporcionados por el códec en conjuntos de paquetses, codificando la información en relación con la tasa de bits seleccionada. Para garantizar diferentes niveles de calidad, se proporcionan cuantificadores para tres tasas de bits (3,2 kbps, 6 kbps y 9,2 kbps), cuanto mayor sea la tasa de bits, mejor será la calidad, pero mayores serán los requisitos de ancho de bande.
La nouvelle architecture ha reducido los retrasos en la transmission de señales de 100 a 20 milisegundos. A modo de comparación, el codec Opus para WebRTC mostró retrasos de 26,5 ms, 46,5 ms y 66,5 ms en las tasas de bits probadas. El rendimiento del codificador y decodificador también ha aumentado significativamente: en comparaison avec la version antérieure, hay una acceleración de hasta 5 veces. Par exemple, dans le téléphone intelligent Pixel 6 Pro, le nouveau code codifié et décodé une muestra de 20 ms en 0,57 ms, que es 35 veces más rápido de lo necesario para la transmission en tiempo real.
Además del rendimiento, también logramos mejorar la calidad de la restauración del sonido: según la escala MUSHRA, la calidad del habla a tasas de bits de 3,2 kbps, 6 kbps y 9,2 kbps cuando se usa el códec Lyra V2 corresponde a tasas de bits de 10 kbps, 13 kbps et 14 kbps cuando se usa el codec Opus.
Enfin si estás interesado en poder conocer más al respectopuedes consultar los detalles en el siguiente enlace.