John Flynn proviene del mundo del cine, habiendo trabajado en la tubería de edición de éxitos de taquilla de Hollywood como la serie de Harry Potter, The Dark Knight y Bohemian Rhapsody.
Zeena Qureshi tiene años de experiencia en ventas en tecnología startups. También tenía experiencia en la enseñanza de terapia del habla y el lenguaje a niños con autismo, lo que le dio una perspectiva diferente de la experiencia del habla. El dúo se hizo buenos amigos durante su paso por Talent Investor Entrepreneur First.
“En Entrepreneur First, John y yo éramos amigos primero, pero cuando el programa llegaba a su fin, John me mostró esta increíble demostración de una voz artificial que sonaba perfecta. Incluso podías escuchar la respiración, no podía creerlo”, menciona Qureshi en una publicación de blog oficial.
“Sabíamos que las soluciones actuales de conversión de texto a voz sonaban robóticas, carentes de calidad y rendimiento naturales. También sabíamos que la síntesis de voz era muy subjetiva, a diferencia del reconocimiento de voz, que es más objetivo. Así que nos propusimos solucionar este problema”, agrega.
Equipados con la perspicacia técnica de Flynn y la perspicacia comercial de Qureshi, el dúo fundó Sonantico en el 2018.
Ayer, la empresa con sede en el Reino Unido startup lanzó la primera tecnología de voz impulsada por IA con verdadera profundidad emocional, que transmite emociones humanas complejas desde el miedo y la tristeza hasta la alegría y la sorpresarise.
Capturando los matices de la voz humana
Según la empresa, su enfoque se basa en el marco existente de texto a voz, lo que diferencia una voz robótica estándar de una que suena genuinamente humana. "Crear ese factor de 'credibilidad' es el núcleo de la plataforma de voz de Sonantic, que captura los matices de la voz humana", menciona Sonantic en un comunicado de prensa.
Sonantic se asocia con actores experimentados para crear modelos de voz. Los clientes pueden elegir entre modelos de voz existentes o trabajar con Sonantic para crear voces personalizadas para personajes únicos. Luego, los guiones del proyecto se cargan en la plataforma de Sonantic, donde el audio de un cliente team puede elegir entre una variedad de opciones de síntesis de voz de alta fidelidad, que incluyen tono, ritmo, proyección y una variedad de emociones, afirma la compañía.
En particular, los actores reciben una participación en las ganancias cada vez que se usa su modelo de voz en un proyecto.
Asociación de obsidiana
Sonantic también se ha asociado con Obsidian, un AAA gaming studio y subsidiaria de Xbox Game Studios, para probar esta tecnología. También lanzó un video de demostración que destaca esta asociación para demostrar su tecnología de voz bajo demanda.
“Trabajando en el desarrollo de juegos, podríamos enviar un guión a través de la API de Sonantic, y lo que obtendríamos ya no es solo un diálogo robótico: es una conversación humana. Esta tecnología puede potenciar nuestro proceso creativo y, en última instancia, ayudarnos a contar nuestra historia”, dice el director de audio de Obsidian Entertainment, Justin E. Bell. La empresa afirma que el gaming Los plazos de producción del estudio y los costos asociados se reducirían drásticamente a través de esta nueva capacidad.
Primer llanto
El lanzamiento oficial de la compañía sigue al lanzamiento beta del año pasado, que fue capturado en un video titulado "Faith: The First AI That Can Cry".
Ambos cofundadores coinciden en que escuchar ese grito fue un momento increíble para su team el año pasado. El dúo cree que el lanzamiento del espectro completo de las emociones humanas es un hito emocionante no solo para ellos, sino también para la industria del entretenimiento. “Las posibilidades para los estudios son infinitas. Con una tecnología tan completa, los libera para experimentar con guiones y producir trabajo en un marco de tiempo sin precedentes, convirtiendo meses de trabajo en minutos”, mencionan los cofundadores en un comunicado conjunto.
La misión principal de la compañía es trabajar con estudios y actores profesionales para construir los productos de entretenimiento del futuro.
Crear una empresa en seis semanas
Según Qureshi, mientras establecía Sonantic, el tiempo era esencial. “El programa (Primero Emprendedor) tiene una duración de seis meses, y los dos primeros se tratan de encontrar tu teamcompañero. John y yo estábamos contrarreloj porque nos conocimos el último día de team edificio y tuvimos un mes para demostrar nuestro negocio antes de presentarnos ante el comité de inversiones. El momento fue difícil ya que la Navidad estaba justo en el medio, pero lo usamos a nuestro favor”.
“John creó una demostración en vivo que pude compartir con clientes e inversores. En seis semanas, logramos fundar una empresa, construir un prototipo y, lo que es más importante, incorporar a varios clientes piloto AAA”, agrega.
El Algoritmo
Hablando sobre el algoritmo de la empresa, Flynn, cofundador y CTO de Sonantic, cuenta Silicon Canals, “Hemos desarrollado nuestros algoritmos para enfocarnos en los matices y sutilezas de la voz humana que la mayoría de los algoritmos pasan por alto. El diablo está en los detalles, por lo que hemos trabajado mucho para asegurarnos de que las cosas pequeñas estén mapeadas y calculadas, como un temblor de voz para la tristeza, el esfuerzo para la ira y patrones de tono variados (por nombrar algunos)”.
Continúa: “Incluso un oyente casual es muy sensible a los pequeños cambios en la calidad de la voz. Eso es lo que nos permite saber si alguien está siendo ligeramente sarcástico o mortalmente serio, por lo que modelar detalles microscópicos es clave para hacer justicia a la voz de un gran actor”.
Las fuentes de datos para entrenar el algoritmo provienen de los actores a través de un motor de voz que ayuda a los actores a entrenar sus propios modelos. En particular, la compañía afirma asegurarse de que sus algoritmos nunca se entrenen con datos disponibles públicamente sin el permiso del propietario de la voz.
Entonces, ¿qué está aprendiendo el algoritmo cuando encuentra datos?
“Los algoritmos primero aprenden a hablar en general; por ejemplo, hacer aproximadamente los sonidos correctos de vocales y consonantes. Luego, a medida que avanza el entrenamiento, los modelos aprenden a pronunciar mejor; por ejemplo, las t y las d empiezan a ser más nítidas. Hasta este punto, es similar a la forma en que aprende un niño. A partir de aquí, se modelan cosas más sutiles como inflexiones de tono y elementos emocionales”, explica Flynn.
“En esta etapa posterior, los modelos comienzan a sonar exactamente como el actor en el que se basó el modelo. Trabajamos con actores fantásticos que son intérpretes muy talentosos; forman la base de cada modelo”, explica además.
Sonantic ha solicitado tres patentes para su tecnología.
El modelo de negocio de Sonantic
La empresa tiene una empresa B2Brise Saas (Software-como-un-servicio) modelo. Sonantic otorga licencias de su tecnología estrictamente solo a estudios de entretenimiento. Dependiendo del volumen de texto a representar, la plataforma ofrece diferentes niveles de licencia.
Además, la otra fuente de ingresos de Sonantic es la creación de modelos de voz personalizados para sus clientes. La compañía afirma tener más de 1000 empresas en su lista de espera.
Desarrollo posterior
Qureshi le dice a SC: "Continuaremos desarrollando más voces, funciones con controles e idiomas, ya que las posibilidades de diálogo son infinitas".
La compañía tiene planes de comenzar a construir la próxima generación de voz con sus socios de estudio para ir más allá de lo que es posible ahora, como la generación de contenido en tiempo de ejecución sobre la marcha.
Por ejemplo, si un personaje está corriendo en un juego, debería sonar sin aliento y reaccionar como lo haría un humano a su estado de ser y entorno.
Sonantic en busca de talentos
La empresa tiene 12 empleados, incluido Flynn como cofundador y director de tecnología, y Qureshi como cofundador y director ejecutivo. El team comprises tres investigadores del habla de aprendizaje profundo; tres ingenieros; una actriz de tiempo completo, un director de casting y actuación; un vicepresidente de clientes; y un asociado de operaciones. Flynn gestiona la tecnología. team, que incluye investigación, actuación e ingeniería, mientras que Qureshi trabaja con el negocio team en clientes, estrategia, marketing y ventas.
Actualmente, la compañía está contratando investigadores e ingenieros de voz talentosos, particularmente aquellos con experiencia en esta tecnología de nicho.
En marzo de 2020, la empresa había 2.3 millones de euros asegurados en una ronda de financiación dirigida por EQT Ventures junto con la participación de patrocinadores existentes como Entrepreneur First, AME Cloud Ventures y Bart Swanson de Horizon Ventures.