John Flynn vient du monde du cinéma, ayant travaillé dans le pipeline de montage de superproductions hollywoodiennes comme la série Harry Potter, The Dark Knight et Bohemian Rhapsody.
Zeena Qureshi a des années d'expérience dans la vente dans le domaine de la technologie startups. Elle avait également une formation dans l'enseignement de l'orthophonie aux enfants autistes, ce qui lui a donné une perspective différente de l'expertise de la parole. Le duo est devenu de bons amis lors de leur passage chez Talent Investor Entrepreneur First.
"Chez Entrepreneur First, John et moi étions d'abord amis, mais alors que le programme touchait à sa fin, John m'a montré cette incroyable démo d'une voix artificielle qui sonnait parfaitement. Vous pouviez même entendre le souffle, je ne pouvais pas y croire », mentionne Qureshi dans un article de blog officiel.
« Nous savions que les solutions actuelles de synthèse vocale semblaient robotiques, manquant de performances et de qualité naturelles. Nous savions aussi que la synthèse vocale était très subjective, contrairement à la reconnaissance vocale, qui est plus objective. Nous avons donc décidé de résoudre ce problème », ajoute-t-elle.
Doté du sens technique de Flynn et du sens des affaires de Qureshi, le duo a fondé Sonantique dès 2018.
Hier, la société basée au Royaume-Uni startup a lancé la première technologie vocale basée sur l'IA avec une véritable profondeur émotionnelle, transmettant des émotions humaines complexes allant de la peur et de la tristesse à la joie et à la surpriserise.
Capter les nuances de la voix humaine
Selon l'entreprise, son approche s'appuie sur le cadre existant de la synthèse vocale, différenciant ainsi une voix robotique standard d'une voix véritablement humaine. "La création de ce facteur de" crédibilité "est au cœur de la plate-forme vocale de Sonantic, qui capture les nuances de la voix humaine", mentionne Sonantic dans un communiqué de presse.
Sonantic s'associe à des acteurs expérimentés pour créer des modèles vocaux. Les clients peuvent choisir parmi des modèles de voix existants ou travailler avec Sonantic pour créer des voix personnalisées pour des personnages uniques. Les scripts de projet sont ensuite téléchargés sur la plate-forme de Sonantic, où l'audio d'un client team peut choisir parmi une variété d'options de synthèse vocale haute fidélité, y compris la hauteur, le rythme, la projection et un éventail d'émotions, affirme la société.
Notamment, les acteurs reçoivent une part des bénéfices chaque fois que leur modèle vocal est utilisé dans un projet.
Partenariat Obsidienne
Sonantic s'est également associé à Obsidian, un AAA gaming studio et filiale de Xbox Game Studios, pour tester cette technologie. Il a également publié une vidéo de démonstration mettant en évidence ce partenariat afin de démontrer sa technologie de voix à la demande.
"Travaillant dans le développement de jeux, nous pourrions envoyer un script via l'API de Sonantic - et ce que nous obtiendrions en retour n'est plus seulement un dialogue robotique : c'est une conversation humaine. Cette technologie peut dynamiser notre processus créatif et, en fin de compte, nous aider à raconter notre histoire », déclare Justin E. Bell, directeur audio d'Obsidian Entertainment. La société affirme que le gaming les délais de production du studio et les coûts associés seraient réduits grâce à cette nouvelle capacité.
Premier cri
Le lancement officiel de la société fait suite à la version bêta de l'année dernière, qui a été capturée dans une vidéo intitulée "Faith : la première IA qui peut pleurer".
Les deux cofondateurs s'accordent à dire qu'entendre ce cri a été un moment incroyable pour leur team l'année dernière. Le duo pense que le lancement du spectre complet des émotions humaines est une étape passionnante non seulement pour eux, mais aussi pour l'industrie du divertissement. « Les possibilités pour les studios sont infinies. Avec une technologie aussi complète, elle les libère pour expérimenter des scripts et produire du travail dans un délai sans précédent, convertissant des mois de travail en minutes », mentionnent les co-fondateurs dans une déclaration commune.
La mission ultime de l'entreprise est de travailler avec des studios et des acteurs professionnels pour créer les produits de divertissement du futur.
Créer une entreprise en six semaines
Selon Qureshi, lors de la création de Sonantic, le temps était compté. "Le programme (Entrepreneur First) dure six mois, et les deux premiers consistent à trouver votre teamcopain. John et moi étions contre la montre parce que nous nous sommes rencontrés le dernier jour de team bâtiment et avons eu un mois pour prouver notre entreprise avant de passer devant le comité d'investissement. Le moment était difficile car Noël était en plein milieu, mais nous avons utilisé cela à notre avantage.
"John a créé une démo en direct que je pouvais partager avec les clients et les investisseurs. En six semaines, nous avons réussi à fonder une entreprise, à construire un prototype et, surtout, à embarquer plusieurs clients pilotes AAA », ajoute-t-elle.
L'algorithme
Parlant de l'algorithme de l'entreprise, Flynn, co-fondateur et CTO de Sonantic, raconte Silicon Canals, « Nous avons développé nos algorithmes pour nous concentrer sur les nuances et les subtilités de la voix humaine qui manquent à la plupart des algorithmes. Le diable est dans les détails, nous avons donc fait beaucoup de travail pour nous assurer que les petites choses sont cartographiées et calculées, comme un tremblement de voix pour la tristesse, un effort pour la colère et des modèles de tonalité variés (pour n'en nommer que quelques-uns).
Il poursuit : « Même un auditeur occasionnel est très sensible aux petits changements dans la qualité de la voix. C'est ce qui nous permet de savoir si quelqu'un est légèrement sarcastique ou mortellement sérieux, donc modéliser des détails microscopiques est essentiel pour faire la voix d'un grand acteur, justice.
Les sources de données pour la formation de l'algorithme proviennent des acteurs via un moteur vocal qui aide les acteurs à former leurs propres modèles. Notamment, la société prétend s'assurer que ses algorithmes ne sont jamais formés sur des données accessibles au public sans l'autorisation du propriétaire de la voix.
Alors, qu'est-ce que l'algorithme apprend lorsqu'il rencontre des données ?
« Les algorithmes apprennent d'abord à parler en général ; par exemple, produire à peu près les bons sons de voyelle et de consonne. Puis au fur et à mesure de la formation, les modèles apprennent à mieux prononcer ; par exemple, les t et les d commencent à devenir plus nets. Jusqu'à présent, c'est similaire à la façon dont un enfant apprend. À partir de là, des choses plus subtiles comme les inflexions de hauteur, les éléments émotionnels sont modélisés », explique Flynn.
"À ce stade ultérieur, les modèles commencent à ressembler exactement à l'acteur sur lequel le modèle était basé. Nous travaillons avec des acteurs fantastiques qui sont des interprètes très talentueux ; ils forment la base de chaque modèle », explique-t-il en outre.
Sonantic a déposé trois brevets pour sa technologie.
Le modèle économique de Sonantic
L'entreprise a une entreprise B2Brise Saas (Software-en tant que service). Sonantic concède sa technologie sous licence uniquement aux studios de divertissement. En fonction du volume de texte à rendre, la plate-forme propose différents niveaux de licence.
En outre, l'autre source de revenus de Sonantic consiste à créer des modèles vocaux personnalisés pour ses clients. La société affirme avoir plus de 1000 entreprises sur sa liste d'attente.
La poursuite du développement
Qureshi a déclaré à SC : "Nous continuerons à créer davantage de voix, de fonctionnalités avec des commandes et de langues, car les possibilités de dialogue sont infinies."
La société prévoit de commencer à construire la prochaine génération de voix avec ses partenaires de studio pour aller au-delà de ce qui est possible actuellement, comme la génération de contenu à la volée.
Par exemple, si un personnage court dans un jeu, il doit sembler essoufflé et réagir comme un humain le ferait à son état d'être et à son environnement.
Sonantic à la recherche de talents
La société compte 12 employés, dont Flynn en tant que co-fondateur et CTO, et Qureshi en tant que co-fondateur et PDG. Le team comprises trois chercheurs en apprentissage profond de la parole; trois ingénieurs; une actrice à plein temps, une directrice de casting et de performance ; un VP des clients ; et un associé aux opérations. Flynn gère la technologie team, y compris la recherche, le jeu d'acteur et l'ingénierie, tandis que Qureshi travaille avec l'entreprise team sur les clients, la stratégie, le marketing et les ventes.
L'entreprise embauche actuellement des chercheurs et des ingénieurs de la parole talentueux, en particulier ceux qui ont de l'expérience dans cette technologie de niche.
En mars 2020, la société avait sécurisé 2.3 M € dans un cycle de financement dirigé par EQT Ventures avec la participation de bailleurs de fonds existants tels que Entrepreneur First, AME Cloud Ventures et Bart Swanson d'Horizon Ventures.