John Flynn komt uit de filmwereld en heeft gewerkt aan de montagepijplijn van Hollywood-blockbusters zoals de Harry Potter-serie, The Dark Knight en Bohemian Rhapsody.
Zeena Qureshi heeft jarenlange verkoopervaring bij tech startupS. Ze had ook een achtergrond in het onderwijzen van spraak- en taaltherapie aan kinderen met autisme, wat haar een ander perspectief op spraakexpertise gaf. Het duo werd goede vrienden tijdens hun periode bij Talent-investeerder Entrepreneur First.
โBij Entrepreneur First waren John en ik eerst vrienden, maar toen het programma ten einde liep, liet John me deze ongelooflijke demo zien van een kunstmatige stem die perfect klonk. Je kon zelfs de adem horen, ik kon het niet gelovenโ, vermeldt Qureshi in een officiรซle blogpost.
โWe wisten dat de huidige tekst-naar-spraak-oplossingen robotachtig klonken, zonder natuurlijke prestaties en kwaliteit. We wisten ook dat spraaksynthese erg subjectief is, in tegenstelling tot spraakherkenning, die objectiever is. Dus wilden we dit probleem oplossenโ, voegt ze eraan toe.
Uitgerust met het technische inzicht van Flynn en de zakelijke kennis van Qureshi, richtte het duo op Sonantisch in 2018.
Gisteren, de UK-based startup lanceerde de eerste door AI aangedreven spraaktechnologie met echte emotionele diepgang, die complexe menselijke emoties overbrengt, van angst en verdriet tot vreugde en verbazingrise.
De nuances van de menselijke stem vastleggen
Volgens het bedrijf is de aanpak gebaseerd op het bestaande raamwerk van tekst-naar-spraak, waardoor een standaard robotstem wordt onderscheiden van een stem die echt menselijk klinkt. "Het creรซren van die 'geloofwaardigheidsfactor' vormt de kern van Sonantic's spraakplatform, dat de nuances van de menselijke stem vastlegt", vermeldt Sonantic in een persbericht.
Sonantic werkt samen met ervaren acteurs om stemmodellen te creรซren. Klanten kunnen kiezen uit bestaande stemmodellen of met Sonantic werken om aangepaste stemmen voor unieke personages te bouwen. Projectscripts worden vervolgens geรผpload naar het platform van Sonantic, waar de audio van een klant wordt opgeslagen team kan kiezen uit een verscheidenheid aan high-fidelity spraaksynthese-opties, waaronder toonhoogte, tempo, projectie en een scala aan emoties, beweert het bedrijf.
Met name ontvangen de acteurs een winstdeelname telkens wanneer hun stemmodel in een project wordt gebruikt.
Obsidiaan partnerschap
Sonantic werkt ook samen met Obsidian, een AAA gaming studio en dochteronderneming van Xbox Game Studios, om deze technologie te testen. Het heeft ook een demovideo uitgebracht waarin deze samenwerking wordt benadrukt om zijn voice-on-demand-technologie te demonstreren.
โAls we aan game-ontwikkeling werken, zouden we een script kunnen sturen via de API van Sonantic - en wat we zouden terugkrijgen is niet langer alleen een robotdialoog: het is een menselijke conversatie. Deze technologie kan ons creatieve proces versterken en ons uiteindelijk helpen ons verhaal te vertellenโ, zegt Obsidian Entertainment Audio Director Justin E. Bell. Het bedrijf beweert dat de gaming de productietijdlijnen van de studio en de bijbehorende kosten zouden door deze nieuwe mogelijkheid worden verlaagd.
Eerste Huil
De officiรซle lancering van het bedrijf volgt op de bรจtaversie van vorig jaar, die werd vastgelegd in een video met de titel 'Faith: The First AI That Can Cry'.
Beide mede-oprichters zijn het erover eens dat het horen van die kreet een ongelooflijk moment voor hen was team afgelopen jaar. Het duo is van mening dat de lancering van het volledige spectrum van menselijke emoties een opwindende mijlpaal is, niet alleen voor hen, maar ook voor de entertainmentindustrie. โDe mogelijkheden voor studio's zijn eindeloos. Met een technologie die zo veelomvattend is, krijgen ze de vrijheid om te experimenteren met scripts en werk te produceren in een ongekend tijdsbestek, waardoor maanden werk wordt omgezet in minutenโ, vermelden de medeoprichters in een gezamenlijke verklaring.
De uiteindelijke missie van het bedrijf is om samen te werken met zowel studio's als professionele acteurs om de entertainmentproducten van de toekomst te bouwen.
Een bedrijf opbouwen in zes weken
Volgens Qureshi was tijd van essentieel belang bij het opzetten van Sonantic. โHet programma (Entrepreneur First) duurt zes maanden, en de eerste twee gaan over het vinden van je teammaat. John en ik waren tegen de klok omdat we elkaar ontmoetten op de laatste dag van team bouwen en hadden een maand om ons bedrijf te bewijzen voordat we voor de investeringscommissie gingen. De timing was moeilijk omdat Kerstmis er middenin zat, maar daar hebben we ons voordeel mee gedaan.โ
โJohn bouwde een live demo die ik kon delen met zowel klanten als investeerders. Binnen zes weken slaagden we erin een bedrijf op te richten, een prototype te bouwen en vooral verschillende AAA-pilootklanten aan boord te krijgenโ, voegt ze eraan toe.
Het algoritme
Over het algoritme van het bedrijf gesproken, vertelt Flynn, mede-oprichter en CTO van Sonantic Silicon Canals, โWe hebben onze algoritmen ontwikkeld om ons te concentreren op de nuances en subtiliteiten van de menselijke stem die de meeste algoritmen missen. De duivel zit in de details, dus we hebben veel werk verzet om ervoor te zorgen dat kleine dingen in kaart worden gebracht en berekend, zoals een trillende stem voor verdriet, inspanning voor woede en gevarieerde toonhoogtepatronen (om er maar een paar te noemen).
Hij vervolgt: โZelfs een gewone luisteraar is erg gevoelig voor kleine veranderingen in de stemkwaliteit. Dat is wat ons laat weten of iemand een beetje sarcastisch of dodelijk serieus is, dus het modelleren van microscopisch kleine details is de sleutel tot het doen van de stem van een geweldige acteur, gerechtigheid.
De gegevensbronnen voor het trainen van het algoritme zijn afkomstig van acteurs via een voice-engine die acteurs helpt hun eigen modellen te trainen. Met name beweert het bedrijf ervoor te zorgen dat zijn algoritmen nooit worden getraind op openbaar beschikbare gegevens zonder toestemming van de stemeigenaar.
Wat leert het algoritme als het gegevens tegenkomt?
โDe algoritmen leren eerst algemeen spreken; bijvoorbeeld ongeveer de juiste klinker- en medeklinkergeluiden maken. Naarmate de training vordert, leren de modellen beter uit te spreken; bijvoorbeeld, t's en d's beginnen scherper te worden. Tot nu toe is het vergelijkbaar met de manier waarop een kind leert. Vanaf hier worden meer subtiele dingen zoals toonhoogteverbuigingen en emotionele elementen gemodelleerdโ, legt Flynn uit.
โIn dit latere stadium beginnen de modellen precies te klinken als de acteur waarop het model was gebaseerd. We werken met fantastische acteurs die zeer getalenteerde artiesten zijn; ze vormen de basis van elk modelโ, legt hij verder uit.
Sonantic heeft drie patenten aangevraagd voor zijn technologie.
Het bedrijfsmodel van Sonantic
Het bedrijf heeft een B2B-ondernemingrise Saas (Software-as-a-Service) model. Sonantic geeft zijn technologie uitsluitend in licentie aan entertainmentstudio's. Afhankelijk van de hoeveelheid tekst die moet worden weergegeven, biedt het platform verschillende licentieniveaus.
Daarnaast is de andere inkomstenstroom van Sonantic het creรซren van aangepaste stemmodellen voor zijn klanten. Het bedrijf beweert meer dan 1000 bedrijven op de wachtlijst te hebben staan.
Verdere ontwikkeling
Qureshi vertelt SC: "We zullen doorgaan met het uitbouwen van meer stemmen, functies met bedieningselementen en talen, aangezien de mogelijkheden van dialoog eindeloos zijn."
Het bedrijf heeft plannen om samen met zijn studiopartners te beginnen met het bouwen van de volgende generatie stemmen om verder te gaan dan wat nu mogelijk is, zoals het on-the-fly genereren van content tijdens runtime.
Als een personage bijvoorbeeld in een game rent, moeten ze buiten adem klinken en reageren zoals een mens zou doen op hun staat van zijn en omgeving.
Sonantisch op zoek naar talenten
Het bedrijf heeft 12 werknemers, waaronder Flynn als mede-oprichter en CTO, en Qureshi als mede-oprichter en CEO. De team herunterladenrises drie deep learning-spraakonderzoekers; drie ingenieurs; een fulltime actrice, een casting & performance director; รฉรฉn VP van klanten; en een operationeel medewerker. Flynn beheert de technologie team, inclusief onderzoek, acteren en engineering, terwijl Qureshi met het bedrijf werkt team over klanten, strategie, marketing en verkoop.
Het bedrijf is momenteel op zoek naar getalenteerde spraakonderzoekers en -technici, met name degenen met ervaring in deze nichetechnologie.
In maart 2020 had het bedrijf verzekerd van โฌ2.3M in een financieringsronde geleid door EQT Ventures samen met deelname van bestaande geldschieters zoals Entrepreneur First, AME Cloud Ventures en Bart Swanson van Horizon Ventures.