John Flynn viene dal mondo del cinema, avendo lavorato nel montaggio di blockbuster hollywoodiani come la serie di Harry Potter, Il cavaliere oscuro e Bohemian Rhapsody.
Zeena Qureshi ha anni di esperienza di vendita in tecnologia startupS. Aveva anche una formazione nell'insegnamento della logopedia e della terapia del linguaggio a bambini con autismo, il che le ha dato una prospettiva diversa della competenza linguistica. I due sono diventati buoni amici durante il loro periodo presso Talent investor Entrepreneur First.
“A Entrepreneur First, John ed io eravamo prima amici, ma mentre il programma volgeva al termine, John mi ha mostrato questa incredibile demo di una voce artificiale che suonava perfettamente. Potevi persino sentire il respiro, non ci potevo credere", afferma Qureshi in un post ufficiale sul blog.
“Sapevamo che le attuali soluzioni di sintesi vocale sembravano robotiche, prive di prestazioni e qualità naturali. Sapevamo anche che la sintesi vocale era molto soggettiva, a differenza del riconoscimento vocale, che è più oggettivo. Quindi abbiamo deciso di risolvere questo problema", aggiunge.
Dotato dell'acume tecnico di Flynn e dell'abilità negli affari di Qureshi, il duo ha fondato Sonantico in 2018.
Ieri, con sede nel Regno Unito startup ha lanciato la prima tecnologia vocale basata sull'intelligenza artificiale con una vera profondità emotiva, trasmettendo complesse emozioni umane dalla paura e tristezza alla gioia e alla sorpresarise.
Catturare le sfumature della voce umana
Secondo l'azienda, il suo approccio si basa sulla struttura esistente della sintesi vocale, differenziando così una voce robotica standard da una che suona genuinamente umana. "Creare quel fattore di "credibilità" è al centro della piattaforma vocale di Sonantic, che cattura le sfumature della voce umana", afferma Sonantic in un comunicato stampa.
Sonantic collabora con attori esperti per creare modelli vocali. I clienti possono scegliere tra modelli vocali esistenti o lavorare con Sonantic per creare voci personalizzate per personaggi unici. Gli script del progetto vengono quindi caricati sulla piattaforma di Sonantic, dove l'audio di un cliente team può scegliere tra una varietà di opzioni di sintesi vocale ad alta fedeltà, tra cui tono, ritmo, proiezione e una serie di emozioni, afferma l'azienda.
In particolare, gli attori ricevono una quota di profitto ogni volta che il loro modello vocale viene utilizzato in un progetto.
Partnership ossidiana
Sonantic ha anche collaborato con Obsidian, un AAA gaming studio e filiale di Xbox Game Studios, per testare questa tecnologia. Ha anche rilasciato un video dimostrativo che evidenzia questa partnership per dimostrare la sua tecnologia voice-on-demand.
“Lavorando nello sviluppo del gioco, potremmo inviare una sceneggiatura tramite l'API di Sonantic e ciò che otterremmo non è più solo un dialogo robotico: è una conversazione umana. Questa tecnologia può potenziare il nostro processo creativo e, in ultima analisi, aiutarci a raccontare la nostra storia", afferma Justin E. Bell, direttore audio di Obsidian Entertainment. La società sostiene che il gaming le tempistiche di produzione dello studio ei costi associati verrebbero ridotti drasticamente grazie a questa nuova funzionalità.
primo pianto
Il lancio ufficiale dell'azienda segue la versione beta dello scorso anno, catturata in un video intitolato "Faith: The First AI That Can Cry".
Entrambi i co-fondatori concordano sul fatto che sentire quel grido sia stato un momento incredibile per loro team l'anno scorso. Il duo crede che il lancio dell'intero spettro delle emozioni umane sia una pietra miliare entusiasmante non solo per loro, ma per l'industria dell'intrattenimento. “Le possibilità per gli studi sono infinite. Con una tecnologia così completa, li libera per sperimentare con gli script e produrre lavoro in un lasso di tempo senza precedenti, convertendo mesi di lavoro in minuti ", affermano i co-fondatori in una dichiarazione congiunta.
La missione finale dell'azienda è lavorare sia con studi cinematografici che con attori professionisti per costruire i prodotti di intrattenimento del futuro.
Costruire un'azienda in sei settimane
Secondo Qureshi, durante la creazione di Sonantic, il tempo era essenziale. “Il programma (Entrepreneur First) dura sei mesi, e i primi due riguardano la ricerca del tuo teamcompagno. John ed io eravamo contro il tempo perché ci siamo incontrati l'ultimo giorno di team edificio e abbiamo avuto un mese per dimostrare la nostra attività prima di andare davanti al comitato per gli investimenti. Il tempismo era difficile dato che il Natale era proprio nel mezzo, ma l'abbiamo sfruttato a nostro vantaggio.
“John ha creato una demo dal vivo che ho potuto condividere sia con i clienti che con gli investitori. In sei settimane, siamo riusciti a fondare un'azienda, costruire un prototipo e, cosa più importante, coinvolgere diversi clienti pilota AAA", aggiunge.
L'algoritmo
Parlando dell'algoritmo dell'azienda, racconta Flynn, co-fondatore e CTO di Sonantic Silicon Canals, “Abbiamo sviluppato i nostri algoritmi per concentrarci sulle sfumature e sottigliezze della voce umana che mancano alla maggior parte degli algoritmi. Il diavolo è nei dettagli, quindi abbiamo lavorato molto per assicurarci che le piccole cose siano mappate e calcolate, come una voce che trema per la tristezza, uno sforzo per la rabbia e vari schemi di intonazione (solo per citarne alcuni)."
Continua: “Anche un ascoltatore occasionale è molto sensibile ai piccoli cambiamenti nella qualità della voce. Questo è ciò che ci fa sapere se qualcuno è leggermente sarcastico o mortalmente serio, quindi modellare dettagli microscopici è la chiave per rendere giustizia alla voce di un grande attore.
Le origini dati per l'addestramento dell'algoritmo provengono dagli attori attraverso un motore vocale che aiuta gli attori ad addestrare i propri modelli. In particolare, la società afferma di garantire che i suoi algoritmi non vengano mai addestrati su dati disponibili pubblicamente senza il permesso del proprietario della voce.
Quindi, qual è l'apprendimento dell'algoritmo mentre incontra i dati?
“Gli algoritmi prima imparano a parlare in generale; per esempio, emettendo all'incirca i suoni vocalici e consonantici corretti. Quindi, con il progredire della formazione, i modelli imparano a pronunciare meglio; ad esempio, le t e le d iniziano a diventare più nitide. Fino a questo punto, è simile al modo in cui un bambino impara. Da qui, le cose più sottili come le inflessioni di tono, gli elementi emotivi vengono modellati", spiega Flynn.
“In questa fase successiva, i modelli iniziano a suonare esattamente come l'attore su cui si basava il modello. Lavoriamo con attori fantastici che sono interpreti di grande talento; costituiscono la base di ogni modello", spiega ulteriormente.
Sonantic ha depositato tre brevetti per la sua tecnologia.
Il modello di business di Sonantic
L'azienda ha un'impresa B2Brise Saas (Software-as-a-Service). Sonantic concede in licenza la sua tecnologia esclusivamente agli studi di intrattenimento. A seconda del volume di testo da rendere, la piattaforma offre diversi livelli per la licenza.
Inoltre, l'altro flusso di entrate di Sonantic sta creando modelli vocali personalizzati per i suoi clienti. La società afferma di avere oltre 1000 aziende nella sua lista d'attesa.
Ulteriori sviluppi
Qureshi dice a SC: "Continueremo a sviluppare più voci, funzionalità con controlli e lingue poiché le possibilità di dialogo sono infinite".
L'azienda ha in programma di iniziare a costruire la prossima generazione di voce con i suoi partner di studio per andare oltre ciò che è possibile ora, come la generazione di contenuti in runtime al volo.
Ad esempio, se un personaggio sta correndo in un gioco, dovrebbe sembrare senza fiato e reagire come farebbe un essere umano al proprio stato d'animo e all'ambiente.
Sonantic alla ricerca di talenti
L'azienda ha 12 dipendenti, tra cui Flynn come co-fondatore e CTO, e Qureshi come co-fondatore e CEO. IL team comprises tre ricercatori del linguaggio deep learning; tre ingegneri; un'attrice a tempo pieno, un casting & performance director; un vicepresidente dei clienti; e un collaboratore operativo. Flynn gestisce la tecnologia team, tra cui ricerca, recitazione e ingegneria, mentre Qureshi lavora con l'azienda team su clienti, strategia, marketing e vendite.
L'azienda sta attualmente assumendo ricercatori e ingegneri del linguaggio di talento, in particolare quelli con esperienza in questa tecnologia di nicchia.
Nel marzo 2020, l'azienda aveva garantiti 2.3 milioni di euro in un round di finanziamento guidato da EQT Ventures insieme alla partecipazione di sostenitori esistenti come Entrepreneur First, AME Cloud Ventures e Bart Swanson di Horizon Ventures.