John Flynn kommt aus der Welt des Films und hat im Schnitt von Hollywood-Blockbustern wie der Harry-Potter-Serie, The Dark Knight und Bohemian Rhapsody gearbeitet.
Zeena Qureshi verfügt über jahrelange Vertriebserfahrung im technischen Bereich startupS. Sie verfügte auch über eine Erfahrung als Lehrerin für Sprech- und Sprachtherapie für Kinder mit Autismus, was ihr eine andere Perspektive auf die Sprechkompetenz verschaffte. Während ihrer Tätigkeit beim Talentinvestor Entrepreneur First wurden die beiden gute Freunde.
„Bei Entrepreneur First waren John und ich zunächst Freunde, aber als das Programm zu Ende ging, zeigte mir John diese unglaubliche Demo einer künstlichen Stimme, die perfekt klang. Man konnte sogar den Atem hören, ich konnte es nicht glauben“, erwähnt Qureshi in einem offiziellen Blogbeitrag.
„Wir wussten, dass aktuelle Text-to-Speech-Lösungen roboterhaft klingen und es ihnen an natürlicher Leistung und Qualität mangelt. Wir wussten auch, dass die Sprachsynthese sehr subjektiv ist, im Gegensatz zur Spracherkennung, die objektiver ist. Deshalb machten wir uns daran, dieses Problem zu beheben“, fügt sie hinzu.
Ausgestattet mit Flynns technischem Scharfsinn und Qureshis Geschäftsgeschick gründete das Duo Sonantisch .
Gestern, der in Großbritannien ansässige startup brachte die erste KI-gestützte Sprachtechnologie mit echter emotionaler Tiefe auf den Markt, die komplexe menschliche Emotionen von Angst und Traurigkeit bis hin zu Freude und Überraschung vermitteltrise.
Die Nuancen der menschlichen Stimme einfangen
Nach Angaben des Unternehmens basiert sein Ansatz auf dem bestehenden Text-to-Speech-System und unterscheidet so eine Standard-Roboterstimme von einer Stimme, die wirklich menschlich klingt. „Die Schaffung dieses „Glaubwürdigkeitsfaktors“ ist der Kern der Sprachplattform von Sonantic, die die Nuancen der menschlichen Stimme einfängt“, erwähnt Sonantic in einer Pressemitteilung.
Sonantic arbeitet mit erfahrenen Schauspielern zusammen, um Stimmmodelle zu erstellen. Kunden können aus vorhandenen Stimmmodellen wählen oder mit Sonantic zusammenarbeiten, um individuelle Stimmen für einzigartige Charaktere zu erstellen. Projektskripte werden dann auf die Plattform von Sonantic hochgeladen, wo die Audiodaten eines Kunden gespeichert werden team kann aus einer Vielzahl von Optionen für die Sprachsynthese mit hoher Wiedergabetreue wählen, darunter Tonhöhe, Tempo, Projektion und eine Reihe von Emotionen, so das Unternehmen.
Insbesondere erhalten die Schauspieler jedes Mal eine Gewinnbeteiligung, wenn ihr Stimmmodell in einem Projekt verwendet wird.
Obsidian-Partnerschaft
Sonantic hat auch mit Obsidian, einem AAA, zusammengearbeitet gaming Studio und Tochtergesellschaft der Xbox Game Studios, um diese Technologie zu testen. Darüber hinaus wurde ein Demovideo veröffentlicht, das diese Partnerschaft hervorhebt, um die Voice-on-Demand-Technologie zu demonstrieren.
„Wenn wir in der Spieleentwicklung arbeiten, könnten wir ein Skript über die API von Sonantic senden – und was wir zurückbekämen, wäre nicht mehr nur ein Roboterdialog, sondern eine menschliche Konversation. Diese Technologie kann unseren kreativen Prozess stärken und uns letztendlich dabei helfen, unsere Geschichte zu erzählen“, sagt Justin E. Bell, Audiodirektor von Obsidian Entertainment. Das Unternehmen behauptet, dass die gaming Die Produktionszeitpläne und die damit verbundenen Kosten des Studios würden durch diese neue Funktion verkürzt.
Erster Schrei
Der offizielle Start des Unternehmens folgt auf die letztjährige Beta-Version, die in einem Video mit dem Titel „Faith: The First AI That Can Cry“ festgehalten wurde.
Beide Mitbegründer sind sich einig, dass es ein unglaublicher Moment für sie war, diesen Schrei zu hören team letztes Jahr. Das Duo glaubt, dass die Einführung des gesamten Spektrums menschlicher Emotionen nicht nur für sie, sondern auch für die Unterhaltungsindustrie ein aufregender Meilenstein ist. „Die Möglichkeiten für Studios sind endlos. Mit einer so umfassenden Technologie haben sie die Möglichkeit, mit Skripten zu experimentieren und Arbeiten in einem beispiellosen Zeitrahmen zu produzieren, wodurch monatelange Arbeit in Minuten umgewandelt wird“, erwähnen die Mitbegründer in einer gemeinsamen Erklärung.
Die ultimative Mission des Unternehmens besteht darin, sowohl mit Studios als auch mit professionellen Schauspielern zusammenzuarbeiten, um die Unterhaltungsprodukte der Zukunft zu entwickeln.
In sechs Wochen ein Unternehmen aufbauen
Laut Qureshi war bei der Einrichtung von Sonantic die Zeit von entscheidender Bedeutung. „Das Programm (Entrepreneur First) dauert sechs Monate und in den ersten beiden geht es darum, Ihr eigenes Unternehmen zu finden teamsich paaren. John und ich standen unter Zeitdruck, weil wir uns am letzten Tag trafen team Wir hatten einen Monat Zeit, um unser Geschäft unter Beweis zu stellen, bevor wir uns vor den Investitionsausschuss stellten. Das Timing war schwierig, da Weihnachten mittendrin war, aber das haben wir zu unserem Vorteil genutzt.“
„John hat eine Live-Demo erstellt, die ich sowohl mit Kunden als auch mit Investoren teilen konnte. Innerhalb von sechs Wochen ist es uns gelungen, ein Unternehmen zu gründen, einen Prototyp zu bauen und vor allem mehrere AAA-Pilotkunden an Bord zu holen“, fügt sie hinzu.
Der Algorithmus
Flynn, Mitbegründer und CTO von Sonantic, spricht über den Algorithmus des Unternehmens Silicon Canals„Wir haben unsere Algorithmen so entwickelt, dass sie sich auf die Nuancen und Feinheiten der menschlichen Stimme konzentrieren, die den meisten Algorithmen entgehen.“ Der Teufel steckt im Detail, deshalb haben wir viel Arbeit investiert, um sicherzustellen, dass kleine Dinge abgebildet und berechnet werden, wie zum Beispiel ein Stimmzittern für Traurigkeit, Anstrengung für Wut und verschiedene Tonhöhenmuster (um nur einige zu nennen).“
Er fährt fort: „Selbst ein gelegentlicher Zuhörer reagiert sehr empfindlich auf kleine Veränderungen in der Sprachqualität. Dadurch wissen wir, ob jemand leicht sarkastisch oder todernst ist. Daher ist die Modellierung mikroskopischer Details der Schlüssel dazu, der Stimme eines großartigen Schauspielers gerecht zu werden.“
Die Datenquellen für das Training des Algorithmus stammen von Schauspielern über eine Sprachmaschine, die Schauspielern hilft, ihre eigenen Modelle zu trainieren. Insbesondere behauptet das Unternehmen, sicherzustellen, dass seine Algorithmen niemals ohne die Erlaubnis des Stimmbesitzers auf öffentlich zugänglichen Daten trainiert werden.
Was lernt der Algorithmus also, wenn er auf Daten trifft?
„Die Algorithmen lernen zunächst, allgemein zu sprechen; zum Beispiel, ungefähr die richtigen Vokal- und Konsonantenlaute zu erzeugen. Mit fortschreitendem Training lernen die Modelle dann, besser auszusprechen; Beispielsweise beginnen die Buchstaben „t“ und „d“ schärfer zu werden. Bis zu diesem Punkt ähnelt es der Art und Weise, wie ein Kind lernt. Von hier aus werden subtilere Dinge wie Tonhöhenveränderungen und emotionale Elemente modelliert“, erklärt Flynn.
„In diesem späteren Stadium klingen die Modelle genau wie der Schauspieler, auf dem das Modell basierte. Wir arbeiten mit fantastischen Schauspielern zusammen, die sehr talentierte Darsteller sind; Sie bilden die Basis jedes Modells“, erklärt er weiter.
Sonantic hat drei Patente für seine Technologie angemeldet.
Das Geschäftsmodell von Sonantic
Das Unternehmen verfügt über ein B2B-Unternehmenrise Saas (Software-as-a-Service)-Modell. Sonantic lizenziert seine Technologie ausschließlich an Unterhaltungsstudios. Abhängig von der Menge des wiederzugebenden Texts bietet die Plattform unterschiedliche Lizenzierungsstufen an.
Darüber hinaus ist die weitere Einnahmequelle von Sonantic die Erstellung individueller Sprachmodelle für seine Kunden. Das Unternehmen gibt an, über 1000 Unternehmen auf seiner Warteliste zu haben.
Weitere Entwicklung
Qureshi sagt gegenüber SC: „Wir werden weiterhin weitere Stimmen, Funktionen mit Steuerelementen und Sprachen entwickeln, da die Möglichkeiten des Dialogs endlos sind.“
Das Unternehmen plant, gemeinsam mit seinen Studiopartnern mit der Entwicklung der nächsten Sprachgeneration zu beginnen, um über das derzeit Mögliche hinauszugehen, beispielsweise die On-the-Fly-Generierung von Inhalten zur Laufzeit.
Wenn ein Charakter beispielsweise in einem Spiel läuft, sollte er außer Atem klingen und wie ein Mensch auf seinen Zustand und seine Umgebung reagieren.
Sonantic sucht Talente
Das Unternehmen hat 12 Mitarbeiter, darunter Flynn als Mitbegründer und CTO und Qureshi als Mitbegründer und CEO. Der team Layout-Dateirises drei Deep-Learning-Sprachforscher; drei Ingenieure; eine Vollzeitschauspielerin, ein Casting- und Performance-Regisseur; ein Vizepräsident für Kunden; und ein Betriebsmitarbeiter. Flynn verwaltet die Technik team, einschließlich Forschung, Schauspiel und Technik, während Qureshi mit dem Unternehmen zusammenarbeitet team zu Kunden, Strategie, Marketing und Vertrieb.
Das Unternehmen stellt derzeit talentierte Sprachforscher und Ingenieure ein, insbesondere solche mit Erfahrung in dieser Nischentechnologie.
Bereits im März 2020 hatte das Unternehmen 2.3 Mio. € gesichert in einer Finanzierungsrunde unter der Leitung von EQT Ventures zusammen mit der Beteiligung bestehender Geldgeber wie Entrepreneur First, AME Cloud Ventures und Bart Swanson von Horizon Ventures.