Es gibt verschiedene Möglichkeiten, die uns umgebende Technologie zu kontrollieren. Am prominentesten ist derzeit entweder die Berührung oder eine Fernbedienung. Allerdings gewinnen auch Sprachbefehle langsam an Bedeutung, da sie eine einfache und intuitive Möglichkeit darstellen, Antworten auf Ihre Fragen zu erhalten, intelligente Geräte mit der Ausführung einer Aufgabe zu beauftragen und vieles mehr. Die Technologie wird jedoch noch perfektioniert und um sie noch weiter voranzutreiben, hat Google eine entwickelt neues Leichtbausystem namens VoiceFilter Lite.
VoiceFilter-Lite: Kleine Größe, große Verbesserungen
Google nutzt die Spracherkennung in zahlreichen Anwendungen wie Google Maps, Assistant, Translate und anderen. Diese Apps nutzen das VoiceFilter-System, das bereits 2018 veröffentlicht wurde. Dieses System zeichnet sich im Vergleich zu herkömmlichen Ansätzen dadurch aus, dass es ein besseres Verhältnis von Quelle zu Verzerrung (Source to Distortion Ratio, SDR) erzielt, was eine effiziente Spracherkennung ermöglicht. Während das Modell funktioniert, funktioniert es in der Cloud, da es durch die Hardwarebeschränkungen eines Geräts eingeschränkt ist.
Google ging davon aus, dass es schneller und effizienter wäre, wenn dieses System auf einem Gerät funktionieren könnte, sogar offline. Daher wurde VoiceFilter Lite erstellt. Das leichtere System zielt auf die Verwendung auf dem Gerät ab, um die Spracherkennung bei überlappender Sprache deutlich zu verbessern. Dies geschieht durch die Erkennung der registrierten Stimme eines ausgewählten Sprechers, bei der es sich im Grunde um eine Stimmübereinstimmung eines registrierten Benutzers handelt. Das neue System soll in der Lage sein, die Stimme eines Benutzers auch unter „extrem“ lauten Bedingungen zu erkennen und mit ihr zu arbeiten, selbst wenn keine Internetverbindung verfügbar ist.
Ein 2.2 MB großes VoiceFilter-Lite-Modell wurde von getestet Google, das behauptet, es sei in der Lage gewesen, die Wortfehlerrate (WER) bei überlappender Sprache um 25.1 % zu verbessern. WER ist ein Verhältnis zur Messung der Anzahl der Wörter, die ein Modell aus einer Referenzaussage erkennen kann.
Weitere Sprachen werden bald unterstützt
Mit dem neuen VoiceFilter-Lite-Modell könnten Apps Ihre Sprachbefehle deutlich besser erfassen. Darüber hinaus sollte es auch zu einer schnelleren Abfrageverarbeitung beitragen, da es offline funktioniert.
Obwohl der neue VoiceFilter-Lite vielversprechende Ergebnisse zu liefern scheint, funktioniert er derzeit nur mit der englischen Sprache. Google wird daran arbeiten, das Modell auch für die Arbeit mit anderen Sprachen zu übernehmen. Darüber hinaus wird Google versuchen, den Spracherkennungsverlust, der beim Training von VoiceFilter-Lite auftritt, direkt zu optimieren. Dies könnte möglicherweise dazu beitragen, die Spracherkennung über überlappende Sprache hinaus weiter zu verbessern.
Bildnachweis: Google