Google Recorder - Speaker Labels, wie sie funktionieren

Mit dem Pixel Feature Drop für Dezember 2022 hat der Google Recorder ein Update mit Erkennung der Sprecher erhalten. Google erklärt nun in einem Blog-Eintrag, wie die Speaker-Labels funktionieren.

Google Recorder – Speaker Labels mit Unterstützung von Turn-to-Diarize

Mit dem Pixel Feature Drop für Dezember 2022 hat Google die Speaker Labels auf Google Recorder Version 4.2 verfügbar gemacht. Diese sind standardmäßig deaktiviert und können ab sofort über die Rekorder-Einstellungen auf dem Pixel 6, 6 Pro, 6a, 7 und 7 Pro -> Sprecher-Labels aktiviert werden. Bisher sind die Speaker Labels nur auf Englisch (englischer Text, englische Transkripte) verfügbar. Die Transkriptsprache Englisch stellst du ebenfalls über die Rekorder-Einstellungen -> Sprache des Transkriptes ein.

20221215 Google Recorder Speaker Labels | Android-User.de0006

20221215 Google Recorder Speaker Labels | Android-User.de0001

Sofern nun mehrere Personen einen Dialog auf Englisch führen, erkennt die Rekorder-App die einzelnen Personen automatisch und kennzeichnet sie als Speaker/Sprecher 1, Speaker 2 usw.

20221215 Google Recorder Speaker Labels | Android-User.de0004

Im Transkript kannst du die Sprecherlabels auch bearbeiten, indem du auf den Button mit den drei Linien und dem Stift klickst.

20221215 Google Recorder Speaker Labels | Android-User.de0003

Speaker Labels werden von Googles neuem Sprecher-Diarisierungssystem namens Turn-to-Diarize unterstützt, das erstmals auf der ICASSP 2022 vorgestellt wurde

Systemarchitektur

Das Sprecher-Diarisierungssystem nutzt mehrere hochoptimierte Modelle und Algorithmen für maschinelles Lernen, um mit begrenzten Rechenressourcen auf mobilen Geräten stundenlanges Audio-Diarisieren in Echtzeit-Streaming zu ermöglichen.

Das System besteht im Wesentlichen aus drei Komponenten:
einem Sprechererkennungsmodell, das einen Wechsel des Sprechers in der Eingabesprache erkennt
einem Sprechercodierermodell, das Stimmeigenschaften aus jedem Sprecherwechsel extrahiert
einem mehrstufigen Clustering-Algorithmus, der auf hocheffiziente Weise Lautsprecherbeschriftungen kommentiert.

Alle Komponenten laufen vollständig auf dem Gerät.

So verarbeitet die Rekorder App die Daten für Sprecherlabels

Wenn Sie Sprecherlabels aktivieren, analysiert die Recorder App Ihre Audioaufnahmen, erkennt dabei bestimmte Sprecher in Ihren Transkripten und fügt ihnen Labels hinzu. So funktionierts:

In den Aufnahmen auf Ihrem Gerät werden Modelle der Stimmen erstellt
Jede erkannte Stimme wird mit einem generischen Textlabel versehen (z. B. „Speaker 1“ oder „Speaker 2“)
Die Stimmen werden innerhalb der Aufnahme verglichen, damit im Transkript korrekt wider gegeben werden kann, welcher Sprecher was wann gesagt hat.

Die oben beschriebenen Schritte werden auf Ihrem Smartphone ausgeführt und die generierten Sprechertextlabels werden dann in Ihrem Transkript gespeichert. Hinweis: Die oben genannten Sprachmodelle können in einigen Ländern oder Regionen als biometrische Daten betrachtet werden.

Richtlinie zum Aufbewahren und Löschen von Sprachmodellen

Die zur Erstellung von Sprecherlabels verwendeten Sprachmodelle werden vorübergehend auf dem Gerät gespeichert, bis das Transkript mit Sprecherlabels versehen ist. Anschließend werden sie gelöscht (normalerweise innerhalb weniger Minuten).

Google Recorder – Speaker Labels, wie sie funktionieren

Google Recorder – Speaker Labels mit Unterstützung von Turn-to-Diarize

Systemarchitektur

So verarbeitet die Rekorder App die Daten für Sprecherlabels

Richtlinie zum Aufbewahren und Löschen von Sprachmodellen