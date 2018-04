Musik dröhnt aus den Boxen, die Gäste reden immer lauter, um die anderen zu übertönen. Und obwohl der Schall aus allen Richtungen auf die Ohren prallt, können wir auf einer Party unseren Gesprächspartner meist ziemlich gut verstehen. Der Grund: Das Gehirn filtert die Umgebungsgeräusche gekonnt heraus, damit wir uns auf die Aussagen des Gegenübers konzentrieren können.

Während das Gehirn den sogenannten Cocktailparty-Effekt exzellent beherrscht, bereiten solche Tonaufnahmen klassischer Audio-Software oft Probleme. Wer etwa Störgeräusche aus einer Tonspur digital herausfiltern möchte, damit eine Stimme deutlicher zu hören ist, der bekommt in der Regel ein Ergebnis, das wie die eiernde Aufnahme eines alten Tonbandgeräts klingt.

Google-Entwickler haben nun eine Methode entwickelt, um Sprache in einem Video zu isolieren und Störgeräusche auszublenden. In einem Blogbeitrag beschreiben die Ingenieure, wie sie virtuelle Nervennetze einsetzen, um mit künstlicher Intelligenz eine Stimme von den anderen Geräuschen zu trennen. Und zwar nicht nur über die Tonspur, sondern auch über die bewegten Bilder.

Interessante Beispielvideos

Das Ergebnis beeindruckt. In diesem Beispielvideo filtert die Software etwa die Umgebungsgeräusche in einer Cafeteria heraus:

In einem weiteren Video mit zwei gleichzeitig sprechenden Comedians gelingt es der Software sogar, die Sprachspuren komplett voneinander zu trennen und einzeln hörbar zu machen:

Zwar klingen auch hier die herausgefilterten Stimmen teilweise so, als würde jemand in eine Gießkanne sprechen: Doch die Filterversuche herkömmlicher Software klingen noch viel schlechter.

Mit 100.000 Videos trainiert

Für die Analyse haben die Forscher der Software unter anderem befohlen, auf die Mimik der Personen in den Videos zu achten, um Lippenbewegungen mit Tönen zu kombinieren. Nach eigenen Angaben haben die Google-Mitarbeiter die künstliche Intelligenz mit 100.000 Videos gefüttert, die vor allem Lesungen und Talkrunden zeigten. Daraus wurden einzelne Sprecher herausgepickt, die klar verständlich waren. Die Forscher mischten schließlich Umgebungsgeräusche aus einer Sound-Datenbank hinzu, um die Software zu trainieren.

Die Entwicklung könnte zum Beispiel bei Videokonferenzen eingesetzt werden, um die Sprachqualität zu verbessern. Auch Untertitel könnten damit leichter automatisch generiert werden. Das klappt zwar jetzt schon, doch das automatische Untertiteln von Livestreams befindet sich noch in der Testphase. Derzeit probiert Google die Funktion auf einigen englischsprachigen Videokanälen mit mehr als 10.000 Abonnenten aus. Als häufige Fehlerquelle gibt Google noch immer Unterhaltungen an, bei denen mehrere Personen gleichzeitig reden.

Software mit Fähigkeiten wie den von Google gezeigten könnte prinzipiell aber auch als Spionagewerkzeug missbraucht werden. So könnten eines Tages vielleicht die Aussagen oder Parolen einzelner Teilnehmer aus dem Video einer Demonstration herausgefiltert werden - Sätze, die sonst einfach in der Soundkulisse untergegangen wären. Auch die Kamera-Überwachung in Fußgängerzonen und öffentlichen Plätzen könnte noch detailliertere Daten als bisher liefen, wenn einzelne Gespräche von Passanten extrahiert werden könnten. Auf eine SPIEGEL-Anfrage zu seinen Ton-Experimenten hat Google bis zum Freitagnachmittag nicht reagiert.