20 Jahre Wikipedia »Wenn Google das Projekt angehen würde, das würde glorios scheitern«

50 Millionen Artikel umfasst die Wikipedia. Sie könnte aber noch viel größer und besser werden, sagt einer ihrer Mitarbeiter. Der Informatiker Denny Vrandečić arbeitet an einer Universalsprache der Fakten.
Ein Interview von Hilmar Schmundt
Wikipedia: "Da wird es wohl eine Menge Widerstand und Diskussionen geben"

Wikipedia: "Da wird es wohl eine Menge Widerstand und Diskussionen geben"

Foto: Sebastian Gollnow / dpa

Die Wikipedia wird 20 Jahre alt. Inzwischen umfasst das Online-Lexikon mehr als 50 Millionen Artikel. Würde man die unterschiedlichen Sprachversionen untereinander übersetzen, könnte sie noch viel größer werden. Die deutsche Wikipedia zum Beispiel umfasst rund 2,5 Millionen Artikel, von denen aber nicht einmal die Hälfte auch in der englischsprachigen Version auftauchen, sagt der Informatiker und Philosoph Zdenko »Denny« Vrandečić. Er entwickelt mit der »Abstrakten Wikipedia« eine Art Universalsprache für die automatische Übersetzung zwischen allen 300 Wikipedia-Versionen der Welt. Darüber spricht er mit dem SPIEGEL in einem Zoom-Interview von seinem Homeoffice im kalifornischen Berkeley aus.

SPIEGEL: Die Wikipedia ist 20 Jahre nach ihrer Gründung eine der beliebtesten Websites der Welt. Wozu braucht es da noch eine »Abstrakte Wikipedia «?

Vrandečić: Ich habe mal verschiedene Wikipedien verglichen: Wer ist der Bürgermeister von San Francisco? Das ging total durcheinander, nur die wenigsten Versionen verzeichneten den aktuellen Bürgermeister, aber zumindest nannten die meisten einen Bürgermeister, den es früher mal gegeben hat. Vieles war nicht falsch, aber komplett veraltet. Nicht aus politischen Gründen, sondern einfach, weil die Aktualisierung Arbeit macht. Hier könnte unser Übersetzungsprojekt helfen. Idealerweise würden wir die Widersprüche nicht automatisch abändern, sondern sichtbar machen, dann könnte die Community das leichter durcharbeiten.

SPIEGEL: Wann gibt es die ersten Übersetzungsresultate?

Vrandečić: Wir müssen das nun einfach mal ausprobieren. Wir wissen dann bald mehr, vielleicht so 2022 oder 2023 vielleicht.

Zur Person
Foto: Victor Grigas

Zdenko "Denny" Vrandečić, 42, ist der Leiter der "Abstrakten Wikipedia". Der Kroate wuchs in Stuttgart auf, Deutsch ist seine Muttersprache. Er lernte das Programmieren am C64, studierte Informatik und Philosophie und promovierte am Karlsruhe Institut für Technologie. Er gründete die kroatische Version der Wikipedia und das Projekt Wikidata mit. Seit letztem Jahr arbeitet er vom kalifornischen Berkeley aus für die Wikimedia Foundation.

SPIEGEL: Wie würde eine solche Übersetzung funktionieren?

Vrandečić: Wir möchten Wikipediaeinträge so formulieren, dass sie unabhängig sind von einer konkreten natürlichen Sprache. Und aus dieser abstrakten Darstellungsweise, die ein bisschen wie eine Programmiersprache aussehen könnte, wollen wir dann Einträge in Englisch und Deutsch und anderen natürlichen Sprachen generieren.

SPIEGEL: Wie kann ich mir das konkret vorstellen?

Vrandečić: Man kann sich unser Übersetzungsprojekt ein wenig so vorstellen wie den Unterschied zwischen einer Formel und einem Satz. Nehmen wir zum Beispiel einen mathematischen Ausdruck wie »50%«. Diesen abstrakten Begriff »50%« könnte man leicht in verschiedenen Sprachen ausdrücken, indem man sagt: »Jeder Zweite«, oder »Die Hälfte« oder »Half« oder »la Moitié«. Der abstrakte Inhalt wäre dabei immer derselbe, obwohl die Zielsprachen unterschiedlich sind. Diese Einträge würden dann den lokalen Wikipedien zur Verfügung stehen, um ihre Inhalte anzureichern.

SPIEGEL: Wird es gegen ein solches Projekt automatischer Textgenerierung nicht auch Widerstand von den Zigtausenden freiwilligen Mitarbeitern geben? Die könnten sich von einem undurchsichtigen KI-Moloch, der ohne ihr Zutun Texte ausspuckt, in ihrer Arbeit und Kompetenz bedroht sehen.

Vrandečić: Ja, da wird es wohl eine Menge Widerstand und Diskussionen geben. Aber das ist ja auch gut so. Wir müssen zusammen mit der Community ausdiskutieren, wo die neuen Technologien am besten nutzbar sind.

SPIEGEL: Die Wikipedianerin Heather Ford von der Uni Leeds schrieb mir: »Falls wir die Abstrakte Wikipedia nicht von Vertretern der kleineren Sprachgruppen selbst entwickeln lassen, wird sie eher die Probleme der Ungleichheit weiter verstärken«.

Vrandečić: Dem stimme ich zu, und deswegen ist es auch so wichtig für das Projekt, dass die Inhalte der Abstrakten Wikipedia auch tatsächlich von der weltweiten Community beigetragen werden. Dass ein Beitrag zur Amharischen Kultur von Amharas kommt und dass über Bengalische Tänze auch von Bengalen geschrieben wird. Alle müssen die Möglichkeit haben, an den Inhalten der Abstrakten Wikipedia mitzuwirken.

Traditioneller indischer Tanz im indischen Staat Kerala (2019)

Traditioneller indischer Tanz im indischen Staat Kerala (2019)

Foto: DIBYANGSHU SARKAR/ AFP

SPIEGEL: Auch der Biologe und Wikipedianer Ian Ramjohn von der Uni Michigan warnt: »Algorithmen neigen dazu, die unbewussten Vorurteile der Menschen zu reproduzieren, die sie programmieren. Auch die Künstliche Intelligenz ist dagegen nicht immun. Nun ist aber die Weltsicht von Männern aus Industrienationen bereits sehr stark präsent in der Wikipedia, und genau diese Leute würden wiederum die Übersetzungssoftware programmieren.« 

Vrandečić: Deswegen arbeiten wir mit einem regelbasierten und funktionsbasierten System, in dem die Beitragenden die volle Kontrolle über die Inhalte und deren Darstellung behalten und nicht auf die erlernten und in Sprachmodelle eingeflossenen Vorurteile angewiesen sind.

SPIEGEL: Ihr Doktorvater Rudi Studer vom KIT schreibt mir: »Die Abstrakte Wikipedia ist ein sehr ehrgeiziges Projekt mit vielfältigen Herausforderungen. Schwierig ist beispielsweise, abstrakte Strukturen zu finden, die allgemein genug sind, um die unterschiedlichen linguistischen Aspekte aus den vielen verschiedenen Sprachen zu erfassen.«

Vrandečić: Es stimmt schon, jedes Mal, wenn ich Forschern mein Projekt vorgestellt habe, kam sofort die Reaktion: Das ist doch völlig unmöglich. Aber je länger wir sprechen, desto mehr sagen sie dann: Ja, die einzelne Schritte sind nachvollziehbar. Ich sehe nicht, warum es nicht klappen sollte. 

SPIEGEL: Wie viel Grundlagenforschung fehlt noch?

Vrandečić: Von draußen klingt unser Übersetzungsprojekt unglaublich ambitioniert. Aber wenn man drinsteckt, merkt man: Wir basteln da nicht irgendwie an Science-Fiction-Technologie, sondern wir kochen auch nur mit Wasser. Das Meiste ist gut erforscht, wir wenden einfach nur Software, die es längst gibt, neu an. Aber dennoch ist unser Projekt hochriskant. Wir haben keine Ahnung, was davon überhaupt funktionieren wird.

Mr. Spock, dargestellt von einem Double in London (2015)

Mr. Spock, dargestellt von einem Double in London (2015)

Foto: Neil Hall/REUTERS

SPIEGEL: Hätte die Abstrakte Wikipedia weitere Vorteile als nur den Austausch zwischen Sprachversionen?

Vrandečić: Ja. Die Wikipedia ist viel zu anspruchsvoll, das Sprachniveau ist zu hoch, haben Studien ergeben. Daher gibt es ja auch die einfachere Variante mit Simple English. Aber auch die ist zu kompliziert für viele Menschen, vor allem, wenn Englisch nicht ihre Muttersprache ist. Ich war mit meiner Tochter unterwegs im Park und habe mir mal den Eintrag zum Thema »Gänseblümchen« angesehen. Ich habe da nur die Hälfte kapiert, weil ich keinen Doktor in Biologie habe. Eine einfachere, klarere Wikipedia wäre wünschenswert. Es könnte sein, dass unser Übersetzungsprojekt dazu beitragen könnte.

Gänseblümchen in einem Kleingarten in Frankfurt (2015)

Gänseblümchen in einem Kleingarten in Frankfurt (2015)

Foto: Patrick Pleul/ dpa

SPIEGEL: Warum verwenden Sie für die Übersetzung nicht einfach Deepl oder Google Translate?

Vrandečić: Die meisten Machine Learning Projekte setzen einfach auf riesige Textmengen als Input, aus denen sie dann billig und schnell riesige Textmengen als Output herstellen. Das ist preisgünstig, aber auch fehleranfällig. Dabei kann es leicht zu bizarren Fehlern kommen, zum sogenannten »Halluzinieren«: Neuronale Netze spucken teils völlig abwegige Texte aus, einfach, weil Textstellen falsch zugeordnet werden. Wir hätten dieses Problem nicht, weil unser System auf einer abstrakten Faktenkodierung basiert, die nicht auf Textmasse setzt, sondern auf Präzision. Unser Projekt ist viel anspruchsvoller, wir setzen auf eine abstrakte Sprache im Hintergrund.

Jimmy Wales, Mitgründer der Wikipedia (2011)

Jimmy Wales, Mitgründer der Wikipedia (2011)

Foto: Fabian Bimmer/ dpa

SPIEGEL: Ist dieser Ansatz völlig neu?

Vrandečić: Nein. Das Prinzip heißt »Rule Based Natural Language Generation«. Ein bekanntes Projekt hat angefangen bei dem Kopiergeräte-Hersteller Xerox, die hatten das für Bedienungsanleitungen für ihre Geräte generiert mit einem solchen regelbasierten System. Da gibt es bereits Frameworks, die schon ziemlich gut sind. Das einzige, wo wir Neuland betreten: Wir wenden das auf Sprachen an, für die es diese Systeme bislang nicht gibt. Wir wollen es ja auf 300 Sprachen erweitern.

SPIEGEL: Sie haben bis letztes Jahr bei Google gearbeitet, warum haben Sie Ihr Projekt nicht dort angesiedelt?

Vrandečić: Die Arbeit bei Google war großartig. Man hat als Mitarbeiter Zugriff auf so viele schlaue Leute. Das hat mir unglaublich geholfen. Eine Weile lang habe ich das Projekt mit meinen 20 Prozent der Arbeitszeit betrieben, die ja jeder Mitarbeiter für seine eigenen Projekte zur Verfügung hat. Und vor einem Jahr bin ich dann in den Bereich Google Forschung gewechselt, um mich voll darauf zu konzentrieren. Aber ich habe mich dann entschieden, dass das Projekt bei der Wikimedia angesiedelt sein sollte. Wenn Google das Projekt angehen würde, das würde glorios scheitern. Bei Google Maps hat das ganz gut funktioniert, dass mit Crowdsourcing sehr viel geschieht. Aber das Projekt liegt bei der Wikimedia Foundation in deutlich besseren Händen. 

Google-Campus (2019)

Google-Campus (2019)

Foto: Amy Osborne / AFP

SPIEGEL: Sie haben Ihren Vorschlag für eine Abstrakte Wikipedia ausgerechnet am 1. April 2020 veröffentlicht. Ein Aprilscherz?

Vrandečić: Das ist einer meiner Lieblingstermine für neue Projekte. Wir haben damals auch Wikidata an einem ersten April vorgeschlagen. Bei Google hat das auch Tradition, G-Mail zum Beispiel wurde an einem ersten April gelauncht. An einem ersten April kann man sich mehr trauen, die Antworten könnten interessanter sein.

SPIEGEL: Wie sind Sie zur Wikipedia gekommen?

Vrandečić: Als Kind war ich Rollenspieler. Ich habe Das Schwarze Auge (DSA) ohne Ende gelesen. Das ist so ein klassisches Pen-and-Paper-Spiel, das man einfach mit Stift und Zettel spielt. Ich habe dann bald mit dem Schreiben eigener DSA-Stories angefangen und habe dabei erlebt: Das Schreiben von Büchern ist nicht irgendwie Zauberei, sondern dahinter stecken ganz normale Menschen wie du und ich. Jeder kann schreiben. Auch die Leser können beeinflussen, wie eine Geschichte sich weiterentwickelt, einfach, indem man selbst mitschreibt. So ähnlich ist das auch bei dem neuen Wikimedia Abstract-Projekt.

SPIEGEL: Was waren Ihre ersten eigenen Eintrage in der Wikipedia?

Vrandečić: Ich habe die kroatische Wikipedia mitgegründet. Meine Eltern kommen von der Insel Brač in Kroatien. Einer meiner frühen Edits dürfte von Brac gewesen sein, da war ich Mitte zwanzig. Mein Kroatisch ist nicht großartig. Außerdem hat sich die Sprache in den letzten 20 Jahren stark verändert, das hat politische Hintergründe, viele Begriffe werden heute neu definiert, um das Kroatische stärker vom Serbischen abzugrenzen.

Die Hafenstadt Bol auf der kroatischen Insel Brač (2007)

Die Hafenstadt Bol auf der kroatischen Insel Brač (2007)

Foto: Sheila Norman-Culp/ AP

SPIEGEL: Welche Sprachen wollen Sie als Erstes übersetzen mit Hilfe der Abstrakten Wikipedia?

Vrandečić: Ich will möglichst viele unterschiedliche Sprachfamilien abdecken. Ich hätte zum Beispiel gern das Arabische mit dabei, oder Hebräisch oder eine andere semitische Sprache. Chinesisch wäre auch schön, ist aber schwierig wegen der politischen Situation. Aber eine afrikanische Sprache wäre gut. Wieso nicht Amharisch? Oder eine der über 500 Sprachen in Nigeria, wie zum Beispiel Hausa oder Yoruba. Ich könnte mir sogar denken, dass wir die Gebärdensprache mit aufnehmen.

Mehr lesen über
Die Wiedergabe wurde unterbrochen.