Open-Source Suchmaschine Gemeinsam sind wir schlau
"Divide et impera" - "Teile und herrsche", mit dieser Maxime festigten antike römischer Herrscher ihre Position durch Teilung der Macht im Staate. Und auch im Netz hat sich längst die Erkenntnis durchgesetzt, dass einige Aufgaben nur dann zu lösen sind, wenn die Ausführung in den Händen vieler liegt. So genannte "Distributed Computing"- Projekte machen sich die geballte Rechenkraft Tausender Einzelcomputer zunutze, etwa um gemeinsam an einem größeren wissenschaftlichen Problem zu arbeiten. Ob bei SETI@home, wo rund drei Millionen Freiwillige nach Signalen von Außerirdischen fahnden, oder beim Projekt Folding@home, wo mehr als 15.000 User ihre freie Rechenkapazität für die Entschlüsselung von Proteinen zur Verfügung stellen. Überall wird auf die Parallelisierung gesetzt - gemeinsam sind wir schlau.
Ein neuartiges Projekt mit dem Namen "Grub" will mit diesem Ansatz der verteilten Aufgaben nun auch Licht in die dunklen Winkel des Internets bringen. Denn klar ist: Das Netz ist auch heute noch immer ein weitgehend unerschlossener Raum. Und selbst die größten Suchmaschinen stellen Datenreisenden dafür nur sehr unvollständige Landkarten zur Verfügung.
So etwa Google, das, obwohl es etwa 1,6 Milliarden verschiedener Seiten kennt, bestenfalls ein Zehntel des Web abdeckt. Hinzu kommt, dass die aktuellen Kataloge die Masse ihrer einzelnen Einträge nur selten mit Hilfe kleiner spezialisierter Programme - so genannter Crawler - überprüfen können. Die Folge sind haufenweise tote Links.
Weg mit den weißen Flecken
"Man muss zwei Dinge unterscheiden", sagt Kord Campbell, Gründer von Grub, "die Suche in einer Datenbank von bestimmten Webseiten und das Crawling, um eben diese Datenbank zu füllen. Wir behaupten nicht, dass wir die Suche an sich besser oder relevanter machen können, aber wir glauben definitiv, dass wir mehr Webseiten als konventionelle Suchmaschinen besuchen können, mit weniger Zeit- und Ressourcenaufwand." Das würde also bedeuten, dass Campbell und Co. die weißen Flecken auf den Web-Landkarten weitgehend tilgen könnten.
Dafür ist Grub auf die Mithilfe von vielen Freiwilligen angewiesen. Die müssen auf ihren Rechnern einen Software-Client installieren, der sich um die Erfassung eines bestimmten Teils des Netzes kümmert. Der Grub-Server gibt vor, welche Webseiten der Client-Rechner besuchen soll. Und der macht sich dann an die Arbeit, wenn er gerade nichts anderes zu tun hat - also nachts oder während Arbeitspausen. Zurück liefert der Client einen komprimierten Datenstrom, der Grub mitteilt, welche Inhalte des Web sich geändert haben. Webmaster können das Programm auch auf ihren eigenen Servern laufen lassen.
Betrug! Betrug?
Doch genau darin sieht Danny Sullivan, Chefredakteur des Informationsdienstes SearchEngineWatch.com eine Schwachstelle der Arbeitsteilung. "Ich glaube nicht, dass das Konzept auf einer webweiten Basis Erfolg haben wird, weil eine kleine Zahl von Leuten das System massiv missbrauchen dürfte, um ihre eigene Webseite zu promoten. Diese Manipulationen sind ein ernsthaftes Problem, das bei einem verteilten Arbeiten sicherlich wesentlich häufiger auftritt als bei den großen Suchmaschinen." Denn eine gute Platzierung in den Datenbanken ist heutzutage Gold wert, nur sie hilft, dass Surfer die Seite problemlos finden.
Abhilfe gegen Schummler könnte indessen ein Testverfahren schaffen, das Studenten der Stanford University im Frühjahr dieses Jahres entwickelt haben. Sie mischen in die Datenpakete, die jedem Client-Rechner vom zentralen Server geschickt werden, jeweils bewusst einige Fehlinformationen. Werden die nicht erkannt, dann ist klar, dass der betreffende Client auf irgendeine Weise betrügt.
Doch bislang muss Grub mit ganz anderen Problemen kämpfen. Denn um sich mit den großen Namen des Suchmaschinengeschäftes messen zu können, müssen Freiwillige her. Bislang haben nach Angaben von Campbell erst 450 Menschen die Open Source Linux-Software heruntergeladen, knapp ein Zehntel von ihnen liefert regelmäßig Daten an die Grub-Datenbank, die momentan etwa 20 Millionen Webseiten erfasst. Für ein Anwachsen dieser bislang noch vernachlässigbar kleinen Zahl dürfte die Entwicklung einer Windows-Version der Software sorgen, die noch in diesem Monat beginnen soll.
Als Motivationshilfe will Campbell außerdem Wettbewerbe für die fleißigsten Datenschnüffler ausschreiben, in denen es in Zukunft einzelne Hardwarekomponenten als Preise zu gewinnen geben soll. Immerhin, bei SETI@home hat der Appell an den Sportsgeist der Beteiligten gut funktioniert. Die drei Millionen freiwilligen Alien-Sucher kämpfen um den Eintrag in eine Art Highscore-Liste.