Bücher-Digitalisierung Was Google falsch macht

Um ihre alten Bestände vor dem Verfall zu retten und sie gleichzeitig von überall auf der Welt zugänglich zu machen, digitalisieren immer mehr Bibliotheken ihre Bücher. SPIEGEL ONLINE hat sich in Göttingen zeigen lassen, wie das Buch in den Rechner kommt - und warum sich Google beim Digitalisieren mehr Mühe geben sollte.

Von , Göttingen

Forschungsbibliothek in Göttingen (Januar 2001): "Wir haben keine Betriebsgeheimnisse"
DPA

Forschungsbibliothek in Göttingen (Januar 2001): "Wir haben keine Betriebsgeheimnisse"


Wer durch die Stille des Lesesaals der Göttinger Forschungsbibliothek, direkt unter dem Dach des historischen Bibliotheksgebäudes am Leinekanal streift, der kann in den hohen Holzregalen dann und wann Bücher sehen, aus denen ein Zettel mit dem Aufdruck "Digitalisiert" herauslugt.

Göttingen ist neben München das zweite große universitäre Digitalisierungszentrum in Deutschland. Eine Etage unterhalb der Bibliothek ist Martin Liebetruth in einem halb abgedunkelten Raum damit beschäftigt, ein Buch mit mittelalterlichen Zeichnungen im Licht zweier Scheinwerfer zu positionieren. Seine Hände und die bunt bemalten Buchseiten sind in weißes Licht getaucht. Über dem Arbeitsplatz hängt eine Scanner-Kamera.

Bis zum heutigen Tag wurden im Göttinger Digitalisierungszentrum 4.487.815 Seiten in 11.726 Bänden digitalisiert. Rund die Hälfte davon ist frei zugänglich.

Das Scannen ist monotone Handarbeit. Insgesamt gibt es vier Computer-Stationen zum Digitalisieren von Büchern, Zeitschriften und anderen Druckerzeugnissen. An guten Tagen werden bis zu 6000 Seiten in das hauseigene Computersystem gefüttert. Das mag nach viel klingen und ist doch kaum mehr als ein Tropfen auf den heißen Stein.

Geschwindigkeit ist in Göttingen nur von untergeordneter Bedeutung. Ralf Stockmann, Chef des Digitalisierungszentrums, erklärt, dass es vor allem darum geht, qualitativ hochwertige Produkte zu erzeugen. Und dazu ist nicht zuletzt Kontrolle nötig: War der Kollege beim Scannen unachtsam? Hat er eine Seite vergessen? Oder doppelt aufgenommen? Liegen die Dateien im richtigen Verzeichnis?

Fehler beim Scannen sind nicht selten. Nur etwa fünf Sekunden können sich die Mitarbeiter für eine Seite Zeit nehmen. Die Aufgabe ist so stupide, dass am Scanner nur in Vierstundenschichten gearbeitet wird. Meist machen Studenten den Job, um sich ein paar Euro dazu zu verdienen.

Die meisten der alten Bücher und Zeitschriften in Göttingen werden schwarz-weiß gescannt. Altersspuren auf dem Papier werden auf dem Computerbild zu hässlichen schwarzen Inselgruppen. Dank einer speziellen Filtersoftware können solche Probleme aber korrigiert werden. Dort, wo der Zahn der Zeit den Buchstaben so zugesetzt hat, dass sie schon Löcher aufweisen, werden diese im Computer wieder gefüllt. Bei Textseiten funktioniert das automatisch und über Nacht. Bei schwierigeren Fällen wie Bildern und Grafiken müssen die Mitarbeiter tagsüber per Hand ran.

Sind alle Schritte absolviert, werden die Daten auf einem Server im Keller der neuen Universitätsbibliothek gespeichert. Bis jetzt sind rund 500 Gigabyte zusammengekommen, schätzt Cheftechniker Markus Enders. Dazu kommen insgesamt vier Kopien von jedem Werk auf CD-ROM, die von einem Brennautomaten angefertigt und getrennt voneinander gelagert werden.

Google? Buchstaben im Nebel

Nicht jeder macht sich soviel Mühe. Nur wenig gute Worte hat man in Göttingen deshalb für das Digitalisierungsprojekt des Suchmaschinenriesen Google übrig. Das "Google Books Library Project" macht derzeit Teilbestände großer Universitätsbibliotheken computerlesbar. In den USA sind unter anderem die Unis Harvard und Stanford dabei, in Europa scannt Google im britischen Oxford. Insgesamt soll das Projekt mindestens 15 Millionen Bände erfassen.

Doch die Qualität der Google-Scans, so sagt man in Göttingen, ist nicht immer ausreichend. Zur Illustration legt Ralf Stockmann ein A3-Blatt auf den Tisch. Es zeigt zwei Ausdrucke einer digitalisierten Buchseite aus der Göttinger Universitätschronik von 1838. Links steht dabei die in Göttingen digitalisierte Fassung, rechts das Google-Pendant. Auf der Google-Seite erscheinen die Buchstaben verschwommen und von einer Art grauer Wolken umgeben. In der Göttinger Fassung, die mit weit höherer Auflösung entstand und noch nachbearbeitet wurde, sind sie gestochen scharf.

Auf Bibliothekarstreffen, so erzählt man in Göttingen, würden die mit der Suchmaschine kooperierenden Bibliotheken mittlerweile darüber klagen, dass die Qualität der Google-Scans zu schlecht sei. Doch ändern könnten die Betroffenen daran nichts, weil Google den ganzen Prozess in eigener Hand behält. Mitarbeiter der Universitäten hätten keinen Zugang zu den Räumen des Scan-Projekts, sogar die Fenster seien abgeklebt.

Das Buch der Bücher für jedermann

In Göttingen ist von solcher Geheimniskrämerei nichts zu spüren. "Wir haben keine Betriebsgeheimnisse, wir müssen schauen, wie wir das Weltkulturerbe gerettet kriegen", sagt Ralf Stockmann halb ironisch, halb ernst. Das Göttinger Vorzeigeobjekt ist die Digitalisierung der Gutenberg-Bibel. Die Göttinger Bibliothek hütet eine von vier vollständig erhaltenen Ausgaben auf Pergamentpapier. Und seit fünf Jahren sind alle 1282 Seiten auch digital im Internet zugänglich.

Aufgenommen wurde das Buch der Bücher auf einer sogenannten Buchwippe. Sie sorgte dafür, dass das fragile Buch nicht vollständig aufgeschlagen werden musste. Damit das wertvolle Papier keinen Schaden nahm, wurden die Seiten an den Rändern von einem Luftsog festgehalten. Nicht für jedes zu digitalisierende Buch ist so viel Aufwand nötig. Das ist eigentlich auch ganz gut so, schließlich warten allein in der Göttinger Forschungsbibliothek noch weit über 100.000 Bücher auf ihre Digitalisierung.

Dabei können interessierte Internet-User übrigens seit einiger Zeit mithelfen: DigiWunschbuch heißt ein neues Projekt der Göttinger, bei dem man Patenschaften für die Digitalisierung von Büchern übernehmen kann. 135 Interessierte haben das bereits getan. Voraussetzung ist allerdings, dass das betreffende Buch vor 1900 erschienen und damit frei von Urheberrechten ist - oder dass die Interessenten eine Erlaubnis vom Verlag oder dem Verfasser des Buches haben.

Wer sich dann entschließt, ein Buch für einen Seitenpreis von 25 Cent digitalisieren zu lassen, bekommt nicht nur eine CD des betreffenden Werkes, sondern wird auf Wunsch auch vorn in der elektronischen Version des Buches genannt - per Spendenquittung in die digitale Ewigkeit.



© SPIEGEL ONLINE 2006
Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der SPIEGELnet GmbH


Die Homepage wurde aktualisiert. Jetzt aufrufen.
Hinweis nicht mehr anzeigen.