Kommentare Abstract
2008/4 Informationswissenschaft: Die Instrumente der Zukunft

Datenkompression und Archivierung: das Binom der Zukunft

Kommentare Abstract

Radiowellen, Fernsprechleitungen und Computerkabel transportieren jeden Tag astronomische Mengen von digitalen Daten. Wie soll man diese Daten referen­zieren, wenn u.a. Profis der Informa­tionsdokumentation diese Daten archi­vieren und «gewöhnliche» Nutzer sie nutzen wollen? Die Forschungsgemein­de erwartet eine doppelte Herausforde­rung: einerseits die Kompression, ande­rerseits die Indexierung.

Fakten

Wenn die Rede ist von «astronomi­ schen Datenmengen», die tagtäglich mit verschiedenen Geräten und Me­dien (TV, Telefon, Internet, Überwa­chungskameras etc.) transportiert wer­den», so ist das keine Übertreibung – die (nahe!) Zukunft wird uns zeigen, dass «astronomisch» noch um den Fak­tor n zunehmen wird. Das von der IDC im März 2007 herausgegebene Weiss­ buch (1) hält fest, dass die Gesamt­ summe von digitalen Daten, die 2006 produziert wurde, 1,288 x 10 hoch 18 Bytes beträgt, das sind 161 Exabytes oder 161 Billionen Gigabytes; oder mit anderen Worten drei Millionen Mal die Information, die in sämtlichen je geschriebenen Büchern enthalten ist. Das Beste kommt aber noch: Gemäss dem Bericht der IDC wird diese Informa­tionsmasse bis zum Jahr 2010 noch um den Faktor 6 anwachsen.

Damit drängt sich folgende Frage auf: Man weiss, dass 95% der Daten nicht strukturiert sind – wie soll man sie also referenzieren? Die Antwort auf diese Frage ist für die Berufsleute aus dem Bereich Informationsdoku­mentation von entscheidender Wich­tigkeit: Sie werden mit unter den Ers­ten sein, welche die von den Forschern gegenwärtig zu diesem Zweck entwi­ckelten neuen Instrumente anwenden werden.

Komprimieren, dann indexieren

Die Lösung umfasst zwei Schritte: 1) Zuerst müssen die Daten kompri­miert und dann 2) indexiert werden. Die damit verbundenen Schwierigkei­ten haben es in sich, geht es doch da­rum, die Daten zu komprimieren, in­ dem man sie «semantisch» struktu­riert. Komprimierungsformate wie MPEG, ZIP, JPEG und, neueren Da­tums, JPEG2000 (siehe Kasten) sind bereits bekannt, sie sind aber zurzeit angesichts der gigantischen Daten­mengen, die es zu verarbeiten gilt, noch nicht mehr als «Lösungsembryonen».

Werfen wir beispielsweise einen Blick auf die Archive des Jazzfestivals Montreux. Dabei handelt es sich mehr­heitlich um Ton­ und Bilddaten. Die EPFL ist zurzeit mit der Archivierung dieser Daten beschäftigt. Wie soll man innert nützlicher Zeit Zugriff auf exakt jene Daten erhalten, die man sucht? Die Antwort ist in aller Munde: mittels «se­mantischer» Abfrage.

Die Herausforderung semantische Abfrage

Auch diese Lösung weist zahlreiche Fallstricke auf. Die Inhalte sind in die­sem Zusammenhang sehr wichtig. Nun ist aber bekannt, dass die Inhalte Töne, Text, Bild und Video umfassen. Man muss also in verschiedenen Datenty­pen suchen. Die Suche, die gegenwär­tig vorgeschlagen wird, ist unabhängig von der Art und Weise der Daten. Die Lösung heisst also Integration von Da­ten – erst mit integrierten Daten wird eine zielgerichtete Suche möglich.

Ein anderes Beispiel: virtuelle Sit­zungen. Immer häufiger werden Sit­zungen virtuell durchgeführt. Diese Tendenz wird sich angesichts der explo­dierenden Kosten für nicht erneuer­bare Energien und damit für örtliche Verschiebungen künftig noch akzentu­ieren. Die Archivierung dieser Sitzun­gen (Politik, Wissenschaft, Verbände, Sport, Kultur) wird damit unumgäng­lich und verlangt nach Lösungen im Bereich Datenkompression und Lage­rung/Speicherung. Entsprechende Lö­sungen sind zurzeit noch nicht greif­ bar. Über die Lösung für dieses berüch­tigte «Binom der Zukunft» beugen sich heute in der ganzen Welt Heerscharen von Forschern ...

Schlussfolgerung

Die Aufgabe der Forscher hat titanische Ausmasse. Es wird noch eine gewisse Zeit dauern, bis die Berufsleute aus dem Bereich Informationsdokumenta­tion über Instrumente verfügen wer­den, die es ihnen ermöglichen, ihrer Kundschaft Dienstleistungen im Be­reich audiovisuelle Bestände anbieten können, die diesen Namen auch verdie­nen.

Anmerkung:

(1) The Expanding Digital Universe. A Forecast of Worldwide Information Growth Through 2010, unter der Lei­tung von John F. Gantz, März 2007. 

Die Norm JPEG2000

JPEG2000 ist ein neues Bildcodierungs­system, das die modernsten Komprimierungstechniken anwendet und auf der Trans­formierung in Wavelets aufbaut. Die System­architektur ist für eine Vielzahl von Anwen­dungen (von digitalen Fotoapparaten bis hin zu medizinischen Bildgebungsverfahren und anderen Schlüsselbereichen) geeignet. Die Codierung umfasst Informationen über den Inhalt sowie eine primäre Indexierung.

Avatar

Pierre Vandergheynst

Professeur à l’EPFL