![]() |
|
URL dieses Artikels:
zu Ausgabe:
2.2002
Intelligente Agenten
Taxonomie und Topic Maps - vom Stichwortverzeichnis zur Wissensnavigation
von Thomas Bandholtz
Wer heute deutschsprachige Information über Topic Maps im Internet sucht, erhält eine jener Trefferlisten von über 1000 Ergebnissen auf 47 Seiten. Dies ist nicht nur ein Zeichen für die zunehmende Verbreitung des Themas, sondern auch - einmal mehr - für die Notwendigkeit eines Verfahrens, um Ergebnismengen sinnvoll einzugrenzen. Genau das ist eines der Hauptanwendungsgebiete, die schon Goldfarb im Auge hatte, als er Topic Maps als das Global Positioning System (GPS) des Web bezeichnete und Ihnen im XML Handbook [1] eine Schlüsselrolle für die Navigation zuwies. Dieser Artikel befasst sich mit dem Stand der Technik am Beispiel einer schon heute realisierten Anwendung.
Während die Standardisierung (ISO/SC34 13250:2000 und Oasis Topic Map Member Section) die notwendigen Definitionen verabschiedet hat und sich weitergehenden Konzepten zuwendet [2], sind - auch im deutschsprachigen Raum - bereits erste Anwendungsfälle entstanden. Einige der bekanntesten sind:
Wer hat nicht schon hundert Mal in Stichwortverzeichnissen und Katalogen gewühlt? Weniger verbreitet sind Thesauri (ISO 2788/5964), mit denen die Begriffswelten weiter vernetzt und in Ober- und Unterbegriffe, Deskriptoren und Synonyme unterschieden werden. Geografische Namensbücher (oder international: gazetteer), versuchen einen Überblick über die oft tückischen, weil wenig eindeutigen Ortsnamen zu verschaffen. All diese Ansätze bezeichne ich hier als Taxonomie. www.wissen.de erklärt Taxonomie als Eigenschaft und Methode des amerikanischen Strukturalismus, eine Sprache mit Hilfe von Segmentierung (Zerlegung komplexer sprachlicher Einheiten) und Klassifikation (Zuordnung der Elemente zu Klassen und Unterklassen) unter Ausklammerung der Bedeutung zu beschreiben. Im deutschen Sprachraum wird dieser Begriff bisher vornehmlich in der Biologie für Kataloge der Artenvielfalt verwendet. International ist die allgemeine Bedeutung verbreitet. So erklärt Seybold Bulletin News & Views on Electronic Publishing, May 30, 2002: Taxonomie Management erhält eine Schlüsselrolle im Content Management. Internationale Firmen (wie z.B. Accenture, BP, HP, IBM, Microsoft, Nokia, Royal Dutch/Shell, Schlumberger, Siemens, Toyota oder Xerox [10] ) wetteifern im Aufbau ihrer Master Classification und weisen terminologisch versierten Mitarbeitern eine Rolle als Taxonomist zu. Topic Maps Wo immer Schlagwortlisten, Kataloge, Klassifikationen, Thesauri, Gazetteers und Ähnliches, also Taxonomie, in einer komplexen Wissensdokumentation zum Einsatz gebracht werden soll, bieten sich als integrierende Struktur Topic Maps an. Eine Topic Map an sich ist eine Abstraktion aus Themen (topics), Assoziationen zwischen Themen (associations) und Vorkommen der Themen (occurrences) z.B. in Dokumenten. Gerade wegen dieser hohen Abstraktion, können bestehende Taxonomien ohne bekannte Einschränkung in einer Topic Map modelliert werden. Eine konkrete Topic Map Anwendung baut zunächst eine eigene Typologie auf. Diese besteht aus:
Im Fall des Forschungsprojekts Semantic Network Services (SNS) des BMU/UBA konnten wir auf die bereits 1998-2000 implementierten semantischen Strukturen des German Environmental Information Network (gein) [11] zurückgreifen. Diese sollten zu einer zweiten, auf Topic Maps basierten Generation weiterentwickelt werden. gein bietet als Navigationshilfe:
Die Topic-Typen wurden hier so gewählt, dass alle drei bestehenden Bausteine unverändert abgebildet werden können. Im Vordergrund stand die Kompatibilität (und Vergleichbarkeit) mit bestehenden Anwendungen. Einen Überblick zeigt Abb. 1. Abb. 1: Typologie der SNS Topic Map Deutlich erkennbar ist zunächst die klassisch belassene Struktur des Thesaurus. Ober-, Unter- und Verwandte Begriffe können nur zwischen Deskriptoren verwendet werden, Synonyme verweisen auf bevorzugte Deskriptoren, die an ihrer Stelle verwendet werden sollen. Eine Komponente dagegen kann mit allen Thesaurus-Typen eine Verbindung als zusammengesetzter Begriff eingehen. Stopworte (z.B. Artikel oder Bindeworte) sind bisher nicht weiter klassifiziert, aber auch hier ist eine Zuordnung zu Deskriptoren denkbar, die gelegentlich helfen könnte, Mehrdeutigkeiten im Satz aufzulösen. Der Ereignis-Kalender ist bisher nur flach untergliedert: Aktionen, Geschichte, Gesetze, Gründungen, Katastrophen, Konferenzen, Konventionen, Literatur, Natur des Jahres, Richtlinien, Schiffsunfälle und Störfälle bestimmen die Entwicklung der Umwelt. Ereignisse können miteinander verwandt sein. Die Orte sind etwas tiefer untergliedert: Administrative Einheiten mit der Hierarchie Staat-Land-Kreis-Bezirk-Gemeinde; Geschützte Gebiete mit Biosphäre, Nationalpark, Naturpark, Schutzgebiet; Gewässer mit Fluss, Kanal, Meer, See, Talsperre; Land mit Berg, Gebirge, Insel, Landschaft, Naturraum und Wassereinzugsgebiet. Zwei Orte sind mit einer Lagebeziehung verknüpft, wenn sie sich räumlich überschneiden oder aneinander unmittelbar angrenzen. Soweit sind die drei bisherigen Strukturen verlustfrei (und reproduzierbar) in einer gemeinsamen Topic Map abgebildet. Eine stärkere Integration wurde begonnen, indem von den Ereignissen aus Assoziationen zu Thesaurus-Deskriptoren (Was ist geschehen?) und zu Orten (Wo ist es geschehen?) geknüpft wurden. Hierbei half bereits der Topic Map Agent. Damit kann die oben gestellt Frage Was ist seit der Konferenz von Rio geschehen? von der Topic Map selbst mit einer sehr genauen Suchbedingung beantwortet werden, ohne dass der Fragende sich an den Zeitpunkt der Konferenz erinnern muss: Suche die wichtigsten Informationen zu Klimarahmenkonvention und Kohlendioxid-Emission und Vertragsstaatenkonferenzen ohne spezifischen Ortsbezug (global) nach 1992. Assoziationen in Topic Maps sind grundsätzlich nicht gerichtet, also bidirektional. Assoziationsregeln können dennoch verhindern, dass die assoziierten Topics beliebig vertauscht werden. Während eine lose Verwandtschaft zwischen zwei Ereignissen tatsächlich für beide Ereignisse gleich gilt, dürfen z.B. Ober- und Unterbegriff nicht vertauscht werden. Die Assoziationsregel legt daher (durch Benennung) die unterschiedlichen Rollen ihrer beiden Mitglieder fest. Vorkommensrollen (occurrence roles) sind in SNS noch relativ gering entwickelt. Ein komplexer Dokumentenindex (140.000 Webseiten von 70 Informationsanbietern) liegt außerhalb der Topic Map und enthält zu jedem Dokument Links auf die charakterisierenden Topics. Bei den occurrences verhält es sich genau andersherum: Hier enthalten die Topic-Daten Links zu einer Auswahl relevanter Dokumente, die das Topic näher charakterisieren. Die Auswahl derartiger Dokumente wurde inzwischen für die Ereignisse begonnen. Verständlicherweise bedarf es hier einer sorgfältigen inhaltlichen Redaktion. Vom Standpunkt des Topic Map-Designers wäre zu wünschen, dass über die konsistente Abbildung der geerbten Strukturen hinaus eine freiere Typologie entsteht. Der recht formale Thesaurus-Ansatz ließe sich z.B. überwinden, wenn man zwischen Aufgaben, Techniken und Risiken als Topic Typen unterscheidet. Dies, wie auch die bereits erwähnte Integration von Akteuren (Personen, Organisationen) und Vorhaben (z.B. Forschungsprojekte, Fördermaßnahmen), kann ohne weiteres später in die bestehende Topic Map eingesetzt werden, durch zusätzliche Topic-Typen und weitere Schichten der Vernetzung (Assoziationen). Datenintegration Der engagierte Taxonomist, der in der Modellierung und Zuordnung der Typologie von Themen aufgeht, ist normalerweise nicht auch gleichzeitig in der Welt der physikalischen Datenmodelle bewandert. Hier ist wirkliches Teamwork zwischen Fach- und DV-Know-how gefragt! Daher drohen Projekte zu scheitern, wenn sie nur von einer der beiden Seiten betrieben werden. Das oberste Gebot der Datenfachleute ist Konsistenz. Konsistenz mit den geerbten (den Taxonomisten bestens bekannten) Strukturen und Konsistenz der Vernetzungen untereinander. Nichts entwertet eine technologisch brillante Lösung so sehr wie ein inhaltlich falsch gesetzter Zeiger, ob es sich um vertauschte Ober- und Unterbegriffe handelt oder um eine schlichtweg falsche Lagebeziehung. Der erste Schritt muss daher die Einrichtung eines übergreifend eindeutigen Schlüsselsystems sein. Dies ist einfach zu lösen, indem man z.B. ein (eindeutiges) Kürzel der jeweiligen Datenquelle dem dort verwendeten Schlüssel voransetzt. Leicht getan - aber verhängnisvoll, wenn es vergessen wird. Jedes Objekt in der neuen Struktur muss zweifelsfrei einem Objekt in der alten Struktur zuzuordnen sein. Wenn in der neuen Quelle editiert wird, so wird man bei anspruchsvolleren Anwendungen um Versionskontrolle und Rückexport in die alte Quelle nicht herumkommen - es sei denn, man löst die alte Quelle sofort ab. Aber diesen Sprung ins kalte Wasser wird kaum eine Organisation wagen, wenn sie ihre Terminologie überhaupt ernst nimmt. Eine bidirektionale Integration sollte zumindest jederzeit möglich sein (Rück-Abbildbarkeit). Daher macht die Datenintegration fast immer eine längere Projektphase aus, nicht eine einmalige Prozedur. Häufig werden gerade in dieser Phase inhaltliche Fehler (falsche oder tote Zuordnungen) entdeckt, die seit Jahren niemandem aufgefallen waren. Wehe dem Projekt, dass hier nicht klären kann, ob solche Fehler bereits in der Quelle existierten. Die Datenintegration ist immer ein Meilenstein in der Geschichte der Domänenterminologie, sie gerät unversehens zur inhaltlichen Revision. In besonders pikanten Situationen gerät man , wenn solche Fehler in der neuen Fassung korrigiert werden, in den Quellen aber nicht. Beim nächsten Re-Import kommt Freude auf! Technisch gesehen hat es sich bewährt, alle Quellen in ein gemeinsames Austauschformat zu konvertieren. Dies muss nicht das produktive Datenformat der Topic Map selbst sein, dieses kann laufend weiter optimiert werden, ohne mehr als nur die eigene Schnittstelle zum Austauschformat zu berühren. Nahezu selbstverständlich ist inzwischen, dass das Austauschformat eine XML-Struktur hat - es gibt einfach keinen Grund, die in XML bereits definierten Festlegungen für die eigene Anwendung noch einmal selbst zu erfinden. Für Topic Maps wird von ISO/SC 34 ein spezifisches XML-Austauschformat empfohlen (siehe Abschnitt XML und Topic Maps), dieses ist jedoch aufgrund seiner extrem hoch angesetzten Abstraktion nicht einfach anzuwenden. Es ist vor allem sinnvoll, um eine fertige Topic Map global zu kommunizieren. Für die eigene Datenintegration besteht hier Freiheit. XML und Topic Maps Eine derartige Gesamtkonzeption scheint zunächst allgemein unabhängig von der Verwendung einer Markup-Language. Tatsächlich aber sind Topic Maps unmittelbar aus dem Kreis der SGML-Standardisierung [14] entstanden. Der Topic Map ISO Standard 13250 [15] wurde zwar ein Jahr nach der XML 1.0 Recommendation vorgelegt, sieht aber als Austauschformat noch eine SGML DTD vor. Es wird jedoch ausdrücklich auf die Möglichkeit eines XML-Formats hingewiesen, da XML ein Sub-Set von SGML ist. Seit 2000 gibt es mit XTM [16] ein von ISO SC 34 empfohlenes XML-Austauschformat. XML wurde bekanntlich nicht von ISO, sondern vom World Wide Web Consortium (W3C) standardisiert. Hier sucht man nach Topic Maps vergeblich. Die Diskussion des Semantic Web (www.w3.org/2001/sw/) spricht noch sehr allgemein von einer Web Ontology Language, ohne etwas mit Topic Maps Vergleichbares zu bieten. Das Resource Description Framework (RDF) bietet zwar eine allgemeine Methode, um Ressourcen (Informationen) mit Metadaten zu verknüpfen, Topic Maps sind dagegen ein Behälter, um diese Metadaten selbst zu strukturieren. XML in Verbindung mit XSLT erleichtert die Datenintegration bestehender Taxonomien ungemein. Die Topic Map Engine von SchlumbergerSema verwendet darüber hinaus ein XML Schema als produktives Datenmodell. Die Datenhaltung erfolgt wahlweise als relationale Abbildung oder aber unmittelbar in XML (Tamino). Das XML Schema ist zugleich die Grundlage für eine Web Services-Schnittstelle, mit der kooperierende Informationssysteme die SNS-Dienste online nutzen können. Redaktionelle Pflege Wer selbst eine Topic Map einrichten und betreiben möchte, sollte sich beizeiten auf eine kontinuierliche redaktionelle Pflege auch nach der Integrationsphase einstellen. Die Investition in das neue Navigationssystem ist schnell entwertet, wenn die Benutzer nach einiger Zeit eine schon veraltete Begriffswelt vorfinden. In den meisten Domänen gibt es zwar einen großen Stammbereich zeitloser Terminologie, aber die Nutzer sind gewöhnlich am stärksten an den Neuigkeiten interessiert. Ein Beispiel aus SNS: Im Frühjahr 2002 geriet von heute auf morgen plötzlich das Stichwort Dosenpfand ins Rampenlicht der Presse. Zunächst suchte man es vergeblich im Thesaurus (und in der Topic Map). Solche Zeitverzögerungen sind vor allem deshalb besonders kritisch, weil sie den Nutzer enttäuscht in dem Glauben zurücklassen, eine einfache Freitextsuche (die ja lediglich Buchstabenfolgen vergleicht) sei effizienter. Hier wird also ein aufmerksames Redaktionsteam benötigt, das die bestehende Topic Map in- und auswendig kennt. Dies ist eine linguistische Arbeit, die nicht von Technikern nebenbei, sondern eher von hauptberuflichen Dokumentaren und Marketing-Spezialisten bewältigt werden kann. Hilfreich ist eine differenzierte Statistik über die Verwendung der einzelnen Topics durch die Nutzer, auch über nicht in der Topic Map gefundene Suchworte. Darüber hinaus kann natürlich auch die Topic Map aktiv in die Planung von Kampagnen einbezogen werden, indem neue buzzwords frühzeitig herausgestellt werden. Topic Map-Agenten Eine allein stehende Topic Map ist zwar interessant und nützlich (ähnlich wie ein weit vernetztes Lexikon), wird aber noch nicht der beabsichtigten Rolle als Navigationswerkzeug gerecht. Dies erfüllt erst eine spezialisierte Anwendung, Topic Map Engine [12] oder allgemeiner semantic agent genannt. Ist die Topic Map der Stadtplan, so ist der Agent sozusagen das Taxi im Land des Wissens. Hierzu muss er sich zunächst selbst eine ausgezeichnete Ortskenntnis erwerben (und aktuell halten), indem er den Wissensbestand (weitgehend automatisch) durchforstet und für jedes Dokument die signifikanten Topics auswählt und hinterlegt. Voraussetzung hierfür sind einige linguistische Erweiterungen wie Wortmorphologie [13] und Stopworte. Für den Suchenden hält der Agent den spiegelbildlichen Prozess bereit: als Sucheingabe dient beliebiger Freitext z.B. einige Worte, aber auch ein komplexes Zitat aus einem bestehenden Dokument. Der Agent analysiert auch dieses Textfragment und schlägt die offenbar signifikanten Topics vor, mit denen gesucht werden sollte. Von hier aus kann der Anwender die Suche ausführen oder zunächst in den Assoziationen der Topic Map navigieren. Falls Personalisierung unterstützt werden soll, kann der Anwender seine Themenschwerpunkte als Auswahl von Topics registrieren z.B. um einen hierauf spezialisierten News-Service zu abonnieren. Fazit Wie alle erfolgreichen Ideen ist das grundlegende Konzept der Topic Map einfach. Herausforderungen treten erst auf, wenn die Komplexität der realen Welt oder auch das Weltbild einer komplexen Organisation modelliert werden sollen. Diese Herausforderungen sind semantischer Art, nicht technischer. Von der Technik wird in erster Linie Zuverlässigkeit und Performanz benötigt. Die bestehenden XML-Definitionen (ISO 13250) bieten eine solide Grundlage vor allem für die Kommunikation von Topic Maps, auch über Web Services, die produktive Datenhaltung kann davon abweichen. Den entscheidenden Nutzen entwickelt eine Topic Map jedoch erst dann, wenn sie zum intelligent agent ausgebaut wird und mit Hilfe linguistischer Analysen die großen Mengen unstrukturierter Information erschließt, die uns alle umgeben. Links und Literatur
|
||
|