SuchdiensteNachdem in der Einleitung deutlich gemacht wurde, welche Anforderungen und Probleme eine Wissens- und Informationsdatenbank, wie sie das Internet heute darstellt, bezügliche der Suche von spezieller Information mit sich bringt, werden nachfolgend derzeit gängige Ansätze, Verfahren bzw. Systeme zur Wissensauffindung beschrieben.Grundlegende VerfahrenSammeln und Aufbereiten der InformationDie im folgenden angeführten Möglichkeiten zur Lokalisierung von Dokumenten sind nicht klar abgrenzbar. Kombinationen sind vielfach vorhanden. Eine Sonderstellung nehmen Informationssysteme ein, die ein integriertes Suchsystem beinhalten. [Koc96] So passiert die Aktualisierung des Suchsystems beim Hyperwave-Server (siehe Abschnitt 2.4) automatisch mit der Veränderung des Informationsangebotes.Vollautomatische AuffindungHierbei navigiert ein Programm (Robots, Bots bzw. Spiders), wie der Benutzer mit Hilfe von Hyperlinks beim WWW, Menüs bei Gopher oder der Verzeichnisstruktur bei FTP, im Informationsraum. Die Information der Dokumente wird automatisch verarbeitet. Der Umfang kann dabei von einer Kurzbeschreibung (Autor, Titel, Schlüsselwörter, Erstelldatum etc.) bis zur Volltext-Information reichen. Zusätzlich können Wörter aufgrund ihrer Formatierung im Text als Schlüsselwörter eingestuft werden. Bei HTML-Dokumenten wird weiters die Metainformation aus den Meta-Tags gewonnen. Die so gesammelte Information dient als Basis einer Informationsstruktur (meist eine Datenbank) und wird, nach eventueller Nachbearbeitung (Stoppliste, Stemming, Kleinschreibung, Bedeutungssubstitution)
indiziert. [Koc96]
Anmelden von InformationseinheitenHier meldet der Autor seine Dokumente bei einem Suchsuchdienst an. Dies geschieht unter Verwendung eines Formulars, das auch der Eingabe von Zusatzinformation dient. Diese angemeldeten Dokumenten können nun je nach Art des Suchdienstes als
Redaktionelle RechercheDie redaktionelle Recherche basiert üblicherweise auf Suchergebnissen einer vollautomatischen Auffindung. Redaktionsteams können auch von sich aus Hypertext-Strukturen zu bestimmten Themenkreisen verfolgen und passende Informationseinheiten aufnehmen. Darüberhinaus werden auch vorangemeldete Dokumente gesichtet, kategorisiert und aufgenommen. Mit dieser Methode lassen sich auch Bewertungen der Server- und Dokumenteninhalte realisieren. Die Beurteilungen können die Art, die Qualität, die Aktualität und die Leserzielgruppe der Dokumente beinhalten. [Koc96]Bereitstellung der InformationWie sooft entscheidet schließlich die Schnittstelle zum Anwender über die Brauchbarkeit eines Systems. Die zwei wesentlichen Kategorien werden nun kurz beschrieben [Koc96] [GAM98].SuchkatalogeWWW-Kataloge werden von Systemen mit aktiver Anmeldung unterhalten. Sie bieten eine hierarchisch nach Sachgebieten gegliederte Suchstruktur, die das Navigieren innerhalb des Kataloges ermöglicht. Stichwortsuche ist ebenfalls oft integriert. [Koc96]SuchindexEin Suchindex hält in einer Datenbank die ausgewerteten Informationen der aufgefundenen Dokumente bereit. Der Umfang variiert stark und reicht von Dokumentenname (WAIS), kurzer Beschreibung oder Keywordliste bis hin zum Volltext. Der Benutzer des Suchdienstes kann durch Eingabe von Suchbegriffen nach den gewünschten Dokumenten suchen. Suchsysteme mit Suchindex unterscheiden sich nun hinsichtlich der Detailliertheit der Indizierung, der Anfrageformate und der Darstellung der Ergebnisse. Folgende Kriterien sind hierbei zu beachten [WMB94] [FB92]:
Der Benutzer braucht sich so nicht um die Formulierung kümmern. Da das Suchergebnis in der Regel hier besonders umfangreich sein wird, ist eine Schranke zur Reduktion der Anzahl der angezeigten Dokumente notwendig. Aufgrund der mit der Wortanzahl exponentiell steigenden Anzahl von zu generierenden Anfragen, wird der Suchaufwand sehr schnell nicht mehr bewältigbar. Einteilung von gängigen SuchdienstenDie folgenden Einteilung orientiert sich an der Arbeit von Koch [Koc96] und soll die unterschiedlichen Möglichkeiten beim Aufbau eines Suchsystems aufzeigen und zur Begriffsbestimmung dienen.
Die Unterschiede in der Gruppe der singulären Suchdienste sind in vielerlei Hinsicht erheblich. Zu den Vorteilen der Katalogsuchdienste, deren Daten "manuell'' gesammelt werden, zählt vor allem die Auswahl der Dokumente. Autoren, Lektoren und Benutzer des Systems entscheiden, ob und in welchem Maß Informationsobjekte relevant sind, ob sie in den Katalog aufgenommen und welcher Kategorie sie zugeordnet werden. Dokumente und ganze Informationsserver können in bezug auf ihre Qualität bewertet werden. Die Suche in Themenbereiche basiert auf der Navigation in hierarchisch aufgebauten Kategorien und bietet so dem Benutzer die Möglichkeit, den Zielbereich seiner Suche schrittweise einzuschränken. Katalogsuchdienste können aufgrund ihres Konzeptes sich nicht mit Indexsuchdiensten mit automatischer Auffindung messen, was Größe, Aktualität und Vollständigkeit betrifft (siehe Abschnitt 2.3.2). Die Vorgangsweise der Suchmaschinen mit vollautomatischer Auffindung
( Spiders, Robots, Wanderers, Worms) macht diese empfindlich gegen
Mißbrauch. So kann zum Beispiel durch verschiedene Tricks Durch Kombination verschiedener Konzepte wird versucht, für spezielle
Anwendungsgebiete einen brauchbaren Kompromiß zu erzielen. Metasuchdienste
nutzen selbst verschiedene andere Suchdienste, um qualitativ bessere Ergebnisse
zu erzielen. Lycos hingegen ist ein eigenständiger Suchdienst, der
aus einem Index- und Katalogsuchdienst besteht. Agents [NMW98]
haben als Suchdienstkonzept in größeren Bereichen kaum Bedeutung,
da nur wenige Informationsanbieter das Agent-Konzept unterstützen.
So hat auch Verity Schwachpunkte gängiger SuchdiensteNetzwerk- und ServerbelastungEines der Hauptprobleme der gegenwärtigen Suchsysteme mit vollautomatischer Auffindung ist das vielfache, unkoordinierte Durchsuchen des Netzes durch eine zunehmende Zahl an Suchmaschinen. Dazu kommt, daß sämtliche Rohdaten vom Server geladen, über das Netz gesandt und erst an zentraler Stelle analysiert werden. Um die Informationsserver und das Netz nicht zu überlasten, müssen die Updateintervalle entsprechend groß gewählt werden. Das geht auf Kosten der Konsistenz und Aktualität. In Tabelle 2.1 (aus [Sul98b]) sind u. a. die Größen der Auffindungsintervalle einzelner Suchdienste aufgelistet.
Kooperierende, verteilte Systeme berücksichtigen beide oben erwähnten Schwächen. Zum einen kann ein lokales Teilsystem direkt beim Informationsserver Daten auffinden, vorbereiten, komprimieren und bereitstellen. Zum anderen können mehrere Suchdienste von diesen aufbereiteten Daten Gebrauch machen. Der Server kann daher wesentlich öfter abgesucht werden, ohne daß es zu Überlastungen kommt. Auf die Vorteile der verteilten Suche wird in Abschnitt 3.4 genauer eingegangen. Vollständigkeit, Aktualität und LinkkonsistenzVollautomatische Suchdienste streben zumindest teilweise Vollständigkeit an. Da selbst große Dienste nicht ständig alle Änderungen erfassen können und das WWW keinem zusammenhängenden Graphen entspricht, läßt sich Vollständigkeit nicht zentral von einer Stelle aus erzielen. Das gleiche gilt für die Aktualität von indizierten Dokumenten und in weiterer Folge auch für die Konsitenz von Verknüpfungen der Dokumente untereinander. [Bek96]Um diesem Problemkreis zu begegnen, kann man sich bei der Auffindung zunächst auf einzelne Informationsserver beschränken. Suchprogramme, die am Rechner des Informationsservers im Hintergrund laufen und diesen periodisch absuchen, können so Vollständigkeit innerhalb ihres Bereiches erreichen. Die Aktualität und die Linkkonsistenz hängt von der Größe des Absuchintervalls im Verhältnis zur Änderungsrate am Server ab. Je öfter der Bereich abgesucht wird, desto konsistenter sind die Daten des Suchdienstes. Das Suchprogramm stellt weiters die Information des Servers für übergeordnete Suchdienste in geballter Form bereit. Dieses Konzept führt zur Architektur der verteilten Suche und wird im Abschnitt 3.1 anhand des Harvest-Suchsystems erläutert. [BDH94] Der Hyperwave-Server (siehe Abschnitt 2.4) verfügt über ein integriertes Suchsystem. Veränderungen des Datenbestandes wirken sich automatisch auf das Suchsystem aus. Die Aktualität des Suchindexes ist daher immer gegeben. Um einen größeren Informationsraum zur Suche vorbereiten zu können, eignet sich das oben erwähnte Konzept der verteilten Suche in Verbindung mit einer hierarchischen Topologie. Auf unterster Ebene stehen die lokalen Server, die die vollständige Erfassung ihrer Daten sicherstellen müssen. Darüberliegende Suchdienste fassen Informationen mehrerer Server zu Wissensclustern zusammen. Dabei kann dieses Zusammensetzen nach geographischen oder thematischen Gesichtspunkten erfolgen. [GAM98] [GDN98] Suchkataloge sind aufgrund ihrer Konzeption nicht in der Lage Vollständigkeit zu erreichen. Da diese Suchdienste von Redaktionsteams betreut werden muß, ist der Unfang eines Suchkataloges deutlich kleiner als der eines automatisch erstellten Suchindexes. Die Aktualität hängt ab von [Bek96] :
Qualität und ZuverlässigkeitQualität und Zuverlässigkeit
von angebotener Information bestimmt die Verwertbarkeit für den Benutzer
und werden mit der raschen Zunahme an Dokumenten immer wichtiger. Durch
die mannigfaltigen Arten von Anbietern und deren Anonymität sind beide
Forderungen von vornherein nicht gegeben. [Bek96]
Die Qualitätsangaben von ganzen Informationsservern und auch einzelnen Dokumenten bleibt vorerst Lektoren (manuelle Recherche, siehe Abschnitt 2.1.1) vorbehalten. Die Bereitstellung von Bewertungen von vorhandener Information könnte sich parallel zu den Suchdiensten als eigenständiger, kommerzieller Dienst entwickeln. Des weiteren könnten Bewertungen durch den Benutzer in das System rückfließen. [GDN98] Suche in HyperwaveIm Gegensatz zum Webserver, wo ein Suchindex lediglich einen vom Administrator einzurichtenden Zusatz darstellt und externe Suchdienste die Daten über das Netz auffinden und weiterverarbeiten, ist die Suchmöglichkeit in Hyperwave bereits integriert. Nachfolgende Zusammenfassung orientiert sich an [Mau96] und [Hyp98].Hyperwave setzt nicht wie gewöhnliche Server Alle Objekte (Dokumente, Kollektionen, Links) werden beim Anlegen in der Datenbank gespeichert. Durch die bidirektionale Verknüpfung der Hyperdokumente tritt das Problem der Linkinkonsistenz nicht auf. Beim Löschen eines Dokumentes werden aus der Datenbank alle ein- und ausgehenden Verknüpfungen ebenfalls entfernt. Aus dem bisher erwähnten läßt sich schließen, daß auch Aktualität und Vollständigkeit implizit gewährleistet sind. Die oben genannten Eigenschaften erlauben es nicht nur, die gefundenen Dokumente in ihrer Hierarchie anzuzeigen, sondern auch die benachbarten Dokumente und ihre Verknüpfungsbeziehungen in Form eines mit Hyperlinks versehenen Graphen auszugeben. Suchen und Navigieren fließt ineinander über. Die Suche läßt sich auch auf einen Teilbaum der Dokumentenstruktur beschränken, wobei sich dieser auf verschiedenen Hyperwave-Server befinden kann. Eine Sucheabfrage kann auch auf die Ergebnismenge einer vorangegangenen Anfrage eingeschränkt werden. So kann man schrittweise die Anfrage präzisieren, ohne daß der ganze Bereiche neuerlich durchsucht werden muß. Jedes Hyperwave-Objekt besitzt ein Vielzahl von Metainformation (Attribute). Die Indizierung der wichtigsten Attribute (Titel, Autor, Schlüsselwörter, Datum der Generierung etc.) macht eine schnelle Suche möglich. Boolsche Verknüpfungen werden bei der Abfrage ebenso unterstützt wie Präfix- und Bereichssuche. Nichtindizierte Attribute können nur in Verbindung mit einer Indexsuche verwendet werden; sie engen das Ergebnis ein. Reguläre Ausdrücke werden unterstützt. Weiters können beliebige Attribute von den Autoren hinzugefügt werden und diese vom System indiziert und somit suchbar gemacht werden. Zusätzlich zur Suche über die Metainformation ist jedes Textdokument über Volltextsuche zugänglich. Die neueren Versionen ermöglichen auch das Suchen über mehrere Hyperwave-Server (Serverpool). Hyperwave kann statt der eigenen Suchmaschine mit dem Verity-Suchsystem konfiguriert werden. Verity verfügt über einen Thesaurus, um auch Wörter gleicher Bedeutung in die Suche miteinbeziehen zu können. Stemming wird ebenso angewandt wie ein Verfahren, das erlaubt, nach ähnlich klingenden Wörtern zu suchen. Dabei ist die Suche nicht auf HTML-Dokumente beschränkt. Formate wie Word und Excel werden unterstützt. Das Hyerwave-Suchsystems ermöglicht die Verwendung sogenannter
Query Objects. Diese Suchanfragen werden im Hyperwave-Server gespeichert
und periodisch ausgewertet. Die Resultate werden via Email an den Benutzer
versandt. Sie können auch durch vom Benutzer zu beliebiger Zeit ausgeführt
werden (Konzept der vordefinierte Suche). Es wäre naheliegend, die
vom System indizierten Daten in geeigneter Form ZusammenfassungVerschiedene Methoden der Lokalisierung von Dokumenten und der Aufbereitung deren Inhalts sind die Basis der Suchdienste. Durch aktives Anmelden können Autoren ihre Dokumente in einen Suchdienst aufnehmen lassen. Bei der redaktionellen Recherche verfolgen Lektoren die Hypertext-Strukturen und nehmen passende Dokumente in ihren Suchdienst auf. Robots, Bots bzw. Spiders navigieren mit Hilfe von Hyperlinks, Menüs und Verzeichnisstrukturen im Informationsraum und verarbeiten die auffgefundenen Dokumente automatisch.Die Bereitstellung der Information wird durch thematische Kataloge, durch einen Suchindex oder durch Mischformen aus beiden realisiert. Während der Benutzer bei Verwendung eines Kataloges sich schrittweise der gewünschten Dokumentenmenge "nähert'', muß er beim Suchindex durch Angaben von Suchwörtern seine Suche formulieren. Unterstützt wird er dabei durch verschiedene Verfahren (siehe Abschnit 2.1.2). Gängige Suchdienste bauen auf diese Basismethoden auf. Sie arbeiten meist unabhängig von einander und laden Daten vom Informationsserver über das Netz, um den Inhalt zu verarbeiten und bereitzustellen. Diese unkoordinierte, zentrale Vorgangsweise führt zu enormer Netz- und Serverlast. Weitere Probleme liegen zum Beispiel auf dem Gebiet der Aktualität und der Qualität der angebotenen Information. (siehe Abschnitt 2.3) Der Hyperwave-Server (siehe Abschnitt 2.4) verfügt über ein integriertes Suchsystem. Veränderungen des Datenbestandes wirken sich automatisch auf das Suchsystem aus. So ist zum Beispiel die Aktualität des Suchindexes ist immer gegeben. Das Harvest-System [BDH94]
der Universität von Colorado ist ein Vertreter des Prinzips der verteilten
Suche. Viele der in diesem Kapitel beschriebenen Schwachpunkte gängiger
Suchmaschinen können durch dieses Konzept vermieden werden. Dieses
System wird im folgenden Kapitel vorgestellt.
Nächste Kapitel: Das Harvest-Suchsystem Vorhergehendes Kapitel: Einleitung |
>> Ressourcen > Theses > Neussl, Dietmar[..] > HTML-Version > Suchdienste

