>> Ressourcen > Theses > Neussl, Dietmar[..] > HTML-Version > Suchdienste

 

Suchdienste

Nachdem in der Einleitung deutlich gemacht wurde, welche Anforderungen und Probleme eine Wissens- und Informationsdatenbank, wie sie das Internet heute darstellt, bezügliche der Suche von spezieller Information mit sich bringt, werden nachfolgend derzeit gängige Ansätze, Verfahren bzw. Systeme zur Wissensauffindung beschrieben. 

Grundlegende Verfahren

Sammeln und Aufbereiten der Information

Die im folgenden angeführten Möglichkeiten zur Lokalisierung von Dokumenten sind nicht klar abgrenzbar. Kombinationen sind vielfach vorhanden. Eine Sonderstellung nehmen Informationssysteme ein, die ein integriertes Suchsystem beinhalten. [Koc96] So passiert die Aktualisierung des Suchsystems beim Hyperwave-Server (siehe Abschnitt 2.4) automatisch mit der Veränderung des Informationsangebotes. 

Vollautomatische Auffindung

Hierbei navigiert ein Programm (Robots, Bots bzw. Spiders), wie der Benutzer mit Hilfe von Hyperlinks beim WWW, Menüs bei Gopher oder der Verzeichnisstruktur bei FTP, im Informationsraum. Die Information der Dokumente wird automatisch verarbeitet. Der Umfang kann dabei von einer Kurzbeschreibung (Autor, Titel, Schlüsselwörter, Erstelldatum etc.) bis zur Volltext-Information reichen. Zusätzlich können Wörter aufgrund ihrer Formatierung im Text als Schlüsselwörter eingestuft werden. Bei HTML-Dokumenten wird weiters die Metainformation aus den Meta-Tags gewonnen. Die so gesammelte Information dient als Basis einer Informationsstruktur (meist eine Datenbank) und wird, nach eventueller Nachbearbeitung (Stoppliste, Stemming, Kleinschreibung, Bedeutungssubstitution)gif indiziert. [Koc96

Anmelden von Informationseinheiten

Hier meldet der Autor seine Dokumente bei einem Suchsuchdienst an. Dies geschieht unter Verwendung eines Formulars, das auch der Eingabe von Zusatzinformation dient. Diese angemeldeten Dokumenten können nun je nach Art des Suchdienstes als 
  • Startpunkt der automatischen Absuche (Linkverfolgung), oder als 
  • Eintrag in einem Suchkatalog 
verwendet werden. [Koc96

Redaktionelle Recherche

  Die redaktionelle Recherche basiert üblicherweise auf Suchergebnissen einer vollautomatischen Auffindung. Redaktionsteams können auch von sich aus Hypertext-Strukturen zu bestimmten Themenkreisen verfolgen und passende Informationseinheiten aufnehmen. Darüberhinaus werden auch vorangemeldete Dokumente gesichtet, kategorisiert und aufgenommen. Mit dieser Methode lassen sich auch Bewertungen der Server- und Dokumenteninhalte realisieren. Die Beurteilungen können die Art, die Qualität, die Aktualität und die Leserzielgruppe der Dokumente beinhalten. [Koc96

Bereitstellung der Information

  Wie sooft entscheidet schließlich die Schnittstelle zum Anwender über die Brauchbarkeit eines Systems. Die zwei wesentlichen Kategorien werden nun kurz beschrieben [Koc96] [GAM98]. 

Suchkataloge

WWW-Kataloge werden von Systemen mit aktiver Anmeldung unterhalten. Sie bieten eine hierarchisch nach Sachgebieten gegliederte Suchstruktur, die das Navigieren innerhalb des Kataloges ermöglicht. Stichwortsuche ist ebenfalls oft integriert. [Koc96

Suchindex

  Ein Suchindex hält in einer Datenbank die ausgewerteten Informationen der aufgefundenen Dokumente bereit. Der Umfang variiert stark und reicht von Dokumentenname (WAIS), kurzer Beschreibung oder Keywordliste bis hin zum Volltext. Der Benutzer des Suchdienstes kann durch Eingabe von Suchbegriffen nach den gewünschten Dokumenten suchen. Suchsysteme mit Suchindex unterscheiden sich nun hinsichtlich der Detailliertheit der Indizierung, der Anfrageformate und der Darstellung der Ergebnisse. Folgende Kriterien sind hierbei zu beachten [WMB94] [FB92]: 
boolsche Anfragelogik: 
Sie ist in den meisten Suchindexsystemen integriert, ist aber aus der Sicht des Benutzers nicht ideal, da sie Grundkenntnisse der Boolschen Algebra erfordert. 
Quorum-Level: 
Dieser Ansatz kommt zunächst ohne boolscher Logik aus. Der Benutzer gibt lediglich die Suchbegriffe ein. Das Retrieval-System erzeugt aus diesen einen Menge von boolschen Anfragen, die von "sehr eng'' (ausschließlich UND-Verknüpfungen) bis "sehr weit'' (ausschließlich ODER-Verknüpfungen) reichen (siehe Abbildung 2.1). Diese Anfragen werden an den Suchindex gesandt. Die Ergebnisse werden entsprechend der zugrundeliegenden Anfrage gereiht und ausgegeben. Je mehr Konjunktionen die Disjunktionsterme enthalten, desto gewichtiger sind ihre Treffer im Gesamtsuchergebnis. 
figure530 
Abbildung 2.1: Quorum-Level: Beispiel einer Query-Hierarchie

Der Benutzer braucht sich so nicht um die Formulierung kümmern. Da das Suchergebnis in der Regel hier besonders umfangreich sein wird, ist eine Schranke zur Reduktion der Anzahl der angezeigten Dokumente notwendig. Aufgrund der mit der Wortanzahl exponentiell steigenden Anzahl von zu generierenden Anfragen, wird der Suchaufwand sehr schnell nicht mehr bewältigbar. 

Beziehung einzelner Suchwörter untereinander: 
Die Position jedes Wortes innerhalb eines Textes kann mitgespeichert werden. Dadurch lassen sich dann Anfragen wie folgt realisieren. 
  • Wort A vor/nach Wort B 
  • Wort A in Satz B 
  • Wort A in Kapitel B 
Auch hier steigt der Aufwand mit steigender Auflösung der Wortposition. Dies betrifft die Größe des Index und die Dauer der Abfragenbearbeitung. 
Nachbearbeitunggif : 
kann der Benutzer zusätzlich jedes Suchwort innerhalb der Abfrage mit einem Gewicht versehen, das der relativen Wichtigkeit des Wortes in der gesamten Abfrage entspricht. Die erhaltenen Dokumente können nun bezüglich dieser Gewichtung gereiht, weiterverwendet oder verworfen werden. Es ist klar, daß die Suche im Index dadurch stark an Komplexität gewinnt. 

Einteilung von gängigen Suchdiensten

Die folgenden Einteilung orientiert sich an der Arbeit von Koch [Koc96] und soll die unterschiedlichen Möglichkeiten beim Aufbau eines Suchsystems aufzeigen und zur Begriffsbestimmung dienen. 
  • Singuläre Suchdienste 
    • Indexsuchdienste mit vollautomatischer Auffindung 
      • Volltext- und reduzierter Volltextindex 
      • AltaVista http://www.altavista.digital.com/
        HotBot http://www.hotbot.com/
        Harvest http://harvest.austria.eu.net/ 
      • Schlüsselwörter und Metadaten 
      • Magellan http://www.mckinley.com/
        WWW-Worm http://www.cs.colorado.edu/wwww/ 
         
    • Katalogdienste mit aktivem Anmelden und Redaktionsteams 
    • Yahoo http://www.yahoo.com/
      Web.de http://www.web.de/
      Dino.online http://www.dino-online.de/
      Henkel http://www.henkel.co.at/henkel/ha_www_1.html 
       
  • Metasuchdienst und Kombinationen 
    • Metasuchdienst durch Nutzung mehrerer Suchdienste 
    • MetaCrawler http://metacrawler.cs.washington.edu:8080/
      IBM infoMarket http://infomarket.ibm.com/
      Inference Find http://www.inference.com:8080/ 
    • Zusammenfassung mehrerer Katalogsuchdienste 
    • Metaindex European Web http://www.hj.se/hs/bibl/miewww/ 
    • Kombination von Index- und Katalogsuchdiensten 
    • Lycos http://www.lycos.com/ 
       
  • Intelligent Agents 
  • Verity http://www.verity.com/ 
     
Diese Einteilung soll die unterschiedlichen Möglichkeiten beim Aufbau von Suchsystemen aufzeigen. Jedes Verfahren bietet in Teilbereichen Vorteile. Diesen stehen mehr oder weniger ausgeprägte Schwachstellen gegenüber (siehe auch Abschnitt 2.3). 

Die Unterschiede in der Gruppe der singulären Suchdienste sind in vielerlei Hinsicht erheblich. Zu den Vorteilen der Katalogsuchdienste, deren Daten "manuell'' gesammelt werden, zählt vor allem die Auswahl der Dokumente. Autoren, Lektoren und Benutzer des Systems entscheiden, ob und in welchem Maß Informationsobjekte relevant sind, ob sie in den Katalog aufgenommen und welcher Kategorie sie zugeordnet werden. Dokumente und ganze Informationsserver können in bezug auf ihre Qualität bewertet werden. Die Suche in Themenbereiche basiert auf der Navigation in hierarchisch aufgebauten Kategorien und bietet so dem Benutzer die Möglichkeit, den Zielbereich seiner Suche schrittweise einzuschränken. Katalogsuchdienste können aufgrund ihres Konzeptes sich nicht mit Indexsuchdiensten mit automatischer Auffindung messen, was Größe, Aktualität und Vollständigkeit betrifft (siehe Abschnitt 2.3.2). 

Die Vorgangsweise der Suchmaschinen mit vollautomatischer Auffindung ( Spiders, Robots, Wanderers, Worms) macht diese empfindlich gegen Mißbrauch. So kann zum Beispiel durch verschiedene Tricksgif erreicht werden, daß Dokumente bei der Ergebnisanzeige unangemessen weit vorne plaziert werden. Der große Vorteil dieser Dienste liegt in ihrem vergleichsweise hohen Grad an Aktualität und Vollständigkeit (siehe Abschnitt 2.3.2). Innerhalb dieser Gruppe existieren Unterschiede auf dem Gebiet der Indizierung (Volltext, Schlüsselwörter, Metadaten) und dem thematischen und geographischen Deckungsbereich. So indizieren Magellan und WWW-Worm keinen Volltext, Web.de und Dino.online nur deutsche Quellen. 

Durch Kombination verschiedener Konzepte wird versucht, für spezielle Anwendungsgebiete einen brauchbaren Kompromiß zu erzielen. Metasuchdienste nutzen selbst verschiedene andere Suchdienste, um qualitativ bessere Ergebnisse zu erzielen. Lycos hingegen ist ein eigenständiger Suchdienst, der aus einem Index- und Katalogsuchdienst besteht. Agents [NMW98] haben als Suchdienstkonzept in größeren Bereichen kaum Bedeutung, da nur wenige Informationsanbieter das Agent-Konzept unterstützen. So hat auch Veritygif nur eine begrenzte Reichweite (Intranet). 

Schwachpunkte gängiger Suchdienste 

Netzwerk- und Serverbelastung

Eines der Hauptprobleme der gegenwärtigen Suchsysteme mit vollautomatischer Auffindung ist das vielfache, unkoordinierte Durchsuchen des Netzes durch eine zunehmende Zahl an Suchmaschinen. Dazu kommt, daß sämtliche Rohdaten vom Server geladen, über das Netz gesandt und erst an zentraler Stelle analysiert werden. Um die Informationsserver und das Netz nicht zu überlasten, müssen die Updateintervalle entsprechend groß gewählt werden. Das geht auf Kosten der Konsistenz und Aktualität. In Tabelle 2.1 (aus [Sul98b]) sind u. a. die Größen der Auffindungsintervalle einzelner Suchdienste aufgelistet. 
 
 
Name Anzahl indizierter Seiten Seiten pro Tag Update-Rate 
Alta Vista 140 Millionen 10 Millionen 1Tag bis 1 Monat
HotBot 110 Millionen bis 10 Millionen 1 Tag bis 2 Wochen
Lycos 30 Millionen 6 bis 10 Millionen 2 bis 3 Wochen
Tabelle 2.1: Suchdienste in Zahlen (aus [Sul98b] August 1998)  
 

Kooperierende, verteilte Systeme berücksichtigen beide oben erwähnten Schwächen. Zum einen kann ein lokales Teilsystem direkt beim Informationsserver Daten auffinden, vorbereiten, komprimieren und bereitstellen. Zum anderen können mehrere Suchdienste von diesen aufbereiteten Daten Gebrauch machen. Der Server kann daher wesentlich öfter abgesucht werden, ohne daß es zu Überlastungen kommt. Auf die Vorteile der verteilten Suche wird in Abschnitt 3.4 genauer eingegangen. 

Vollständigkeit, Aktualität und Linkkonsistenz

  Vollautomatische Suchdienste streben zumindest teilweise Vollständigkeit an. Da selbst große Dienste nicht ständig alle Änderungen erfassen können und das WWW keinem zusammenhängenden Graphen entspricht, läßt sich Vollständigkeit nicht zentral von einer Stelle aus erzielen. Das gleiche gilt für die Aktualität von indizierten Dokumenten und in weiterer Folge auch für die Konsitenz von Verknüpfungen der Dokumente untereinander. [Bek96

Um diesem Problemkreis zu begegnen, kann man sich bei der Auffindung zunächst auf einzelne Informationsserver beschränken. Suchprogramme, die am Rechner des Informationsservers im Hintergrund laufen und diesen periodisch absuchen, können so Vollständigkeit innerhalb ihres Bereiches erreichen. Die Aktualität und die Linkkonsistenz hängt von der Größe des Absuchintervalls im Verhältnis zur Änderungsrate am Server ab. Je öfter der Bereich abgesucht wird, desto konsistenter sind die Daten des Suchdienstes. Das Suchprogramm stellt weiters die Information des Servers für übergeordnete Suchdienste in geballter Form bereit. Dieses Konzept führt zur Architektur der verteilten Suche und wird im Abschnitt 3.1 anhand des Harvest-Suchsystems erläutert. [BDH+94

Der Hyperwave-Server (siehe Abschnitt 2.4) verfügt über ein integriertes Suchsystem. Veränderungen des Datenbestandes wirken sich automatisch auf das Suchsystem aus. Die Aktualität des Suchindexes ist daher immer gegeben. 

Um einen größeren Informationsraum zur Suche vorbereiten zu können, eignet sich das oben erwähnte Konzept der verteilten Suche in Verbindung mit einer hierarchischen Topologie. Auf unterster Ebene stehen die lokalen Server, die die vollständige Erfassung ihrer Daten sicherstellen müssen. Darüberliegende Suchdienste fassen Informationen mehrerer Server zu Wissensclustern zusammen. Dabei kann dieses Zusammensetzen nach geographischen oder thematischen Gesichtspunkten erfolgen. [GAM98] [GDN+98

Suchkataloge sind aufgrund ihrer Konzeption nicht in der Lage Vollständigkeit zu erreichen. Da diese Suchdienste von Redaktionsteams betreut werden muß, ist der Unfang eines Suchkataloges deutlich kleiner als der eines automatisch erstellten Suchindexes. Die Aktualität hängt ab von [Bek96] : 

Web-Autoren 
: Sie müssen die Dokumente beim Katalog anmelden und sind somit selbst verantwortlich für die Aktualität des Suchdienstes. 
Redaktionsteams 
: Erst wenn die angemeldeten Dokumente von einem Redaktionsteam gesichtet und bewertet wurden, werden dies in den Katalog aufgenommen. Je öfter dieser Vorgang stattfindet, desto besser wird die Aktualität des Kataloges. 

Qualität und Zuverlässigkeit

Qualität und Zuverlässigkeitgif von angebotener Information bestimmt die Verwertbarkeit für den Benutzer und werden mit der raschen Zunahme an Dokumenten immer wichtiger. Durch die mannigfaltigen Arten von Anbietern und deren Anonymität sind beide Forderungen von vornherein nicht gegeben. [Bek96

Die Qualitätsangaben von ganzen Informationsservern und auch einzelnen Dokumenten bleibt vorerst Lektoren (manuelle Recherche, siehe Abschnitt 2.1.1) vorbehalten. Die Bereitstellung von Bewertungen von vorhandener Information könnte sich parallel zu den Suchdiensten als eigenständiger, kommerzieller Dienst entwickeln. Des weiteren könnten Bewertungen durch den Benutzer in das System rückfließen. [GDN+98

Suche in Hyperwave

  Im Gegensatz zum Webserver, wo ein Suchindex lediglich einen vom Administrator einzurichtenden Zusatz darstellt und externe Suchdienste die Daten über das Netz auffinden und weiterverarbeiten, ist die Suchmöglichkeit in Hyperwave bereits integriert. Nachfolgende Zusammenfassung orientiert sich an [Mau96] und [Hyp98]. 

Hyperwave setzt nicht wie gewöhnliche Servergif auf das Dateisystem, sondern auf eine objektorientiertes Datenbanksystem auf. Während ein Webserver eine unstrukturierte Sammlung von Dokumenten verwaltet, die einzig durch Hyperlinks zusammengehalten und zugänglich gemacht wird, bietet dieses System zusätzlich noch eine hierarchische Organisationsebene (strukturelle Links). Dies erleichtert die Navigation, die Zuordnung einzelner Dokumente u.v.m.. 

Alle Objekte (Dokumente, Kollektionen, Links) werden beim Anlegen in der Datenbank gespeichert. Durch die bidirektionale Verknüpfung der Hyperdokumente tritt das Problem der Linkinkonsistenz nicht auf. Beim Löschen eines Dokumentes werden aus der Datenbank alle ein- und ausgehenden Verknüpfungen ebenfalls entfernt. Aus dem bisher erwähnten läßt sich schließen, daß auch Aktualität und Vollständigkeit implizit gewährleistet sind. 

Die oben genannten Eigenschaften erlauben es nicht nur, die gefundenen Dokumente in ihrer Hierarchie anzuzeigen, sondern auch die benachbarten Dokumente und ihre Verknüpfungsbeziehungen in Form eines mit Hyperlinks versehenen Graphen auszugeben. Suchen und Navigieren fließt ineinander über. Die Suche läßt sich auch auf einen Teilbaum der Dokumentenstruktur beschränken, wobei sich dieser auf verschiedenen Hyperwave-Server befinden kann. Eine Sucheabfrage kann auch auf die Ergebnismenge einer vorangegangenen Anfrage eingeschränkt werden. So kann man schrittweise die Anfrage präzisieren, ohne daß der ganze Bereiche neuerlich durchsucht werden muß. 

Jedes Hyperwave-Objekt besitzt ein Vielzahl von Metainformation (Attribute). Die Indizierung der wichtigsten Attribute (Titel, Autor, Schlüsselwörter, Datum der Generierung etc.) macht eine schnelle Suche möglich. Boolsche Verknüpfungen werden bei der Abfrage ebenso unterstützt wie Präfix- und Bereichssuche. Nichtindizierte Attribute können nur in Verbindung mit einer Indexsuche verwendet werden; sie engen das Ergebnis ein. Reguläre Ausdrücke werden unterstützt. Weiters können beliebige Attribute von den Autoren hinzugefügt werden und diese vom System indiziert und somit suchbar gemacht werden. 

Zusätzlich zur Suche über die Metainformation ist jedes Textdokument über Volltextsuche zugänglich. Die neueren Versionen ermöglichen auch das Suchen über mehrere Hyperwave-Server (Serverpool). 

Hyperwave kann statt der eigenen Suchmaschine mit dem Verity-Suchsystem konfiguriert werden. Verity verfügt über einen Thesaurus, um auch Wörter gleicher Bedeutung in die Suche miteinbeziehen zu können. Stemming wird ebenso angewandt wie ein Verfahren, das erlaubt, nach ähnlich klingenden Wörtern zu suchen. Dabei ist die Suche nicht auf HTML-Dokumente beschränkt. Formate wie Word und Excel werden unterstützt. 

Das Hyerwave-Suchsystems ermöglicht die Verwendung sogenannter Query Objects. Diese Suchanfragen werden im Hyperwave-Server gespeichert und periodisch ausgewertet. Die Resultate werden via Email an den Benutzer versandt. Sie können auch durch vom Benutzer zu beliebiger Zeit ausgeführt werden (Konzept der vordefinierte Suche). Es wäre naheliegend, die vom System indizierten Daten in geeigneter Formgif auch anderen Suchsystemen zugänglich zu machen. 

Zusammenfassung

Verschiedene Methoden der Lokalisierung von Dokumenten und der Aufbereitung deren Inhalts sind die Basis der Suchdienste. Durch aktives Anmelden können Autoren ihre Dokumente in einen Suchdienst aufnehmen lassen. Bei der redaktionellen Recherche verfolgen Lektoren die Hypertext-Strukturen und nehmen passende Dokumente in ihren Suchdienst auf. Robots, Bots bzw. Spiders navigieren mit Hilfe von Hyperlinks, Menüs und Verzeichnisstrukturen im Informationsraum und verarbeiten die auffgefundenen Dokumente automatisch. 

Die Bereitstellung der Information wird durch thematische Kataloge, durch einen Suchindex oder durch Mischformen aus beiden realisiert. Während der Benutzer bei Verwendung eines Kataloges sich schrittweise der gewünschten Dokumentenmenge "nähert'', muß er beim Suchindex durch Angaben von Suchwörtern seine Suche formulieren. Unterstützt wird er dabei durch verschiedene Verfahren (siehe Abschnit 2.1.2). 

Gängige Suchdienste bauen auf diese Basismethoden auf. Sie arbeiten meist unabhängig von einander und laden Daten vom Informationsserver über das Netz, um den Inhalt zu verarbeiten und bereitzustellen. Diese unkoordinierte, zentrale Vorgangsweise führt zu enormer Netz- und Serverlast. Weitere Probleme liegen zum Beispiel auf dem Gebiet der Aktualität und der Qualität der angebotenen Information. (siehe Abschnitt 2.3

Der Hyperwave-Server (siehe Abschnitt 2.4) verfügt über ein integriertes Suchsystem. Veränderungen des Datenbestandes wirken sich automatisch auf das Suchsystem aus. So ist zum Beispiel die Aktualität des Suchindexes ist immer gegeben. 

Das Harvest-System [BDH+94] der Universität von Colorado ist ein Vertreter des Prinzips der verteilten Suche. Viele der in diesem Kapitel beschriebenen Schwachpunkte gängiger Suchmaschinen können durch dieses Konzept vermieden werden. Dieses System wird im folgenden Kapitel vorgestellt. 


Nächste Kapitel: Das Harvest-Suchsystem Vorhergehendes Kapitel: Einleitung 

Zur Titelseite