>> Ressourcen > Theses > Neussl, Dietmar[..] > HTML-Version > Footnotes

...Ähnlichkeitsverfahren
siehe Abschnitt 4.2.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...ARPANET
Advanced Research Projects Agency
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...CSNET
Computer Science Network
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...TCP/IP
Transmission Control Protocol / Internet Protocol
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...CERN
Conseil Europénne pour la Recherche Nucléaire (dt. Europ. Organisation für Kernforschung)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...``Gathern''
Abernten bzw. Durchsuchen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...bekommen.
Der Robot Exclusion Standard wurde 1994 ins Leben gerufen und wird von den meisten Web-Servern unterstützt. Er liegt zur Zeit nicht als RFC-Standard vor.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Bedeutungssubstitution)
Auf diese Verfahren wird im Abschnitt 2.1.2 näher eingegangen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Nachbearbeitung
Nachbearbeitung bezeichnet hier die Modifikation der SOIF-Attribute, nachdem diese über den Weg des Parsens aus dem HTML-Quelldokument erstellt wurden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Tricks
z.B. Spamming. Hierbei werden nicht sichtbaren Wörtern im HTML-Dokument zum Zwecke der Manipulation von Ranking-Verfahren untergebracht.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Verity
http://www.vertiy.com/
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...

Die Update-Rate hängt meist von der ``Wichtigkeit'' des Web-Bereiches ab, d.h. wie oft andere Dokumente darauf verweisen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Zuverlässigkeit
Unter Zuverlässigkeit wird mitunter neben der Richtigkeit des Inhaltes auch die Verfügbarkeit (=Erreichbarkeit) der Information verstanden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Server
Die Autoren von Hyperwave sprechen von Webserver der ersten Generation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Form
zum Beispiel im SOIF-Format des Harvest-Suchsystems (siehe Abschnitt 3.1) oder im XML-Format
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Harvest-System
http://www.harvest.cs.edu
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...SOIF
Das Summary Object Interchange Format wird in später in diesem Abschnitt beschrieben.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...kann.
Hier wird ein bestimmter Bereich, ein Infocluster, von einem Gatherer abgedeckt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...werden.
Der lokale Administrator weiß im allgemeinen am besten, wie der Inhalt des Servers beschaffen ist, welches Layout verwendet wird, wie oft Dokumente verändert werden, etc.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...``Datenbank''
Der Gatherer speichert die SOIF-Objekte im Filesystem.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...OLE
Object Link Embedded
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...``update-time''
Zeitpunkt des Auffindens am Informationserver. Wird vom Gatherer im SOIF-Objekt bei jedem Auffinden vermerkt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...``time-to-live''
Zeitspanne innerhalb der das Objekt im Broker existieren kann, ohne das das entsprechende Dokument am Server aufgefunden wurde. Kann aus dem gleichnamigen SOIF-Attribut entnommen oder direkt vom Broker-Administrator festgelegt werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...verlängert.
Aspekte der Konsistenz zwischen Broker und Gatherer werden am Ende dieses Abschnittes diskutiert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Metadaten
zum Beispiel bei HTML: <META NAME='' expires''  CONTENT=''DEC 09 1998''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Forms
Mit dem FORM-Tag wird ein Formular innerhalb eines HTML-Dokumentes zur Eingabe von Daten durch den Anwender definiert. Verschiedene Feldtypen wie Textfeld, Checkbox und Radiobutton können in die Formulare integriert werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...(GUI
Graphical User Interface
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...CGI
Common Gateway Interface
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Glimpse
http://glimpse.cs.arizona.edu/
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...HTML
Hyper Text Markup Language
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...SGML
Standard Generalized Markup Language
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...DTD
Dokument Typ Definition
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Klammern
Größer-Kleiner-Zeichenpaar (<,>)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...IICM
Institut for Information Processing and Computer Supported New Media
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Nachbearbeitung
Nachbearbeitung bezeichnet hier die Modifikation der SOIF-Attribute, nachdem diese über den Weg des Parsens aus dem HTML-Quelldokument erstellt wurden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Informationsraumes
zum Beispiel innerhalb eines Brokerbereiches
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...``aufzuweichen''
Durch Umwandlung in die Form (A and B and C and D) or (A and B and C and E) or
(A and B and D and E) ...
ließe sich dies auf sehr komplizierte Weise erreichen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Recall
Recall gibt das Verhältnis zwischen gefundenen relevanten und alle relevanten Dokumenten an.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Precision
Precision gibt das Verhältnis zwischen relevanten gefundenen und alle gefundenen Dokumenten an.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...vorkommt.
Dieses Verhalten kann von Web-Autoren mi''sbraucht werden, indem sie Wörter nur zum Zecke des besseren Ranking oft sinnlos aneinander reihen (Spamming
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Terme
Suchwörter der Anfrage bzw. Wörter im Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...SOIF
siehe Abschnitt 3.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...DTD
Document Type Definition
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...HTML-Attributen
HTML-Attribute werden in Abschnitt 4.1.1 erklärt
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Metadaten
mit Hilfe der Attribute des Meta-Tags <META NAME=''Attributname'' CONTENT=''Attributwert''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...müssen.
siehe Abschnitt 5.2.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...können.
ISO SGML Specification http://www.w3.org/TR/references.html
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...soll.
Die Datei standard.pl enthält einige Filterfunktionen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Listenoperationen).
Da Perl keine Variablendeklaration braucht, ist bei der Parameterübergabe an eine Prozedur eine Kontextangabe notwendig. Sie gibt Auskunft über den Typ des Parameters.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...SOIF-Volltext-Attributes
In der Regel wir es als ``body'' bezeichnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...geschrieben.
In HTML werden Textteile mit dem <B>-Tag markiert, wenn sie ``fett'' dargestellt werden sollen. In der Regel wird diesem Tag das SOIF-Attribut ``keywords'' zugeordnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Metadaten
z.B.: <META NAME=''description'' CONTENT=''In diesem Dokument wird ...''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Zugriffsmechanismen
Btrees in Verbindung mit dem Like-Vergleichsoperator [FB92]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Datenbankanomalien
Zum Beispiel bezeichnet die Update-Anomalie das Problem, das auftritt, wenn Attribute eines realen Objektes in mehreren Tabellen vorhanden sind. Wird bei einer Änderung eines Attributes diese nicht in allen Tabellen vollzogen, kommt es zu Inkonsitenz der Daten. [Dat86]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...gleich
Für den Fall, daß jede Site genau ein Dokument enthält, gibt es in beiden Relationen gleich viel Einträge.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Zeitpunkt
Sekunden seit 1. Januar 1970
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...ID
Solche entstehen, wenn Dokumente aus dem Index gelöscht werden
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Null
Eine Attributzähler muß größer als Null sein, da es sonst diesen Eintrag nicht gäbe.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...(``%'')
Postgres-SQL [YC95] unterstüzt nur diesen Platzhalter für beliebig viele Zeichen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...size=-1>ORT
Host und Portnummer des Broker, der abgefragt werden soll.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...notwendig.
Auf die nötigen Adaptionen der CGI-Skripts und HTML-Formulare wird nicht weiter eingegangen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...sind.
Diese Überprüfung ist beim neuen Index überflüssig, da abgelaufene Dokumente in der Datenbank tatsächlich sofort gelöscht werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...gewünschte
Die Anfrageparameter, welche im ursprünglichen Harvest-Broker definiert sind und z.B. den Unfang des Suchergebnisses festlegen werden in [HSW96] dokumentiert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...(GENTLE
GEneral Networked Training and Learning Environment
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

root
Mon Sep 28 23:53:09 MEST 1998