- ...Ähnlichkeitsverfahren
- siehe Abschnitt 4.2.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...ARPANET
- Advanced Research Projects Agency
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...CSNET
- Computer
Science Network
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...TCP/IP
- Transmission
Control Protocol / Internet Protocol
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...CERN
- Conseil Europénne
pour la Recherche Nucléaire (dt. Europ. Organisation für
Kernforschung)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...``Gathern''
- Abernten
bzw. Durchsuchen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...bekommen.
- Der Robot
Exclusion Standard wurde 1994 ins Leben gerufen und wird von den meisten
Web-Servern unterstützt. Er liegt zur Zeit nicht als RFC-Standard
vor.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Bedeutungssubstitution)
- Auf diese
Verfahren wird im Abschnitt 2.1.2 näher eingegangen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Nachbearbeitung
- Nachbearbeitung bezeichnet hier die
Modifikation der SOIF-Attribute, nachdem diese über den Weg des Parsens aus
dem HTML-Quelldokument erstellt wurden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Tricks
- z.B.
Spamming. Hierbei werden nicht sichtbaren Wörtern im
HTML-Dokument zum Zwecke der Manipulation von Ranking-Verfahren untergebracht.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Verity
- http://www.vertiy.com/
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
- Die Update-Rate hängt meist von der ``Wichtigkeit'' des Web-Bereiches ab, d.h. wie oft andere Dokumente darauf verweisen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Zuverlässigkeit
- Unter Zuverlässigkeit wird mitunter
neben der Richtigkeit des Inhaltes auch die Verfügbarkeit (=Erreichbarkeit)
der Information verstanden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Server
- Die Autoren von Hyperwave sprechen von Webserver der ersten
Generation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Form
- zum Beispiel im
SOIF-Format des Harvest-Suchsystems (siehe Abschnitt 3.1) oder im
XML-Format
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Harvest-System
- http://www.harvest.cs.edu
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...SOIF
- Das Summary Object Interchange Format wird in später in diesem Abschnitt beschrieben.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...kann.
- Hier wird ein bestimmter Bereich, ein Infocluster, von einem Gatherer abgedeckt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...werden.
- Der lokale Administrator weiß im allgemeinen am besten, wie der Inhalt des Servers beschaffen ist, welches Layout verwendet wird, wie oft Dokumente verändert werden, etc.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...``Datenbank''
- Der Gatherer speichert die SOIF-Objekte im Filesystem.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...OLE
- Object Link Embedded
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...``update-time''
- Zeitpunkt des Auffindens am Informationserver. Wird vom Gatherer im SOIF-Objekt bei jedem Auffinden vermerkt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...``time-to-live''
- Zeitspanne innerhalb der das Objekt im Broker existieren kann, ohne das das entsprechende Dokument am Server aufgefunden wurde. Kann aus dem gleichnamigen SOIF-Attribut entnommen oder direkt vom Broker-Administrator festgelegt werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...verlängert.
- Aspekte der Konsistenz zwischen Broker und Gatherer werden am Ende dieses Abschnittes diskutiert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Metadaten
- zum Beispiel bei HTML: <META NAME=''
expires'' CONTENT=''DEC 09 1998''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Forms
- Mit dem FORM-Tag wird ein Formular innerhalb eines HTML-Dokumentes zur Eingabe von Daten durch den Anwender definiert. Verschiedene Feldtypen wie Textfeld, Checkbox und Radiobutton können in die Formulare integriert werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...(GUI
- Graphical User Interface
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...CGI
- Common Gateway Interface
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Glimpse
- http://glimpse.cs.arizona.edu/
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...HTML
- Hyper Text Markup Language
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...SGML
- Standard Generalized Markup Language
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...DTD
- Dokument Typ Definition
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Klammern
- Größer-Kleiner-Zeichenpaar (,)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...IICM
- Institut for Information Processing and Computer Supported New Media
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Nachbearbeitung
- Nachbearbeitung bezeichnet hier die
Modifikation der SOIF-Attribute, nachdem diese über den Weg des Parsens aus
dem HTML-Quelldokument erstellt wurden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Informationsraumes
- zum Beispiel innerhalb eines Brokerbereiches
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...``aufzuweichen''
- Durch Umwandlung in die Form (A and B and C and D) or (A and B and C and E) or
(A and B and D and E) ... ließe sich dies auf sehr komplizierte Weise erreichen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Recall
- Recall gibt das Verhältnis zwischen gefundenen
relevanten und alle relevanten Dokumenten an.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Precision
- Precision gibt das Verhältnis zwischen
relevanten gefundenen und alle gefundenen Dokumenten an.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...vorkommt.
- Dieses Verhalten kann von Web-Autoren mi''sbraucht werden, indem sie Wörter nur zum Zecke des besseren Ranking oft sinnlos aneinander reihen (Spamming
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Terme
- Suchwörter der Anfrage bzw. Wörter im Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...SOIF
- siehe
Abschnitt 3.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...DTD
- Document Type
Definition
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...HTML-Attributen
- HTML-Attribute werden in Abschnitt 4.1.1 erklärt
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Metadaten
- mit Hilfe der
Attribute des Meta-Tags <META NAME=''Attributname'' CONTENT=''Attributwert''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...müssen.
- siehe Abschnitt 5.2.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...können.
- ISO SGML Specification
http://www.w3.org/TR/references.html
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...soll.
- Die Datei
standard.pl enthält einige Filterfunktionen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Listenoperationen).
- Da Perl keine
Variablendeklaration braucht, ist bei der Parameterübergabe an eine
Prozedur eine Kontextangabe notwendig. Sie gibt Auskunft über den Typ des
Parameters.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...SOIF-Volltext-Attributes
- In der
Regel wir es als ``body'' bezeichnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...geschrieben.
- In HTML werden Textteile mit
dem <B>-Tag markiert, wenn sie ``fett'' dargestellt werden sollen. In
der Regel wird diesem Tag das SOIF-Attribut ``keywords'' zugeordnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Metadaten
- z.B.: <META NAME=''description'' CONTENT=''In diesem Dokument wird ...''>
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Zugriffsmechanismen
- Btrees in Verbindung mit dem
Like-Vergleichsoperator [FB92]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Datenbankanomalien
- Zum Beispiel bezeichnet die Update-Anomalie
das Problem, das auftritt, wenn Attribute eines realen Objektes in mehreren
Tabellen vorhanden sind. Wird bei einer Änderung eines Attributes diese
nicht in allen Tabellen vollzogen, kommt es zu Inkonsitenz der
Daten. [Dat86]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...gleich
- Für den Fall, daß jede Site genau ein Dokument enthält,
gibt es in beiden Relationen gleich viel Einträge.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Zeitpunkt
- Sekunden seit 1. Januar 1970
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...ID
- Solche entstehen, wenn Dokumente aus dem Index
gelöscht werden
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Null
- Eine Attributzähler muß größer als Null sein, da es
sonst diesen Eintrag nicht gäbe.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...(``%'')
- Postgres-SQL [YC95] unterstüzt nur diesen Platzhalter für beliebig viele Zeichen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...size=-1>ORT
- Host und Portnummer des Broker, der
abgefragt werden soll.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...notwendig.
- Auf die nötigen Adaptionen der CGI-Skripts und HTML-Formulare wird
nicht weiter eingegangen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...sind.
- Diese Überprüfung ist beim neuen Index überflüssig, da abgelaufene Dokumente in der Datenbank tatsächlich sofort
gelöscht werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...gewünschte
- Die Anfrageparameter, welche im ursprünglichen Harvest-Broker definiert sind und z.B. den
Unfang des Suchergebnisses festlegen werden in [HSW96]
dokumentiert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...(GENTLE
- GEneral Networked Training and
Learning Environment
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.