Das geht schneller als man denkt: eben schreibt meine Kollegin über die kommenden Versionen des Webs und macht folgende gewagte Aussage:
Spätestens wenn man anfängt über Web 4.0 zu reden, wird jeder wissen, was Web 2.0 ist/war.
Na dann müssten wir ab sofort alle viel schlauer sein, denn im Read/WriteWeb nimmt Phill Midwinter, wenn auch etwas widerstrebend, die übernächste Versionsnummer des Netzes in den Mund. Dabei geht es um nichts anderes als die Revolution der Suchmaschinentechnik. Jaja, das Thema ist so alt wie das Internet selbst, für Akademiker aber gerade im Umfeld des übermächtigen Google so reizvoll wie lange nicht.
Dabei fallen Schlagwörter wie “semantisches Web”, “Semantik” und NLP (Natural Language Processing), also die maschinelle Verarbeitung natürlicher Sprache. In diesem Zusammenhang taucht, zuletzt auch im Read/WriteWeb, immer wieder der Name hakia auf. hakia, momentan in der beta Phase (ein untrügliches Zeichen, dass wir uns doch noch im 2.0er-Web befinden), hat sich auf die semantische Suche spezialisiert. D.h. es werden nicht nur genau die Worte gesucht, die der Anwender übermittelt, sondern es wird versucht, deren Bedeutung zu erkennen und Ergebnisse miteinzubeziehen, die der Nutzer mit seiner Wortwahl evtl. gar nicht berücksichtigt hat.
Nun verwendet Google diese Technologie natürlich auch, auch wenn über den Umfang wenig bekannt ist. Am offensichtlichsten ist noch die relativ primitive Rechtschreibkorrektur, die auch bei äußerst seltenen (und nicht unbedingt falsch geschrieben) Wörtern Alternativen mit mehr Suchergebnissen vorschlägt. hakia jedoch beschränkt sich bei seiner semantischen Analyse nicht auf einzelne Schlüsselwörter, sondern auf gesamte Sätze oder Wortgruppen. Dieses Prinzip ist ebenfalls nicht neu, Angebote wie Answers.com oder Ask.com bieten so etwas schon länger.
Lange Rede, kurzer Sinn. hakia hat mich neugierig gemacht, also habe ich mir drei Kandidaten geschnappt, hakia, Google und Ask.com, und habe sie völlig unprofessionell mit drei Fragen konfrontiert, die ich mir genau so innerhalb der letzten Tage gestellt habe. Hier ist mein Minitest:
When does summertime end?
Dabei erwartete ich, darüber kann man streiten, das konkrete Ende der Sommerzeit in diesem Jahr, also “28. Oktober 2007″. Im Nachhinein habe ich die Suchergebnisse zwar noch nach einer allgemeingültigen Antwort untersucht, aber in die Rangfolge ging das nicht mehr ein.
Ergebnis:
- hakia, Treffer auf Platz 1. Dabei muss man zugeben, dass dieser Treffer etwas glücklich ist. Die restlichen Treffer haben nur wenig mit der Frage zu tun und eine allgemeingültige Antwort (“letztes Wochenende im Oktober”) erscheint unter den ersten 40 Ergebnissen überhaupt nicht.
- Ask.com. Bei dieser Frage leiden Ask.com, wie auch Google, an einem typischen Foren-Problem: man findet tausende Referenzen auf die Frage, aber keine auf die Antwort. Ask.com landet knapp vor Google, weil der erste Treffer zumindest beim Besuch der Seite schneller das Ergebnis präsentiert als beim Suchmaschinenplatzhirsch.
- Google. Das konkrete Datum habe ich unter den ersten 60 Treffern überhaupt nicht gefunden und bei der allgemeinen Lösung hat Google einfach Pech. An dritter Position wird der Wikipedia-Eintrag zur Daylight saving time zitiert, dummerweise nur bis
from the last Sunday in March to the last…
— tja, knapp daneben.
When was Stalker filmed?
Erwartete Antwort: 1979. Ok, das war das Premierenjahr, aber das meinte ich bei meiner Frage auch :)
Ergebnis:
- hakia, Treffer auf Platz 1. Im Gegensatz zu Google und Ask.com erkennt hakia anhand des nachgestellten Verbs filmed anscheinend sofort, dass ich nach dem Film frage und nicht nach Stalkern im Allgemeinen. Das führt dazu, dass die Filmdatenbank imdb ganz oben landet. Als Schmankerl präsentiert mir hakia sogar eine zeitgeschichtliche Einordnung, die es aus dem imdb-Ergebnis extrahiert:
The well-publicized Chernobyl nuclear accident took place seven years after Stalker was filmed.
- Google, Ergebnis auf Platz 6. Dort erscheint, übrigens noch einen Platz tiefer als bei hakia, die DVD-Seite des Films bei Amazon.
- Ask.com, Ergebnis auf Platz 8 und dazu noch völlig unscheinbar im Subtext versteckt, so dass ich fast weitergeblättert hätte. Besonders ärgerlich: die Top-3-Ergebnisse behandeln ein und diesselbe Nachricht, die auf verschiedenen Boulevardmagazinen verwurstet wurde.
What’s the library path variable in linux?
Erwartete Antwort: LD_LIBRARY_PATH.
Ergebnis:
- Ask.com. Treffer auf Platz 1. Ask.com und hakia finden das gleiche Dokument, wenn auch auf unterschiedlichen Servern.
- hakia. Treffer auf Platz 2.
- Google. Je nachdem, ob man die Google-Scholar-Hinweise mitrechnet oder nicht, landet der Treffer auf Platz 5 bzw. 6. Wenn Google vorher ein bisschen Pech hatte, wird es bei dieser Frage wirklich abgehängt. Vor allem das Hervorheben des gesuchten Variablennamens scheitert hier völlig.
Fazit
hakia, nicht schlecht! Konkrete Fragen versteht hakia wirklich überraschend gut. Die Relevanz der Ergebnisse jenseits des ersten Treffers erschien auf den ersten Blick etwas schlechter als bei Google. Zumindest bei meiner etwas schiefen Übersetzung der Sommerzeit als “summertime” (richtiger wäre daylight savings time), vermute ich Googles Vorsprung in der Erkennung von Synonymen bzw. Rechtschreibfehlern begründet. Da kann die größte Suchmachine einfach auf einen größeren Datenbestand und Erfahrung mit schludrigen Benutzern zurückgreifen ;)
Ich weiß gar nicht, wie lang die Halbwertzeit einer Webgeneration ist, aber wenn der flächendeckende Einsatz von NLP den Anfang des Web 4.0 markieren soll, dann wird das Web 3.0 vermutlich deutlich kürzer als das Urweb und die zweite Inkarnation.