Archive for März, 2007

Gefolgt und gefallen

29. März 2007, 00:47 Uhr von Fabian

Lang ist’s her: das letzte Aufbäumen des deutschen Musikfernsehens, hervorgegraben aus den unendlichen Archiven des Internet.

:’-|

Web 4.0, NLP und hakia vs. Google

26. März 2007, 23:35 Uhr von Fabian

Das geht schneller als man denkt: eben schreibt meine Kollegin über die kommenden Versionen des Webs und macht folgende gewagte Aussage:

Spätestens wenn man anfängt über Web 4.0 zu reden, wird jeder wissen, was Web 2.0 ist/war.

Na dann müssten wir ab sofort alle viel schlauer sein, denn im Read/WriteWeb nimmt Phill Midwinter, wenn auch etwas widerstrebend, die übernächste Versionsnummer des Netzes in den Mund. Dabei geht es um nichts anderes als die Revolution der Suchmaschinentechnik. Jaja, das Thema ist so alt wie das Internet selbst, für Akademiker aber gerade im Umfeld des übermächtigen Google so reizvoll wie lange nicht.

Dabei fallen Schlagwörter wie “semantisches Web”, “Semantik” und NLP (Natural Language Processing), also die maschinelle Verarbeitung natürlicher Sprache. In diesem Zusammenhang taucht, zuletzt auch im Read/WriteWeb, immer wieder der Name hakia auf. hakia, momentan in der beta Phase (ein untrügliches Zeichen, dass wir uns doch noch im 2.0er-Web befinden), hat sich auf die semantische Suche spezialisiert. D.h. es werden nicht nur genau die Worte gesucht, die der Anwender übermittelt, sondern es wird versucht, deren Bedeutung zu erkennen und Ergebnisse miteinzubeziehen, die der Nutzer mit seiner Wortwahl evtl. gar nicht berücksichtigt hat.

Nun verwendet Google diese Technologie natürlich auch, auch wenn über den Umfang wenig bekannt ist. Am offensichtlichsten ist noch die relativ primitive Rechtschreibkorrektur, die auch bei äußerst seltenen (und nicht unbedingt falsch geschrieben) Wörtern Alternativen mit mehr Suchergebnissen vorschlägt. hakia jedoch beschränkt sich bei seiner semantischen Analyse nicht auf einzelne Schlüsselwörter, sondern auf gesamte Sätze oder Wortgruppen. Dieses Prinzip ist ebenfalls nicht neu, Angebote wie Answers.com oder Ask.com bieten so etwas schon länger.

Lange Rede, kurzer Sinn. hakia hat mich neugierig gemacht, also habe ich mir drei Kandidaten geschnappt, hakia, Google und Ask.com, und habe sie völlig unprofessionell mit drei Fragen konfrontiert, die ich mir genau so innerhalb der letzten Tage gestellt habe. Hier ist mein Minitest:

When does summertime end?

Dabei erwartete ich, darüber kann man streiten, das konkrete Ende der Sommerzeit in diesem Jahr, also “28. Oktober 2007″. Im Nachhinein habe ich die Suchergebnisse zwar noch nach einer allgemeingültigen Antwort untersucht, aber in die Rangfolge ging das nicht mehr ein.

Ergebnis:

  1. hakia, Treffer auf Platz 1. Dabei muss man zugeben, dass dieser Treffer etwas glücklich ist. Die restlichen Treffer haben nur wenig mit der Frage zu tun und eine allgemeingültige Antwort (”letztes Wochenende im Oktober”) erscheint unter den ersten 40 Ergebnissen überhaupt nicht.
  2. Ask.com. Bei dieser Frage leiden Ask.com, wie auch Google, an einem typischen Foren-Problem: man findet tausende Referenzen auf die Frage, aber keine auf die Antwort. Ask.com landet knapp vor Google, weil der erste Treffer zumindest beim Besuch der Seite schneller das Ergebnis präsentiert als beim Suchmaschinenplatzhirsch.
  3. Google. Das konkrete Datum habe ich unter den ersten 60 Treffern überhaupt nicht gefunden und bei der allgemeinen Lösung hat Google einfach Pech. An dritter Position wird der Wikipedia-Eintrag zur Daylight saving time zitiert, dummerweise nur bis from the last Sunday in March to the last… — tja, knapp daneben.

When was Stalker filmed?

Erwartete Antwort: 1979. Ok, das war das Premierenjahr, aber das meinte ich bei meiner Frage auch :)

Ergebnis:

  1. hakia, Treffer auf Platz 1. Im Gegensatz zu Google und Ask.com erkennt hakia anhand des nachgestellten Verbs filmed anscheinend sofort, dass ich nach dem Film frage und nicht nach Stalkern im Allgemeinen. Das führt dazu, dass die Filmdatenbank imdb ganz oben landet. Als Schmankerl präsentiert mir hakia sogar eine zeitgeschichtliche Einordnung, die es aus dem imdb-Ergebnis extrahiert: The well-publicized Chernobyl nuclear accident took place seven years after Stalker was filmed.
  2. Google, Ergebnis auf Platz 6. Dort erscheint, übrigens noch einen Platz tiefer als bei hakia, die DVD-Seite des Films bei Amazon.
  3. Ask.com, Ergebnis auf Platz 8 und dazu noch völlig unscheinbar im Subtext versteckt, so dass ich fast weitergeblättert hätte. Besonders ärgerlich: die Top-3-Ergebnisse behandeln ein und diesselbe Nachricht, die auf verschiedenen Boulevardmagazinen verwurstet wurde.

What’s the library path variable in linux?

Erwartete Antwort: LD_LIBRARY_PATH.

Ergebnis:

  1. Ask.com. Treffer auf Platz 1. Ask.com und hakia finden das gleiche Dokument, wenn auch auf unterschiedlichen Servern.
  2. hakia. Treffer auf Platz 2.
  3. Google. Je nachdem, ob man die Google-Scholar-Hinweise mitrechnet oder nicht, landet der Treffer auf Platz 5 bzw. 6. Wenn Google vorher ein bisschen Pech hatte, wird es bei dieser Frage wirklich abgehängt. Vor allem das Hervorheben des gesuchten Variablennamens scheitert hier völlig.

Fazit

hakia, nicht schlecht! Konkrete Fragen versteht hakia wirklich überraschend gut. Die Relevanz der Ergebnisse jenseits des ersten Treffers erschien auf den ersten Blick etwas schlechter als bei Google. Zumindest bei meiner etwas schiefen Übersetzung der Sommerzeit als “summertime” (richtiger wäre daylight savings time), vermute ich Googles Vorsprung in der Erkennung von Synonymen bzw. Rechtschreibfehlern begründet. Da kann die größte Suchmachine einfach auf einen größeren Datenbestand und Erfahrung mit schludrigen Benutzern zurückgreifen ;)

Ich weiß gar nicht, wie lang die Halbwertzeit einer Webgeneration ist, aber wenn der flächendeckende Einsatz von NLP den Anfang des Web 4.0 markieren soll, dann wird das Web 3.0 vermutlich deutlich kürzer als das Urweb und die zweite Inkarnation.

They stole our revolution…

16. März 2007, 12:17 Uhr von Fabian

…now we’re stealing it back: Last.fm + YouTube = Last.tv und dort läuft mein ganz persönlicher Musiksender.

Und: Viel mehr Leute sollten Minus The Bear hören. Oder angucken:

The Plan, The Wrens, The Confusion, The National!

14. März 2007, 23:44 Uhr von Fabian

The Dismemberment Plan spielt zwei Reunion-Shows [mp3] in Washington D.C. Gleichzeitig produziert einer von denen zusammen mit einem Wrens-Gitarristen, jemandem von Beirut und einem Pitchfork-Mitarbeiter eine Indie-Band namens…*

Und ich fand es schon verwirrend, als ich erfuhr, dass Maritim aus Mitgliedern von The Plan, The Promise Ring und Cap’n Jazz entstanden. Die wiederum stehen, teilweise aus familiären Gründen, in Verbindung mit American Football, Owen, Owls und Joan of Arc.

Vielleicht bringt Nico, mit dem guten Musikgeschmack da mal Licht ins Dunkel? Schließlich hat er in seinem Musikblog schon mit Indie-Größen wie The National gesprochen*kunstpause*…womit ich zur Hauptnachricht dieses Beitrags komme: The National are hitting Germany! Kurz nach ihrer angekündigten Albumveröffentlichung “Boxer” am 22. Mai, spielen sie am 25. Mai im Magnet Club, der einscheinend selbst noch nichts von seinem Glück weiß. Wir schon :)

* Hat den Pitchform-Machern schon mal jemand gesagt, dass die’s technisch nicht so drauf haben? Nicht nur, dass deren Feeds wohl falsch ge-id’t sind, was dafür sorgt, dass mit jedem Update alle alten Einträge ebenfalls als ungelesen erscheinen. Nein, sie sind auch berüchtigt für merkwürdige IP-Adressen in ihren schlimmstenfalls schon toten Links. Deshalb gibt’s hier auch nicht den Namen der unbekannten Indiegruppe.

Firefox’ http.use-cache is evil (sometimes)

5. März 2007, 22:03 Uhr von Fabian

Ich habe mich eben fast zwei Stunden am Apache totkonfiguriert, bis ich gemerkt habe, dass der Firefox einen einmal fehlgeleiteten Redirect (es sollte von fuubar.de nach www.foobar.com weitergeleitet werden) auf ewig gespeichert hat.

Mit network.http.use-cache auf true, was die Default-Einstellung ist, macht sich Firefox nicht einmal die Mühe, zu gucken, ob sich an dem gewünschten Dokument etwas geändert hat. Dann hätte er nämlich mitbekommen, dass der Apache inzwischen ganz woanders hin verweist.

In Zukunft werde ich diese Option nicht erst nach zwei Stunden in Betracht ziehen. Dafür habe ich wieder einiges vom Apache gelernt, was mir bei schneller Ursachenfindung natürlich verwehrt geblieben wäre *hust*.

Zu Freunden hinzufügen

5. März 2007, 01:26 Uhr von Fabian

Zu Freunden hinzufügen
Bei mir haben schon die Mädchen im Kindergarten immer “Pix!” geschrien, wenn ich versucht habe, sie zu fangen.

Billige Kopie

5. März 2007, 00:01 Uhr von Fabian

Billige Kopie
Ich bin eine ganz billige Kopie, dachte er, aber auf mich achtet hier eh niemand.

Würdevoller Abgang

4. März 2007, 18:22 Uhr von Fabian

Sonntag ist Augen- und Ohrentag. Irgendwas muss man ja aus dem Übel machen, das sich nie entscheiden kann, ob es Wochenanfang oder -ende ist.

Auge: the rut. [via Volker Strübings Schnipselfriedhof] verspricht crappy cartoons, täglich. Passend zum Crappy Sunday gibt es dort die Anleitung für einen würdevollen Abgang. Klick für mehr:
therut-diving.gif

Ohr: Kein potentieller Klassiker wie die Empfehlung letzter Woche, aber doch ein schönes Singer-Songwriter-Stück mit einer Melodie, die mich verdächtig an TempEaus “Mädchen aus Greifswald” erinnert; gut, das Stück muss man nicht mögen, ist aber trotzdem so. Our Lady of the Highway und der Song mit der Zeile zum Titel ihres Albums “Beauty Won’t Save Us This Year”:

Morgen ist Montag, gottseidank.