Tellerrand-Following und Offtopic-Followees

14. November 2008, 14:34 Uhr von Fabian

Man kennt das ja: überall gibt’s Cliquenbildung. Schulfhof, Uni, Privatparties; nicht anders in der Blogosphäre und im Twitteruniversum.

Wenn ich mir die Mehrzahl meiner Verfolger und Verfolgten angucke, lese ich: web developer, social media enthusiast, geek, nerd etc. So homogen, so langweilig. Ja ja, ich will dreimal am Tag das neueste jQuery-Plugin vorgesetzt bekommen, und Django apps und Geheule über sIFR, Apache und floats hören. Alles schön und gut.

Was in den neuen Medien (was für ein oldschool-Wort) aber besser ist, als im echten Leben, ist das Gucken über den Tellerrand. Lauscht man bei einer Privatparty in eine andere Runde hinein, läuft man Gefahr ignoriert oder mitleidig angeguckt zu werden. Auf dem Schulhof droht im schlimmsten Fall Prügel.

Viel einfacher im Web: man kann verfolgen, abonnieren und ansurfen wen man will. Gerade den Kreativen unserer Branche wird immer wieder empfohlen über den Tellerrand zu schauen. Inspiration kommt oft aus den ungewöhnlichsten und unerwartetsten Quellen.

Habt ihr einen Lieblings-Offtopic-Followee bei Twitter? Jemand der eigentlich nichts mit eurem Interessengebiet zu tun hat, dem ihr aber gern zuhört? Wie oft verfolgt ihr Leute “auf gut Glück”? Wie viele davon überleben eine Woche in der Verfolgerliste?

BashCamps — Geeks Fighting

12. März 2008, 01:44 Uhr von Fabian

Jason von den 37signals stört sich ein bisschen an der allgemeinen Friede-Freude-Eierkuchen-Stimmung auf Web-Konferenzen. Seiner Meinung nach finden Auseinandersetzungen zwischen Größen der Webgemeinschaft, die in den Blogs durchaus ausgetragen werden, zu wenig Einzug in die Reallife-Treffen. Gegen zuviel Abgenicke und Freundschaftstümelei auf den Panel-Bühnen fordert er kontroverse Debatten in “Web Fight Nights”. Mein Vorschlag gegen Kuschel-Barcamps sind BashCamps — Geeks Fighting ;)

bashcamps - geek fighting

Die re:publica bietet zumindest einen Track kränken und zänken. Vielleicht sollten die Veranstalter versuchen, noch ein paar “Antis” einzuladen.

(Foto: Josh Bancroft, cc-by-nc)

Web 4.0, NLP und hakia vs. Google

26. März 2007, 23:35 Uhr von Fabian

Das geht schneller als man denkt: eben schreibt meine Kollegin über die kommenden Versionen des Webs und macht folgende gewagte Aussage:

Spätestens wenn man anfängt über Web 4.0 zu reden, wird jeder wissen, was Web 2.0 ist/war.

Na dann müssten wir ab sofort alle viel schlauer sein, denn im Read/WriteWeb nimmt Phill Midwinter, wenn auch etwas widerstrebend, die übernächste Versionsnummer des Netzes in den Mund. Dabei geht es um nichts anderes als die Revolution der Suchmaschinentechnik. Jaja, das Thema ist so alt wie das Internet selbst, für Akademiker aber gerade im Umfeld des übermächtigen Google so reizvoll wie lange nicht.

Dabei fallen Schlagwörter wie “semantisches Web”, “Semantik” und NLP (Natural Language Processing), also die maschinelle Verarbeitung natürlicher Sprache. In diesem Zusammenhang taucht, zuletzt auch im Read/WriteWeb, immer wieder der Name hakia auf. hakia, momentan in der beta Phase (ein untrügliches Zeichen, dass wir uns doch noch im 2.0er-Web befinden), hat sich auf die semantische Suche spezialisiert. D.h. es werden nicht nur genau die Worte gesucht, die der Anwender übermittelt, sondern es wird versucht, deren Bedeutung zu erkennen und Ergebnisse miteinzubeziehen, die der Nutzer mit seiner Wortwahl evtl. gar nicht berücksichtigt hat.

Nun verwendet Google diese Technologie natürlich auch, auch wenn über den Umfang wenig bekannt ist. Am offensichtlichsten ist noch die relativ primitive Rechtschreibkorrektur, die auch bei äußerst seltenen (und nicht unbedingt falsch geschrieben) Wörtern Alternativen mit mehr Suchergebnissen vorschlägt. hakia jedoch beschränkt sich bei seiner semantischen Analyse nicht auf einzelne Schlüsselwörter, sondern auf gesamte Sätze oder Wortgruppen. Dieses Prinzip ist ebenfalls nicht neu, Angebote wie Answers.com oder Ask.com bieten so etwas schon länger.

Lange Rede, kurzer Sinn. hakia hat mich neugierig gemacht, also habe ich mir drei Kandidaten geschnappt, hakia, Google und Ask.com, und habe sie völlig unprofessionell mit drei Fragen konfrontiert, die ich mir genau so innerhalb der letzten Tage gestellt habe. Hier ist mein Minitest:

When does summertime end?

Dabei erwartete ich, darüber kann man streiten, das konkrete Ende der Sommerzeit in diesem Jahr, also “28. Oktober 2007″. Im Nachhinein habe ich die Suchergebnisse zwar noch nach einer allgemeingültigen Antwort untersucht, aber in die Rangfolge ging das nicht mehr ein.

Ergebnis:

  1. hakia, Treffer auf Platz 1. Dabei muss man zugeben, dass dieser Treffer etwas glücklich ist. Die restlichen Treffer haben nur wenig mit der Frage zu tun und eine allgemeingültige Antwort (”letztes Wochenende im Oktober”) erscheint unter den ersten 40 Ergebnissen überhaupt nicht.
  2. Ask.com. Bei dieser Frage leiden Ask.com, wie auch Google, an einem typischen Foren-Problem: man findet tausende Referenzen auf die Frage, aber keine auf die Antwort. Ask.com landet knapp vor Google, weil der erste Treffer zumindest beim Besuch der Seite schneller das Ergebnis präsentiert als beim Suchmaschinenplatzhirsch.
  3. Google. Das konkrete Datum habe ich unter den ersten 60 Treffern überhaupt nicht gefunden und bei der allgemeinen Lösung hat Google einfach Pech. An dritter Position wird der Wikipedia-Eintrag zur Daylight saving time zitiert, dummerweise nur bis from the last Sunday in March to the last… — tja, knapp daneben.

When was Stalker filmed?

Erwartete Antwort: 1979. Ok, das war das Premierenjahr, aber das meinte ich bei meiner Frage auch :)

Ergebnis:

  1. hakia, Treffer auf Platz 1. Im Gegensatz zu Google und Ask.com erkennt hakia anhand des nachgestellten Verbs filmed anscheinend sofort, dass ich nach dem Film frage und nicht nach Stalkern im Allgemeinen. Das führt dazu, dass die Filmdatenbank imdb ganz oben landet. Als Schmankerl präsentiert mir hakia sogar eine zeitgeschichtliche Einordnung, die es aus dem imdb-Ergebnis extrahiert: The well-publicized Chernobyl nuclear accident took place seven years after Stalker was filmed.
  2. Google, Ergebnis auf Platz 6. Dort erscheint, übrigens noch einen Platz tiefer als bei hakia, die DVD-Seite des Films bei Amazon.
  3. Ask.com, Ergebnis auf Platz 8 und dazu noch völlig unscheinbar im Subtext versteckt, so dass ich fast weitergeblättert hätte. Besonders ärgerlich: die Top-3-Ergebnisse behandeln ein und diesselbe Nachricht, die auf verschiedenen Boulevardmagazinen verwurstet wurde.

What’s the library path variable in linux?

Erwartete Antwort: LD_LIBRARY_PATH.

Ergebnis:

  1. Ask.com. Treffer auf Platz 1. Ask.com und hakia finden das gleiche Dokument, wenn auch auf unterschiedlichen Servern.
  2. hakia. Treffer auf Platz 2.
  3. Google. Je nachdem, ob man die Google-Scholar-Hinweise mitrechnet oder nicht, landet der Treffer auf Platz 5 bzw. 6. Wenn Google vorher ein bisschen Pech hatte, wird es bei dieser Frage wirklich abgehängt. Vor allem das Hervorheben des gesuchten Variablennamens scheitert hier völlig.

Fazit

hakia, nicht schlecht! Konkrete Fragen versteht hakia wirklich überraschend gut. Die Relevanz der Ergebnisse jenseits des ersten Treffers erschien auf den ersten Blick etwas schlechter als bei Google. Zumindest bei meiner etwas schiefen Übersetzung der Sommerzeit als “summertime” (richtiger wäre daylight savings time), vermute ich Googles Vorsprung in der Erkennung von Synonymen bzw. Rechtschreibfehlern begründet. Da kann die größte Suchmachine einfach auf einen größeren Datenbestand und Erfahrung mit schludrigen Benutzern zurückgreifen ;)

Ich weiß gar nicht, wie lang die Halbwertzeit einer Webgeneration ist, aber wenn der flächendeckende Einsatz von NLP den Anfang des Web 4.0 markieren soll, dann wird das Web 3.0 vermutlich deutlich kürzer als das Urweb und die zweite Inkarnation.