Tool für semantische Suche kommt bald auf den Desktop
Ein Open-Source-Projekt arbeitet derzeit an einer Suche, die Ergebnisse anhand der Bedeutung von Wörtern auflistet.
Seit fünf Jahren brütete das Projekt hinter den Mauern des Middlebury College im US-Bundesstaat Vermont, doch in den nächsten Wochen wollen die Forscher unter der GPL (General Public License) eine Version für den Desktop veröffentlichen.
Die Einfachste Form einer semantischen Suche ist die Indexierung von Synonymen. Ein weiterer Schritt ist die Suche über Wortgruppen oder Wortfamilien. So würde die Sucheingabe ‘Hund’ auch Ergebnisse zum Beispiel mit ‘Pudel’ oder ‘Labrador’ liefern. Nächsten Monat will Aaron Coburn, der Leiter des Projektes ‘Semantic Indexing’ unter dem Namen ‘Standalone Engine’ eine Version für den Desktop vorstellen.
In einigen Projekten hat Coburn die neuen Möglichkeiten einer bedeutungsbasierten Suche vorgestellt, vor allem in Bereichen akademischen Forschung. In einem nächsten Schritt will Coburn möglichst viele elektronische Texte in einer Datenbank erfassen.
Doch das Projekt soll noch weiter gehen. Coburn hat auch eine Visualisierung integriert. So visualisiert die Software zum Beispiel Romane. In einem ersten Projekt haben die Forscher aus Middlebury in Zusammenarbeit mit einem spanischen Lehrstuhl einen elektronischen Reader von Cervantes’ Don Quixote erarbeitet, der sich auf bestimmte Muster hin durchsuchen lässt.
Erste Gehversuche unternahm das Projekt mit den Romanen von Jane Austen. Ein Tool sorgt für die Visualisierung der einzelnen Charakteren in den Romanen. Ein Algorithmus stellt dann Bezüge zwischen den Personen in den einzelnen Werken dar. Dieser Algorithmus sei inzwischen schon so weit ausgereift, dass sich die Bezüge zwischen den Personen relativ treffsicher darstellen lassen, heißt es von dem Projekt.
Ein zweites Einsatzgebiet ist ein Crawler, der Blog-Seiten indexiert. Das ‘Discourse Analytic Project’ indexiert Tausende dieser oft meinungsgetriebenen Seiten und visualisiert hier Schlagworte und bestimmte Textmuster.
Gegenüber dem Branchendienst Newsforge erklärte Coburn: “Ich hoffe, dass diese Tools uns helfen werden, eine andere Sichtweise auf Daten zu bekommen und Muster in Texten zu finden, die uns mit einer Schlagwortsuche bisher verborgen geblieben sind.”