nandoo.net versteht und kürzt Texte

Es klingt ein bisschen nach Science Fiction: Die “Text-Verstehmaschine” nandoo.net (www.nandoo.net) soll erkennen, welche Art von Nachrichten der Nutzer wünscht. Das System ist lernfähig und filtert Suchergebnisse nach deren Relevanz. Die etwas andere […]
nandoo.net versteht und kürzt Texte

Es klingt ein bisschen nach Science Fiction: Die “Text-Verstehmaschine” nandoo.net (www.nandoo.net) soll erkennen, welche Art von Nachrichten der Nutzer wünscht. Das System ist lernfähig und filtert Suchergebnisse nach deren Relevanz. Die etwas andere Nachrichtenplattform startete bereits im Februar mit einer ersten Version. “Richtig los” geht es aber erst jetzt.

Die “Textverstehmaschine” wurde in Potsdam von Cyber Consult, einem seit 1997 existierenden Internetdienstleister, in Zusammenarbeit mit dem Linguistiker Manfred Stede entwickelt. Bevor sie aktiv wird, ist die Maschine allerdings auf die Hilfe des Nutzers angewiesen. Aus unzähligen Themengebieten, die andere User angelegt haben, wählt er seine Interessensgebiete – beispielsweise Web 2.0 – aus. Wenn unter den Beispielthemen das eigene Thema fehlt, kann der Nutzer es anlegen und mit einigen Beispielartikeln aus dem Nachrichtenpool spicken. Dadurch “lernt” die Maschine, für welche Themen sich der User interessiert und versorgt ihn mit entsprechenden Nachrichten. “Durch dieses Verfahren kann man ein Thema sehr genau zuschneiden, was über eine Stichwortsuche weit hinausgeht”, erklärt Produktmanager Bernd Mrohs. Klickt man als Exil-Schwabe zum Beispiel auf das Themengebiet “Schwäbische Alb”, erhält man Artikel über Streiks in schwäbischen Kindergärten und einen “Sensationsfund” der Universität Tübingen. Außerdem erfährt man die Neuigkeit, dass bei einem Viehtransporterunglück zwei – natürlich schwäbische – Kühe verendeten. Die Maschine findet also auch Artikel, in denen der genannte Begriff nicht unbedingt vorkommt. Passt einer der Artikel nicht zum Thema, kann der Nutzer ihn entfernen und die Maschine damit “trainieren”.

Texte kürzen – ohne Sinnverlust

Bei ihrer Suche nach passenden Nachrichten bedient sich die Maschine statistischer und linguistischer Methoden. Welche Wörter relevant sind, ermittelt sie aufgrund ihrer genannten Häufigkeit und ihrer Position im Text. Zusätzlich werden die Ergebnisse automatisch mit Wikipedia und Wiktionary auf ihre Relevanz hin überprüft. Aktuell stöbert die “Textversteherin” nach eigenen Angaben in über 150.000 Nachrichten in über 30 Quellen, darunter dpa, Heise Online und Spiegel Online. Dass die Maschine Texte wirklich “versteht”, wird anhand der “Slider”-Funktion deutlich: Mit dem Schieberegler kann der Nutzer Texte auf eine bestimmte Größe stutzen, ohne dass Syntax und Verständlichkeit Schaden nehmen sollen. So kann der Nutzer die Leselänge der Artikel selbst bestimmen.

Jedoch geht das Konzept von nandoo.net über eine personalisierte Online-Zeitung hinaus. “Die personalisierten Nachrichten sollen in die Webpräsenz der Nutzer eingebaut werden”, so Mrohs. Bei nandoo.net kann der Interessent bestimmte Themen abonnieren und dann die aktuellen Meldungen auf seine Website einbauen – als sogenannte Newslets. “Ein auf Unterhaltsrecht spezialisierter Rechtsanwalt zum Beispiel kann so auf seiner Seite Nachrichten zu diesem Thema einbinden, hat dadurch immer aktuelle News für seine Klienten”, erklärt der Produktmanager. Mrohs sieht noch einen weiteren Vorteil darin: Auch kleinere Content-Partner wie zum Beispiel Blogger, die nur eine bestimmte Nische bedienen, finden ein interessiertes Publikum.

Eine Million Euro kostete dieTechnologie bisher

Längerfristig will Cyber Consult das Nachrichtenangebot über die Newslets finanzieren. Verschiedene Erlösmodelle stehen zur Debatte: Zum einen könne man personalisierte Nachrichten mit zielgerichteter Werbung verbinden. Zum anderen sei auch der Verkauf von newslets an kommerzielle Zeitungen angedacht. Außerdem ist das Erheben von Gebühren von den Content-Anbietern, die in den News-Pool aufgenommen werden, angedacht. Bisher trägt Cyber Consult die Kosten für die “Text-Verstehmaschine”: Rund eine Million Euro haben die Betreiber nach eigenen Angaben bereits in die Technologie investiert. Die Suche nach passenden Investoren läuft noch.

Seit Mai 2009 schreibt Yvonne für deutsche-startups.de Gründerportraits, Start-up-Geschichten und mehr – ihre besondere Begeisterung gilt Geschäftsideen mit gesellschaftlich-sozialer Relevanz. Sie tummelt sich auch im Ausland – immer auf der Suche nach spannenden Gründerpersönlichkeiten und Geschäftsideen.



  1. Chris

    Na Sooper.

    Irgendwie bin ich etwas enttäuscht von nandoo’s “Texterkennungsmaschine”. Habe mir jetzt mal stichprobenartig 2 Texte rausgesucht und ein bisschen rumprobiert. Das einzige was nandoo macht, wenn man den Text kürzt, ist die letzten Zeilen eines jeden Abschnitts zu entfernen. Irgendwie relativ schwach. Dazu braucht man keine ausgeklügelte Maschine die Syntax etc. “erkennt”.

    Die Aussage dass der Sinn des Textes erhalten bleibt ist auch eine Farce. Da werden nämlich teilweise schon arg viele Fakten aussen vorgelassen wenn man mal ordentlich kürzt. Natürlich, der grobe “Sinn” des Textes, also um was es ungefähr geht, bleibt erhalten, aber dazu würde auch eine Überschrift mit einem einzeiligen Infotext genügen….

    Lg,

    Chris

  2. Hallo Chris,
    ganz ehrlich: Der Slider, der Texte auf wesentliche Aussagen reduziert, ist sicher nicht das Kernfeature von Nandoo.net. Vielmehr geht es uns darum, sich “themenorientiert” zu informieren. Mein Ziel: Ich möchte alle für mich relevanten Artikel aus allen verfügbaren Quellen zu meiner “individuellen Zeitung” zusammengestellt bekommen, statt mich selber durch die mir bekannten Quellen zu graben und evtl. interessante Quellen zu übersehen. Das leistet Nandoo.net.

    Darüber hinaus kann ich “meine Nachrichtenzusammenstellung” per Newslet auf meiner eigenen Webseite einbauen. Die Seite wird auf diese Weise automatisch mit aktuellem und thematisch passendem Content angereichert. Das macht sie für Besucher interessanter. Genau so wichtig: Durch das Newslet wird das Google-Ranking der Seite verbessert. Die Seite steht also in Google-Treffer-Listen weiter oben. Das führt zu mehr Traffic auf der Site. Und ist für jeden Privat-Nutzer vollkommen kostenlos.

    Noch ein Wort zum Slider: Demnächst werden wir aus mehreren Dokumenten zum selben Thema automatisch einen einzigen Text generieren, der alle relevanten Informationen genau einmal enthält, also Redundanzen entfernt. Danach kommt die Erweiterung des Sprachraumes: D.h. mit deutschen Beispieldokumenten finden wir auch Treffer in von Dir gewünschten Sprachen. Wir haben noch etliche spannende Dinge in Vorbereitung. Und in der Tat sehen auch wir noch Verbesserungsmöglichkeiten. Wichtig ist uns aber, nicht nur über bekannte Ansätze zu jammern, sondern neue Lösungswege zu finden. Wir sind dabei. Dass unser System bei extremen Sliderpositionen an seine Grenzen stösst, ist doch wohl klar. Beim komprimieren von Audio- oder Bild-Dateien ist das doch auch so. Dennoch sind die entsprechenden Algorithmen trotzdem nützlich, oder? Unser Ansatz ist sicher noch nicht perfekt, aber er zeigt doch schon die Perspektive.

    Würde mich freuen, wenn Du Nandoo.net trotz Deiner Kritik weiter im Blick behältst.

    Gruss

    Jens



  3. Chris

    Okay, das Prinzip ist mir ja bewusst, individuelle Zeitung für jedermann. Schön.
    Sorry für meine überdirekten Formulierungen aber ein Quantensprung ist das Prinzip ja nicht.

    Was mich in dem Bericht auf DS.de wirklich eher faszinierte und interessiert stimmte war eben das Tool um die Texte sinngemäß zu kürzen. Zugeben müsst ihr auch, dass darüber berichtet wurde als wäre es “die Sensation” schlechthin.

    Natürlich behalte ich nandoo im auge, ist doch eine tolle Sache! Aber offen für Kritik muss man immer sein ;-) und gut dass das bei euch so ist!

    Weiter so,

    lg

    Chris



  4. Thomas

    Man kann nur hoffen, dass die Betreiber der 30 Quellen, aus denen hier Nachrichten gefischt werden, ihre Zustimmung erteilt haben: Ansonsten basierte das ganze Konzept auf einem rechtswidrigen kopieren fremder urheberrechtlich geschützter Inhalte…

Aktuelle Meldungen

Alle