Das ist krank! Text Mining und Wörter mit mehreren Definitionen / Nachrichten

Wenn Sie den Titel dieses Artikels lesen, müssen Sie sich fragen, wovon ich rede, wenn ich sage: "Das ist krank!"

Es macht Sinn, wenn ich gerade einen Autounfall erlebt habe, der so abscheulich ist, dass es mir schlecht geht in meinem Magen. Es macht jedoch auch Sinn, wenn ich gerade gesehen habe, wie Sidney Crosby bei den Olympischen Spielen von Socchi 2014 das spielerfolgende Tor für die Goldmedaille erzielte. Eine Schwierigkeit bei der Linguistik besteht darin, dass dasselbe Wort mehrere Bedeutungen haben kann.

In der englischen Sprache wird das Wort "krank" durch das Oxford-Wörterbuch wie folgt definiert: "von körperlicher oder psychischer Krankheit betroffen". Was Sie im Oxford-Wörterbuch nicht finden, ist die Slangbedeutung für "sick". Das städtische Wörterbuch definiert als "verrückt; cool; verrückt"..

Gut oder schlecht?

Wie kann eine Maschine entschlüsseln, ob wir von "guten Kranken" oder "schlechten Kranken" sprechen??

Lasst uns einen Schritt zurückgehen, wie können die Menschen erkennen, von welchen "Kranken" wir sprechen? Menschen erhalten Hilfe durch Dinge wie Körpersprache, Tonfall des Kommunikators, Augenkontakt, Gesichtsausdruck sowie kulturelle Symbole wie Kleidung, Frisur und Standort.

Natürliche Verarbeitungstechnologien wie Text Mining können die oben genannten Kommunikationsmethoden nicht verwenden. Es ist einfach nicht möglich. Wenn sich die Bilderkennung und die Emotionsanalytik in etwa fünf bis zehn Jahren weiterentwickeln, können wir anfangen, Hinweise auf Körpersprache und Stimmlage zu bekommen.

Text-Mining muss sich auf das Kontextverständnis des Satzes stützen, um den Unterschied zwischen den beiden Bedeutungen desselben Wortes zu erkennen.

Die Wörter, die "krank" umgeben, und die Reihenfolge dieser anderen Wörter werden dem Kontextverständnis eines Satzes zugeschrieben. Schauen wir uns ein paar Beispiele an:

Beispiel 1 - "Bei diesem Autounfall habe ich mich krank gefühlt"

Eine Text-Mining-Engine weiß, dass, wenn das Wort "fühlen" vor dem Wort "krank" steht, "krank" mit einem negativen Gefühl gekennzeichnet wird. Der Motor weiß, dass es schlecht geht, sich schlecht zu fühlen.

Beispiel 2 - "Wow, Crosbys Ziel war krank!"

Text Mining Engine

Eine Text-Mining-Engine weiß, dass ein "Ziel" per Definition nicht "krank" sein kann. Ein Ziel ist kein Lebewesen, es kann nicht von einer Krankheit betroffen sein, daher kann ein Ziel nicht krank sein. (Die meisten Text-Mining-Engines beziehen sich auf ihr Wissen aus einer Art semantischer Ontologie. Hier ist ein Beispiel für die Text-Mining-Konzeptmatrix von Lexalytics.)

Wenn Sie jedoch mit einem Datensatz über Sport arbeiten, können Sie die Engine so trainieren, dass sie ein positives Gefühl für das Wort "krank" trägt, wenn es in einem Satz in der Nähe des Wortes "Ziel" erscheint.

Dies ist nicht die "be-all-end-all" -Lösung. Wörter mit mehreren Bedeutungen, doppelten Vorsätzen und Sarkasmus sind sehr schwierige Dinge, die im Umgang mit Text-Mining umzugehen sind. Eines Tages werden wir eine fehlerfreie Maschine haben, die mit jedem bekannten Dialekt, jeder Sprache und jedem Slang programmiert ist. buchstäblich alles, was die Sprache umfasst!

Aber vorerst ist es wirklich cool, dass wir die Fähigkeit haben, eine Maschine so zu trainieren, dass sie den Kontext wie ein Mensch versteht.

Scott Van Boeyen ist Community Manager für Lexalytics und Semantria. Ziel ist es, Journalisten / Reportern mit Inhalten im Zusammenhang mit Big Data und Analysen zu helfen, zu schreiben, zu bloggen und Denkführung durch soziale Medien zu bieten.