"Ich halte es für ein gutes Zeichen, dass Wireless seine jetzige Perfektion in einer Zeit erreicht haben sollte, in der das Imperium enger verbunden war, denn es bietet uns immense Möglichkeiten, diese Vereinigung noch enger zu machen." Die Welt ist sehr weit gekommen, seit King George V diese Worte in der ersten Weihnachtsrede, die 1932 von der BBC ausgestrahlt wurde, in ein Mikrofon sprach.

Heute, 82 Jahre später, hätte King George zweifellos ungläubig gestarrt, als ich mein Smartphone bat, eine Aufzeichnung seiner berühmten Wörter über YouTube im Internet zu finden. Ich bin jedoch der Meinung, dass das Spracherkennungs- und Diktiersystem nach Ansicht eines bescheidenen "Bürgerlichen" endlich volljährig geworden ist.

In relativer Hinsicht - zumindest seit der Geburt des digitalen Zeitalters - sind Diktieranwendungen für Sprachnachrichten nichts Besonderes. Das unglückselige belgische Unternehmen Lernout und Hauspie entwickelte bereits 1987 Spracherkennungssysteme und kaufte Dictaphone und Dragon Systems zu Beginn des Millenniums, um der Produktbasis Gewicht zu verleihen.

Obwohl das Unternehmen nicht mehr existiert, hat Microsoft einige Sprachschnittstellentechnologien von L & H eingesetzt.

Eine ausgereifte Technologie

Viele der ersten Anwendungen waren jedoch unzuverlässig und unzuverlässig, so dass Sprachdatenbanken mit Algorithmen verknüpft und "Training" auf der Basis von ein paar hundert Anwendern durchgeführt werden musste, die im Rahmen von Forschungs- und Entwicklungsprogrammen eingeschrieben waren.

Mit dem Aufkommen von Cloud und Big Data gibt es heute eine nahezu unbegrenzte Menge an Sprachdaten von „echten“ Benutzern, die mit Servern verbunden sind, die Sprachen und komplizierte Wörter definieren und verarbeiten, ohne dass dabei Algorithmen oder Benutzer trainiert werden müssen. Dieser Umbruch zeigt sich in der Raffinesse der mobilen App von Siri und DragonDictate von Apple, die sogar von Ihrem eigenen Vokabular lernen.

Nun kann jeder (ohne einen wirklich starken Akzent) zuverlässig und ohne Schulung auf kostenlose, verbrauchergestützte Spracherkennungs- und Diktierwerkzeuge zugreifen. Darüber hinaus ist der Datensatz für die Verwendung der Sprachübersetzung exponentiell gewachsen.

Es steht außer Frage, dass dieser Paradigmenwechsel in der Technologie sprachgestützte Systeme von schrulligen Techno-Gimmicks zu echten Business-Tools gemacht hat.

Warum? Weil das Tempo der Entwicklung so schnell gestiegen ist, hat nicht nur Big Data geholfen, sondern auch die Nachfrage nach "Hyper-Tasking" -Tools, die mit der Nachfrage der Verbraucher nach Unmittelbarkeit und nach Arbeit unterwegs sind. Es ist auf jeden Fall schneller als das Tippen auf einem mobilen Bildschirm und für diejenigen, die sich nicht berühren können, oft schneller als mit einer Desktop-Tastatur.

Text-to-Speech-Verbesserungen

Auch für Text-to-Speech-Anwendungen gibt es ein Erwachsenwerden. Einst auf ein Nischenwerkzeug für sehbehinderte und barrierefreie Märkte beschränkt, hat die Revolution bei mobilen Geräten und insbesondere In-Car-Systemen eine breitere Nachfrage der Kunden nach Software ausgelöst, die Text lesen kann, ohne sich wie eine Fremdsprache zu anhören.

In der Tat hat Text-to-Speech einen unerwarteten Nutzen beim Korrekturlesen. Ein befreundeter Journalist erzählte mir, dass er, egal ob er für Rundfunk oder für Print schreibt, immer alles liest, was er laut getippt hat.

Es vermittelt ihm nicht nur ein allgemeines Schreibgefühl, sondern auch die beste Möglichkeit, Schreibfehler zu finden, die andernfalls beim lautlosen Lesen, das einen anderen Teil des Gehirns verwendet, fehlen würden. Gleiches gilt für die Text-to-Speech-Technologie. Wo wären wir schließlich ohne literarische Klassiker wie "The DaVinci Cod" oder Gabriel Garcia Marquez "Einhundert Ohren der Einsamkeit"??

Vor zehn Jahren war Voice-Diktiersoftware eigentlich nur die Domäne von Sekretären, Rechtsanwälten, Sanitätern und gelegentlichen klugen Führungskräften. Heutzutage ist dies fast selbstverständlich, und das Ergebnis könnte eine dramatische Produktivitätssteigerung und ein sichereres Leben in Bewegung bedeuten.

Wenn Sie einer dieser Skeptiker sind, vielleicht durch die Anstrengung des Traumas schwer traumatisiert, frühere Inkarnationen des Sprachdiktats zu verwenden - warum versuchen Sie nicht, einige dieser neuen Systeme auszuprobieren? Warum versuchen Sie es nicht mit Google Now, Apple Siri oder der Nuance Dragon Dictate-App?

  • Dr. Peter Chadha ist Geschäftsführer von Dr. Pete Inc. und Steegle.com. Er ist ein IT-Berater, der strategische IT-Überprüfungen und die Implementierung für ein globales Unternehmen durchführt. Er verfolgt einen pragmatischen Ansatz für Geschäftslösungen, ist jedoch ein Technologie-Evangelist.