Zum Inhalt springen

Spracherkennung für die Steuerung von Anwendungen und Dateneingabe


ASKA SmartVoice ist unsere eigene Entwicklung, basierend auf einem der besten Command & Control Spracherkenner am Markt und wurde von uns für Einsatzzwecke entwickelt, in denen die Spracherkennungssysteme für Texte (z.B. Dragon NaturallySpeaking) an ihre Grenzen stoßen, bzw. einen völlig anderen Ansatz verfolgen, nämlich: große Textmengen sehr genau umzusetzen.

Bei der Dateneingabe und der Anwendungssteuerung kommt es aber darauf an, kurze Befehle und Zahlenkombinationen - oder auch eine Kombination aus beidem - schnell und sauber zu erkennen. Unter Umständen findet die Eingabe auch noch in einem Umfeld mit hohen Hintergrundgeräuschen statt - dann wird die Erkennung noch anspruchsvoller.

Die sogenannten Command & Control Spracherkenner, auf denen ASKA SmartVoice basiert, arbeiten mit Grammatiken und Erkennungsregeln, die vor dem Einsatz erstellt werden und damit den Ablauf der Eingaben von vornherein abbilden und somit die Erkennung sehr robust machen. Diese Grammatiken können dann wiederum in einzelne Abschnitte gegliedert, um bei Bedarf aktiviert und deaktiviert zu werden. Die Spracherkennung bildet damit wieder den Ablauf der möglichen Eingaben ab, und es kann nur das erkannt werden, was momentan von der Anwendung oder Datenbank akzeptiert wird. 

Selbstverständlich können zu erkennende Inhalte zur Laufzeit nachgeladen werden. Es ist sogar möglich, diese neuen Inhalte aus der Zielapplikation auszulesen um somit die möglichen Eingaben auf die gerade möglichen bzw. erwünschten Eingaben in der Zielanwendung abzustimmen und innerhalb der Spracherkennung zu aktivieren. 

Der Spracherkenner ist zudem sprecherunabhängig und kann ohne Training sofort zum Einsatz kommen. Sollten jedoch einmal Sprecher mit starkem Akzent mit dem System arbeiten, können diese den Erkenner innerhalb von ein paar Minuten trainieren und die entsprechenden Daten werden in einem Sprecherprofil abgelegt.   

Die Schnittstellen zu anderen Systemen sind dabei offen gehalten und flexibel gestaltet. Wir können die Ergebnisse der Spracherkennung in Datenbanken übertragen, in Dateien speichern oder, und das ist der am meisten genutzte Modus, direkt in eine Zielanwendung übertragen. Das System kann sogar noch vor der eigentlichen Übergabe der Daten Aktionen in der Zielanwendung ausführen und Masken und Dialoge aktivieren - oder sogar die Maus richtig positionieren.

Projekte mit ASKA SmartVoice

Die Post in Lichtenstein bietet Ihren Kunden mit einem hohen Briefaufkommen einen besonderen Service an. Briefe können unfrankiert eingeliefert werden - die Erfassung des Portos erfolgt dann durch die Post Lichtenstein und wird dem Kunden separat berechnet. 

Bis 2008 wurden dazu Barcodelabels gescannt, die den jeweiligen Wert repräsentieren und auf diversen laminierten Vorlagen zusammengestellt waren. Die Mitarbeiter kannten die Position der wichtigsten Barcodes auf den jeweiligen Bögen zwar schon sehr gut, mussten aber trotzdem noch den Scanner nach jedem Sortiervorgang wieder aufnehmen, sich auf dem Blatt neu orientieren und dann den Scan durchführen.

Nach der Umstellung auf unsere SmartVoice Software war der ganze Sortierprozess deutlich flüssiger. Die Mitarbeiter tragen nun ein drahtloses Headset und sprechen die jeweiligen Kürzel direkt während des Sortierprozesses, den die Spracherkennung sofort umsetzt und in das gleiche Feld übergibt, wie früher die Scannereingabe. Die Hände sind frei für die eigentlichen Aufgaben, und die Erfassung mit Spracherkennung findet nun zeitgleich mit der Sortierung statt, und nicht mehr wie früher separat als angehängter Scanprozess.

RoyalMail betreibt am Rande von London ein großes Sortierzentrum, in dem die Auslandsendungen, die mit dem Flugzeug das Land verlassen, sortiert werden. 

Gemeinsam mit Siemens der Siemens Postal, Parcel & Airport Logistics GmbH, Konstanz, haben wir den Sortierprozess an der Sortieranlage für Päckchen und kleinere Pakete optimiert und auf den Einsatz von Spracherkennung umgestellt. 

Der Sortierprozess vor dem Einsatz von Spracherkennung war folgender: Über Rutschen fielen die Sendungen an den Arbeitsplatz des Sortierpersonals, jeder Sortierplatz war mit 2 Personen besetzt. 

Die Sendungen wurden dann von einem Mitarbeiter mit der Adressseite nach oben auf ein weiteres Förderband gelegt, damit der nachfolgende OCR Scanner das Adressfeld lesen und die Sendung richtig weitersortieren konnte.  Gleichzeitig hat dieser Mitarbeiter das Land, in das die Sendung versandt werden sollte, einem weiteren Mitarbeiter, der gegenüber an einem PC saß, diktiert. Diese Information wurde dann eingegeben und diente dem nachfolgenden Scanprozess als Vorwissen – der Scanner wusste damit nach was er „suchen“ musste, bzw. sein eigener Erkennungsprozess wurde damit abgesichert. 

Die Aufgabenstellung war nun, Spracherkennung so in die Prozesse zu integrieren, dass der Mitarbeiter, der die Sendungen auf dem Band platziert, mittels Spracherkennung auch das Land erfasst. 

Da die Mitarbeiter stündlich den Arbeitsplatz wechseln und die Erkennungsgenauigkeit extrem wichtig bei diesem Erfassungsprozess ist, denn Fehlsortierungen kosten viel Geld, wurden zum Schluss zwei voneinander unabhängig operierende Spracherkenner eingesetzt, die sich gegenseitig absichern, und somit auch bei Sprechern mit starkem Dialekt immer noch eine sehr gute Erkennungsleistung gewährleisten.

SIRI und Alexa sind gut, sehr gut sogar, und die Google Sprachsuche versteht auch schon sehr viel.

Aber wenn es darum geht. sehr spezifische kurze Begriffe – wie zum Beispiel Kfz Ersatzteile, Produktnamen oder medizinische Begriffe – geht, wird es schon schwieriger: da wird aus einem Kugellager schnell mal eine Kegelbahn.

Für ein großes Unternehmen aus Deutschland haben wir deshalb eine Lösung für seine iPhone App entwickelt, die auf Spracherkennung basiert. 

Diese App kann kostenfrei heruntergeladen werden und Inhalte und Zusatzinformationen zu den Produkten dieses Herstellers können über diese App abgefragt werden. Dazu musste bisher der Name des Artikels in eine Suche eingetragen werden - und dieser Name kann sehr speziell und teilweise auch sehr lang sein. Tippfehler sind meistens vorprogrammiert. 

Da die zur Verfügung stehenden Spracherkenner für SmartPhones (in diesem Fall SIRI) keine guten Ergebnisse für diese Abfragen erzielen konnten, haben wir für diesen speziellen Fall den Spracherkenner für den Einsatz auf einem separaten Server optimiert und als Webservice für diesen Kunden zur Verfügung gestellt. 

Die iPhone-App wurde ebenfalls angepasst und erlaubt nun das Einsprechen des Artikels in der Suchmaske. Die Audioinformationen werden dann an unseren Webservice übertragen, dort aus tausenden von möglichen Einträgen erkannt und das Ergebnis an die App zurückübertragen. Die gesprochenen Eingaben sind erheblich schneller und genauer als die getippten. Der Benutzer kommt so schneller an seine Information.