Sprachgesteuerte Anwendungen mittels Datenannotation erstellen

Lee Densmer Lee Densmer 30. Nov. 2020
Sprachgesteuerte Anwendungen mittels Datenannotation erstellen
Die meisten Menschen halten Sprach­assistenten für ein neu­artiges Phänomen. In gewisser Hin­sicht stimmt das auch: Im ver­gangenen Jahrzehnt reihte sich eine Innovation an die andere. 2011 führte Apple den heute all­gegenwärtigen Sprachassistenten Siri ein. 2014 konterte Microsoft mit einem eigenen Sprach­assistenten, Cortana. Und Amazon ver­öffentlichte seinen Sprach­assistenten Alexa als Teil des intelligenten Laut­sprechers Amazon Echo – ebenfalls im Jahr 2014. Doch die Wurzeln moderner Sprach­assistenten reichen 60 Jahre zurück, ins Jahr 1961, als IBM das erste digitale Sprach­erkennungs­gerät ent­wickelte: IBM Shoebox. In den 70er- und 80er-Jahren folgten weitere digitale Sprach­erkennungs­systeme, darunter das „Harpy“-Projekt der US-amerikanischen Carnegie Mellon University. Mit der Markteinführung von Dragon Dictate im Jahr 1990 stand Sprach­erkennungs­software erstmals auch Privat­kunden zur Ver­fügung – für den stolzen Preis von 9.000 US-Dollar. Dass Sprach­assistenten in letzter Zeit eine solche Be­liebtheit erfahren, liegt vorrangig an ver­änderten Kunden­wünschen und techno­logischen Fort­schritten. Untersuchungen belegen ein­deutig, dass Sprach­assistenten kein flüchtiges Phänomen sind. Vielmehr werden Kunden künftig be­vorzugt mit ihnen im Web nach Pro­dukten und Services suchen. Jetzt schon suchen beinahe 60 % aller Amerikaner per Sprach­steuerung nach Unternehmen in ihrer Nähe.

Funktionsweise von Sprach­assistenten

Das Prinzip eines Sprach­assistenten ist die Um­wandlung von ge­sprochener Sprache in Text. Um diesen Prozess aus­zulösen, muss der Nutzer eine vorab fest­gelegte Signal­formulierung aus­sprechen, die den Assistenten gewisser­maßen aufweckt. Das kann „Hey, Siri“ oder „Hey, Google“ sein. Alles, was nach der Signal­formulierung aus­gesprochen wird, zeichnet das Gerät auf. Erkennt es eine Pause, hält es die Aufzeichnung an. Die Aufzeichnung wird in die Daten­bank ein­gespielt und vom System geparst. Das heißt, das System zerlegt das Gesagte in „Einzel­teile“, um die Ab­sicht des Nutzers zu ermitteln. Sagt ein Nutzer beispiels­weise: „Hey, Siri. Ich möchte dieses Jahr an Weih­nachten in den Urlaub fahren“, beachtet der Assistent die Wörter, die eine Ab­sicht aus­drücken, also „Urlaub“ und Weih­nachten“. Als Nächstes würde er den Text in Sprache um­wandeln (Sprach­synthese) und der Auf­forderung nach­kommen, beispiels­weise mit der Nennung von Reise­optionen für den 25. Dezember.

Datenannotation und Sprach­assistenz­technologie

Es wäre gut, wenn Sprach­assistenten auch gleich Dialekte und feine Nuancen der mensch­lichen Sprache er­kennen würden, doch das ist nicht so einfach. Damit wir von künst­licher Intelligenz (KI) und maschinellem Lernen (ML) profitieren können, müssen wir relevante Daten­sätze in das jeweilige System einspeisen – ein Prozess namens „überwachtes Lernen“. Das System ver­wendet diese Daten­sätze dann im Grunde, um sich selbst das Sprechen beizubringen. Datenannotation ist eine Methode zum Kategorisieren digitaler Daten­sätze, damit diese von einer ML-Engine verstanden und ver­arbeitet werden können. Im Regel­fall müssen Menschen, sogenannte Analysten, den Prozess der Daten­annotation be­aufsichtigen. Sie er­gänzen Daten­quellen wie Text, Bilder, Videos und Audio­dateien um Tags, eine Form von Metadaten. Im nächsten Schritt ver­arbeiten Engines annotierte Daten mithilfe eines Algorithmus. Das versetzt sie in die Lage, in neuen Daten­sätzen Muster zu erkennen. Für den Lern­erfolg der Algorithmen ist daher höchste Genauigkeit gefordert. Es gibt mehrere Methoden der Daten­annotation, zum Beispiel diese:
  • Semantische Annotation. Dabei werden Konzepte wie Namen oder Objekte innerhalb von Text­dateien erkannt und annotiert. Mittels semantisch annotierter Daten lernen Engines, neue Konzepte zu kategorisieren.
  • Textkategorisierung. Dabei werden einzelnen Dokumenten Kategorien zugeordnet. Ein Analyst taggt Teile eines Dokuments nach Themengebiet, z. B. Sport.
  • Video-/Bildannotation. Hierfür gibt es zahlreiche Beispiele. Eine gängige Methode der Bild­annotation ist die semantische Seg­mentierung. Hierbei wird jedem einzelnen Pixel eines Bilds eine Be­deutung zu­gewiesen, damit die Engine den annotierten Bereich besser erkennt.

Google Aktionen und Alexa Skills

Unternehmen, die ihren Kunden sprach­gesteuerte Funktionen bieten möchten, stehen die Entwickler­tools von Platt­formen wie Google und Amazon zur Ver­fügung, um deren Sprach­assistenten dafür zu nutzen. Die Entwickler­plattform von Google heißt Aktionen. Aktionen sind Funktionen oder Absichten, die Google Assistant anleiten. Marken können sie ver­wenden, um sprach­gesteuerte An­wendungen genau nach ihren An­forderungen zu er­stellen. Ein Restaurant beispiels­weise kann mithilfe einer Aktion Kunden das Bestellen von Gerichten ermöglichen.

Google Aktionen fallen in drei breit­gefächerte Kategorien: funktionale (oder Kontakt-)Aktionen, Aktionen für daheim und Vorlagen. Als funktionale Aktion gilt zum Beispiel ein Rezept. Aktionen für daheim steuern Google-Geräte für Smart Homes und Vor­lagen dienen Nutzern dazu, sich Spiele und Quizze aus­zudenken. Aktuell gibt es mehr als 30.000 Google Aktionen, allein im ersten Quartal 2020 kamen 3.617 hinzu.

18.828 aller Google Aktionen sind auf Englisch (Stand 2020), doch gegenüber dieser Vormacht­stellung holen andere Sprachen derzeit auf. So liegt Hindi mit 7.554 Aktionen auf dem zweiten Platz. Für Marken mit Expansions­plänen wird die Aus­weitung der sprach­lichen Vielfalt von Google Aktionen ein Muss sein. Amazon bietet eine ähnliche Entwickler­plattform. Sie heißt Alexa Skills. 2019 gab es für Alexa über 100.000 Skills in Kategorien wie Business, Finanzen, Nachrichten und Wetter. Sowohl Google als auch Amazon ver­pflichten Ent­wickler zur Daten­annotation, um eine Aktion oder Skill mit einem be­stimmten Parameter zu verknüpfen. Google führt die folgende Beispiel­formulierung an: „Buchen Sie ein Zimmer für Dienstag.“ „Dienstag“ wird annotiert und mit der Absicht (bei Google „Intent“ genannt), ein Zimmer buchen zu wollen, verknüpft. Das Erstellen einer sprach­gesteuerten An­wendung mittels Daten­annotation ist eine große Aufgabe, ins­besondere für Unternehmen, die Funktionen in mehreren Sprachen an­bieten wollen. Sprach­assistenten werden immer be­liebter, also werden Platt­formen wie Google und Amazon ihr Angebot an Entwickler­tools und -funktionen ausweiten. Dank diesen Tools können Unternehmen ihren Kunden Sprach­steuerungs­funktionen und heraus­ragende Benutzungs­erlebnisse in Märkten rund um den Globus bieten. Zögern Sie daher besser nicht, selbst eine sprach­gesteuerte Suche anzubieten. Wir bedanken uns bei Hinde Lamrani, International Search Subject Matter Expert bei RWS Moravia, für ihren Input zu diesem Blogartikel.
Lee Densmer
Autor

Lee Densmer

Lee Densmer ist seit 2001 in der Lokalisierungsbranche tätig. Sie begann als Projektmanagerin und wechselte dann zu Lösungsarchitektur und Marketing-Management. Wie viele Lokalisierungsexperten kam auch sie durch ihr Sprachinteresse und ihre linguistische Ausbildung zu diesem Bereich. Sie hat einen Master-Abschluss in Linguistik von der University of Colorado. Lee Densmer lebt in Idaho und unternimmt gern Auslandsreisen und Ausflüge in die umliegenden Berge.
Alle von Lee Densmer