All About Voice - Tim Kahle - E-Book

All About Voice E-Book

Tim Kahle

0,0
33,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.

Mehr erfahren.
Beschreibung

Der Markt der digitalen Sprachassistenten hat sich in den letzten Jahren stark weiterentwickelt und erfordert eine neue Bestandsaufnahme der Möglichkeiten und Chancen für Unternehmen und Marken. Tim Kahle und Dominik Meißner sind Experten auf dem Gebiet der Voice Technologie und liefern die Grundlagen für eigene Voice Strategien und Voice App Projekte sowie die Vermarktungsmöglichkeiten über digitale Sprachassistenten, wie Amazon Alexa oder Google Assistant. Inhalt - Begriffseinordnung, die Entwicklungen rund um Sprachassistenten und deren Einfluss auf unseren Alltag - Strategische Aspekte in der Konzeption von Anwendungen für Sprachassistenten - Konzeption und Design für Voice User Interfaces - Prototyping: Tools, Best Practices, Testing-Methoden, Bedeutung der Multimodalität - Best Practices zur Umsetzung von Anwendungen für die Sprachassistenten Amazon Alexa und Google Assistant - Marketing auf Sprachassistenten: Auffindbarkeit der eigenen Voice Anwendungen, Möglichkeiten der Vermarktung kennen und nutzen Mit eigenem Voice Guru als Arbeitshilfe online: - Companion Voice App für Amazon Alexa und Google Assistant mit demonstrativen Inhalten - Praktische Online-Tools zur Optimierung des Arbeitsworkflows an Voice Projekten - Checklisten, Links, Events  

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 309

Veröffentlichungsjahr: 2020

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



[7]Inhaltsverzeichnis

Hinweis zum UrheberrechtImpressumEinführungDie Welt der digitalen SprachassistentenErfolgsfaktoren und Risiken von SprachassistentenWas Ihnen dieses Buch bietet1 Das Zeitalter der unsichtbaren Benutzeroberfläche1.1 Die Magie von digitalen Sprachassistenten1.2 Die Funktionsweise von digitalen Sprachassistenten1.3 Der richtige Jargon – Einordnung der Begriffe1.4 Verbreitung von digitalen Sprachassistenten1.5 Verbreitung von Smart Speakern 1.6 Digitale Sprachassistenten in der Praxis1.6.1 Wofür werden digitale Sprachassistenten genutzt?1.6.2 Hauptvorteile von digitalen Sprachassistenten1.6.3 Nachteile von digitalen Sprachassistenten1.7 Marktentwicklung im Umfeld von digitalen Sprachassistenten1.8 Übernahmen von Voice-Start-ups1.9 Zusammenfassung2 Erfolgsstrategien für Sprachassistenten2.1 Voice im Kommunikations- und Medienmix2.2 Team-Setup in Voice-App-Projekten2.2.1 Die Rolle des Voice-User-Interface-Designers2.2.2 (V)UX Research 2.2.3 Copywriting – Texten für das menschliche Ohr2.2.4 Audio Engineering – nonverbale Audio-Elemente einsetzen2.2.5 Development 2.2.6 Testing 2.3 Auf welchen Assistenten sollten Sie vertreten sein?2.4 Zusammenfassung3 Konzeption von Voice User Experiences 3.1 Definition von Zielen einer Voice-Strategie3.2 Definition der Zielgruppen3.2.1 User Persona 3.2.2 Place-ona3.3 Identifikation des Use Case3.3.1 User Journey Mapping3.3.2 Search-Traffic-Analyse3.3.3 Voice-Integration-Matrix3.3.4 Die Ideen-Blaupause3.4 System Persona 3.5 User Stories 3.6 Formatauswahl 3.6.1 Anwendungstypen von Amazon Alexa3.6.2 Anwendungstypen bei Google Assistant 3.6.3 Weitere Anwendungstypen anderer Sprachassistenzsysteme3.7 Zusammenfassung4 Gestaltung von Voice User Interfaces4.1 Die Auswahl der Design-Tools4.2 Designtipps4.2.1 Verwenden Sie keine Platzhaltertexte 4.2.2 Hierarchische Menüstrukturen verwerfen4.2.3 Einstiegspunkte in Konversationen unterscheiden4.2.4 Landmarking nutzen4.2.5 Sprechlänge und Sprechpausen beachten4.2.6 Auswahlmöglichkeiten beschränken4.2.7 Variationen verwenden4.2.8 Kontext wahren4.2.9 Einsatz von nonverbaler Kommunikation4.2.10 Latenzen einkalkulieren4.2.11 Social Cues berücksichtigen4.2.12 Testen an physischen Geräten4.3 Happy-Path-Design – das Drehbuch des Conversation-Designers4.4 VUI-Diagramm – die visuelle Repräsentation des Dialogs4.5 Language-Model-Design4.5.1 Intents und Utterances 4.5.2 Variable Werte4.5.3 Tipps zum Language-Model-Design4.6 Content Management für Voice-Anwendungen4.7 Einsatz von SSML- und Audio-Funktionen4.7.1 Pausen mit <break> erzeugen4.7.2 Pausen mit <s> oder <p> erzeugen4.7.3 Aussprache korrigieren und Speechcons mit <say-as>4.7.4 Audio einbinden mit <audio>4.7.5 Phonetische Aussprache nutzen mit <phoneme>4.7.6 Aussprache mit <sub> polieren4.7.7 Sprachfrequenz, Tonhöhe und Lautstärke mit <prosody> ändern4.7.8 Betonung mit <emphasis> ändern4.7.9 Eine andere Sprache nutzen mit <lang>4.7.10 Eine andere Stimme mit <voice> einbinden4.7.11 Der Stimme mehr Lebendigkeit verleihen mit <amazon:emotion> oder <amazon:domain>4.7.12 SSML und Texte probehören4.7.13 Tipps für besseres SSML-Audio4.7.14 Soundeffekte für SSML-Audio4.8 Umgang mit Fehlerquellen – das Repair-Case-Design4.8.1 Onboarding 4.8.2 Die Hilfe-Funktion4.8.3 Hinweise zur Nutzung4.8.4 Logging 4.8.5 Reprompt-Design4.8.6 Umgang mit Error-Cases4.9 Unterstützung von Grafiken, Video und Musik4.9.1 Cards und Chips4.9.2 Alexa Presentation Language (APL)4.9.3 Interactive Canvas Google Assistant 4.9.4 Audiostreaming 4.9.5 Videostreaming 4.10 Mehrsprachigkeit und Internationalisierung von Voice-Anwendungen4.11 Zusammenfassung5 Prototyping und Testing-Methoden für Voice-Anwendungen5.1 Prototyping Tools5.1.1 Voiceflow 5.1.2 Adobe XD 5.1.3 Weitere Prototyping-Methoden5.2 Testing 5.2.1 Textvariationen testen5.2.2 Language Model testen5.2.3 Wizard of Oz – menschliche Simulation des Sprachassistenten5.2.4 Beta-Test Tools5.2.5 Crowdbased Testing5.2.6 Labortest und Feldstudien5.3 Zusammenfassung6 Herausforderungen bei der Entwicklung von Voice-Anwendungen6.1 Datenstrukturen6.2 Hosting 6.3 Cross-Platform-Entwicklung6.4 Visuelle Ausgabe6.5 Länderspezifische Funktionen bei Amazon Alexa und Google Assistant 6.6 Zertifizierung6.6.1 Checkliste: Zertifizierung eines Amazon Alexa Skills6.6.2 Checkliste: Zertifizierung einer Google Action6.7 Wartung und Versionierung6.8 Reporting, Analyse und Monitoring 6.9 Marketing auf digitalen Sprachassistenten6.9.1 Auffindbarkeit6.9.2 Werbung für Anwendungen6.9.3 Werbung in Anwendungen6.10 Zusammenfassung7 Monetarisierung von Voice-Anwendungen7.1 Spracheinkauf bei Amazon Alexa7.2 Google Express über Google Assistant 7.3 Alexa Skills mit Accountverknüpfung7.4 Alexa Skills mit Amazon Pay Integration7.5 Google Actions mit Transactions API7.6 Alexa Skills mit In-Skill-Purchases (ISP)7.7 Designtipps für digitale Verkaufsdialoge7.7.1 Produktstrategie7.7.2 Orientierung und Trial-Phase7.7.3 Dosierung von Upsell-Nachrichten7.7.4 Nutzer auf neue Inhalte aufmerksam machen7.8 Testen der User Journey 7.9 Zertifizierung von Alexa Skills mit ISP7.10 Zusammenfassung8 Digitaler Paradigmenwechsel durch das Ökosystem »Voice«8.1 Einschätzung des Potenzials8.2 Multimodalität und Multikontextualität8.3 Personalisierung und Hyperlokalisierung8.4 Gewerblicher Einsatz von Sprachassistenten8.5 Umsetzung eines Voice-Projektes8.5.1 Vorlage für einen Voice-Workshop8.5.2 Meilensteine eines Voice-ProjektesSchlusswortGlossar der wichtigsten FachbegriffeQuellenverzeichnisAbbildungsverzeichnisTabellenverzeichnisStichwortverzeichnisArbeitshilfen Online
[1]

Hinweis zum Urheberrecht

Haufe Lexware GmbH & Co KG

[6]Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar.

Print:

ISBN 978-3-648-13464-1

Bestell-Nr. 10456-0001

ePub:

ISBN 978-3-648-13465-8

Bestell-Nr. 10456-0100

ePDF:

ISBN 978-3-648-13466-5

Bestell-Nr. 10456-0150

Tim Kahle, Dominik Meißner

All About Voice

1. Auflage, Januar 2020

© 2020 Haufe-Lexware GmbH & Co. KG, Freiburg

www.haufe.de

[email protected]

Bildnachweis (Cover): Visual Generation, Adobe Stock

Produktmanagement: Judith Banse

Lektorat: Peter Böke

Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte, insbesondere die der Vervielfältigung, des auszugsweisen Nachdrucks, der Übersetzung und der Einspeicherung und Verarbeitung in elektronischen Systemen, vorbehalten. Alle Angaben/ Daten nach bestem Wissen, jedoch ohne Gewähr für Vollständigkeit und Richtigkeit.

[11]Einführung

Wann haben Sie das letzte Mal auf Ihr Smartphone geschaut? Mit hoher Wahrscheinlichkeit innerhalb der letzten 60 Minuten. Eine von vielen Studien zum Thema Smartphone-Nutzung stammt von der Unternehmensberatung Deloitte. »Im Smartphone-Rausch: deutsche Mobilfunknutzer im Profil« belegt, dass auch wir Deutschen uns oft in unseren Bildschirmen verlieren (Deloitte 2018). Ein Leben ohne die digitalen Wunderwaffen in der Hosen- oder Handtasche ist kaum vorstellbar. Oder vielleicht doch?

Die Welt der digitalen Sprachassistenten

Unsere natürliche Sprache soll jetzt und vor allem in Zukunft die Interaktion mit Medien, Produkten und Services übernehmen und unser Leben vereinfachen: Willkommen in der Welt der digitalen Sprachassistenten.

Ob es die Intention der Tech-Giganten war, unsere Augen von Screens zu lösen, können wir nur vermuten, aber es kann einer der positiven Nebeneffekte des neuen, unsichtbaren Interfaces werden. Dass die Sprachtechnologie alle pixelbasierten Benutzeroberflächen ablöst, scheint jedoch unwahrscheinlich. Mitte der 2000er Jahre, kurz vor dem weitreichenden Paradigmenwechsel von Desktop-Computern zu mobilen Endgeräten, haben wir uns eine ähnliche Frage gestellt: Werden Desktop-Computer und Laptops überhaupt noch eine Rolle spielen? Heute kennen wir die Antwort: Es gibt sie immer noch. Aber die Miete von unterwegs aus der S-Bahn zu überweisen oder die Always-on-Kommunikation über Messenger Apps auf dem Handy waren 2007 noch Visionen. Unabhängig davon, welcher Generation Sie angehören – es fühlt sich dieser Tage so an, als wären die Smartphone-Abdrücke auf unseren Hosentaschen schon immer da gewesen, und wir fragen uns oft, wie das Leben vor dieser Revolution gewesen sein soll.

Wenn wir von der Entwicklung der digitalen Sprachassistenten in den vergangenen Jahren sprechen, stellen Experten gerne den Vergleich zum Trend von Web zu Mobile her, um das zu unterstreichen, was nun schon in vollem Gange ist: Die nächste Welle der digitalen Disruptionen. Was in diesem Zusammenhang oft nicht erwähnt wird, sind die Entwicklungsstadien der Mobiltelefone vor dem 29. Juni 2007, dem Datum der Vorstellung des ersten iPhones. Die ersten smarten Telefone mit mobilen Zusatzdiensten waren schon deutlich früher auf dem Markt. Die Evolution der Microchips, Produktionskapazitäten und der Ausbau der Mobilfunknetze ermöglichen heute, dass wir unterwegs mit teils schnelleren Verbindungsgeschwindigkeiten als zuhause surfen können und unsere Mobiltelefone manche Desktop-Computer hinsichtlich der [12]Rechenleistung ausbooten. Technische Revolutionen vollziehen sich also nicht von heute auf morgen.

Nach mobile-first heißt es jetzt voice-first? Die rasante Weiterentwicklung der digitalen Sprachassistenten in den letzten Jahren zeigt Parallelen zur Erfolgsgeschichte von »Mobile« auf. Es liegt trotzdem noch vieles vor uns – eine sehr spannende Zeit, sich mit diesem Thema auseinanderzusetzen, und der richtige Zeitpunkt für eine Bestandsaufnahme der Möglichkeiten für Unternehmen und Marken, sich in dem neuen technologischen Umfeld zu positionieren.

Sprachassistenten spielten wohlgemerkt schon vor der Einführung von Amazon Alexa eine Rolle. Durch den enormen Werbedruck des E-Commerce-Giganten ist die Wahrnehmung dieser Historie etwas verzerrt.

Was wir sicher wissen: Unser erstes Gespräch mit Alexa ist das Resultat vieler Iterationszyklen in Spracherkennung, Sprachverarbeitung und synthese. Siri, der digitale Assistent auf Apples iPhone (und heute auch auf Apple Watch sowie Apple Homepod), war Alexa in den USA rund drei Jahre voraus. Nach anfänglicher Euphorie im Jahr 2011 wurde es schnell sehr leise um Siri – ihre Fähigkeiten waren aus Nutzersicht zu eingeschränkt, das Verständnis natürlicher Sprache zu unterentwickelt. Dennoch ist Siri ein Vorbote des heutigen Status quo, obwohl Apples Assistent trotz der bemerkenswerten, potenziellen Reichweite im Vergleich zu seinen Sprachassistenzkollegen Google Assistant und Amazon Alexa aktuell nur eine Nebenrolle spielt.

Warum Sprachassistenten weltweit omnipräsent in Medien und Presse sind, lässt sich mit zwei Beobachtungen veranschaulichen. Auch hier eignet sich der Vergleich mit dem Einzug der Smartphones in unser Leben:

Paradigmenwechsel und die damit verbundene Veränderung von menschlichen Verhaltensstrukturen sind komplexe Prozesse, die nicht von heute auf morgen abgeschlossen werden (wir gehen später in dieser Einführung noch genauer darauf ein). Während der Wechsel von stationärem zu mobilem Internet durch Smartphones in den Jahren ab 2007 in vollem Gange war, hat die Einführung des Sprachassistenten Siri sehr schnell an Medienwirksamkeit verloren. Die Vorteile und Funktionalität waren nicht überzeugend genug. Aber vor allem konkurrierte die neue Sprachsteuerungsfunktion in unseren Köpfen mit der fortschreitenden Verhaltensänderung, in der ein Fingertipp auf Touchscreens zu jederzeit an jedem Ort die neue und dominierende Art der Interaktion mit Inhalten ist. Bis dato war Sprachsteuerung ein Hightech-Thema, Science-Fiction-Filmen vorbehalten und damit für uns fast so weit entfernt wie schwebende Fahrzeuge. Siri konnte dieses Bild nicht ändern. Die Erfahrungen mit der ersten Siri-Version wiesen Parallelen zu denen, die wir zuvor in den Cockpits unserer Autos erlebten. Es war unmöglich, ein Navigationsziel in weniger als drei Anläufen [13]einzusprechen. Bis heute haben Automobilhersteller mit diesen nachhaltig schlechten Erfahrungen der Autofahrer zu kämpfen und viele der Push-to-talk-Knöpfe an Lenkrädern bleiben im gesamten Produktlebenszyklus unbenutzt. Bei Siri erinnern wir uns an die beispielhafte Anfrage, die sich im Internet viral verbreitet hat: Es ging um die Frage, ob man von einer Brücke springen solle (The Week 2013). Siri empfahl nahegelegene Brücken inklusive der Adresse. Die Schwächen lagen auf der Hand. Es fehlte Siri an zwei wesentlichen Eigenschaften, die Maschinen etwas menschlicher erscheinen lassen können. Dazu gehören Intention- und Kontexterkennung, was die Intelligenz von Sprachassistenten ausmacht. Die Zeit für den nächsten Paradigmenwechsel war 2011 noch nicht gekommen, obwohl sich Siri der ethischen Implikationen im Zusammenhang mit dem zuvor genannten Beispiel sofort angenommen hat. Touch-basierte Benutzeroberflächen, Tablet-Computer und Social Media nahmen unsere gesamte Aufmerksamkeit in Anspruch. Und der persönliche, intelligente Assistent von Google, der im Jahr 2012 im Rahmen der Google I/O unter dem Namen »Google Now« vorgestellt wurde (heute Assistant) und kurze Zeit später mit einem Software-Update im Oktober 2012 auf Android-Smartphones Einzug erhielt, blieb in der breiten Masse zunächst unentdeckt.

Ein neuer Ansatz mit einer neuen Verpackung

Warum sollte es also in 2014 gelingen, nur drei Jahre nach der Siri-Vorstellung, die Grundsteine für eine sprachbasierte Interaktion zwischen Menschen und Computern zu legen? Unsere zweite Beobachtung ist ein Indiz, warum Sprachassistenten heute die Schlagzeilen dominieren. Der Schlüssel war der Formfaktor des intelligenten Assistenten, sprich die »Verpackung« und der damit verbundene neuartige Zugangsweg zu dieser Technologie. Im Gegensatz zu Siris Gefangenschaft im Smartphone hat Amazon mit der Einführung des ersten intelligenten Lautsprechers das Potenzial der Sprachassistenz entfesselt. Die Echo-Geräte, die Amazon Alexa beherbergen, versuchten sich gleich in mehreren Produktversprechen: Zum einen sollten sie ein erschwinglicher Bluetooth-/WLAN-Lautsprecher sein, über den wir Musik oder Hörbücher abspielen können. Außerdem sollte der Lautsprecher auch per Sprache bedient werden können und uns die müßige Smartphone-Verbindung per Bluetooth oder 3,5 mm Klinkenkabel ersparen. Und das alles in einem Umfeld, in dem Sprachassistenz bislang keine Rolle spielte und somit keinerlei Vorurteile zu bekämpfen hatte oder mit anderen Eingabemöglichkeiten konkurrierte, nämlich unserem Wohnzimmer. Hier sitzen wir zusammen, hier werden wichtige Familienentscheidungen zusammen getroffen und Unterhaltungsmedien spielen eine zentrale Rolle. Der fortwährende Drang der kaufkräftigsten Generationen nach Produktivitätssteigerung, Selbstoptimierung und Aufrüstung durch Smart-Home-Technologie haben die Marktdurchdringung von Smart Speakern ebenfalls begünstigt. Nun ergibt aus Konsumentenperspektive alles einen Sinn: Einerseits können wir unsere smarten Lampen und Thermostate jetzt per Sprache steuern. Andererseits erscheint die Anschaffung dieser smarten Wohnaus[14]stattung für Besitzer von intelligenten Lautsprechern nun logischer als je zuvor. Zwei Märkte, die sich in einer Aufwärtsspirale gegenseitig bestärken.

Digitale Sprachassistenten sollen den Zugang zu Produkten und Services einfacher, schneller und bequemer gestalten. Das Smart-Home-Beispiel und die Musiksteuerung sind der erste Beweis, dass digitale Assistenten sich bei Nutzern in den Alltag integrieren. Das ist der erste Schritt auf dem Weg zu einer Veränderung unseres Verhaltens. Wir wissen, wie schwierig es ist, die Voraussetzungen zu schaffen, Gewohnheiten langfristig zu verändern. Wissenschaftlichen Aufschluss darüber gibt das Interview der Online-Ausgabe des Harvard Business Review (HBR: Habits: Why We Do What We Do 2012) mit Charles Duhigg, Reporter der New York Times und Autor des The Power of Habit: Why We Do What We Do in Life and Business. Es geht um die Entstehung von Gewohnheiten und um die Herausforderungen, diese zu ändern. Duhigg erklärt die Komplexität vereinfacht so, dass Gewohnheiten in einer der ältesten Regionen in unserem Gehirn gespeichert werden, in den Basalganglien. Genau dort hat sich in den letzten zehn Jahren auch der Automatismus des Griffs zum Smartphone eingebrannt. Immer dann, wenn wir das nächste Restaurant finden möchten, ein Fußballergebnis nachschauen möchten oder einfach wissen wollen, was Basalganglien sind und wo dieser Bereich im Gehirn verortet ist, greifen wir auf unser Smartphone zurück. Nicht selten ist der Trigger aber lediglich die Neugier, ob wir auf Instagram, Facebook oder WhatsApp etwas verpasst haben. Der dafür verantwortliche Teilbereich unseres Gehirns ist nicht einfach zu überschreiben. Ein langatmiger Weg, dem sich nach Amazon auch Google mit eigenem Smart Speaker (Google Home) ebenso wie andere Marktbegleiter angenommen haben. Zusammen mit der Verbesserung von Spracherkennung, -verarbeitung und -synthese sowie Machine Learning und künstlicher Intelligenz soll die Interaktion mit digitalen Sprachassistenten zur Gewohnheit werden und die Tastatur, Maus oder den Fingertipp sinnvoll ergänzen oder sogar ersetzen.

Teil dieses Veränderungsprozesses ist auch, dass Geräte mit Display angeboten werden (z. B. Amazon Echo Show oder Google Nest Hub), die zusätzlich zu der Ausgabe per Sprache auch Informationen auf einer uns sehr vertrauten Oberfläche ausspielen. In diesem Zusammenhang fällt in der Regel der Begriff der Multimodalität, welche zukünftig durch das Zusammenspiel von Sprachassistenz und anderen Eingabemöglichkeiten wie Touch oder Gesten und Ausgabemmöglichkeiten wie Bildschirme oder Projektionen eine noch größere Vielfalt an Anwendungsfällen mit sich bringen soll.

Erfolgsfaktoren und Risiken von Sprachassistenten

Wenn wir den Werbebotschaften von Plattformbetreibern Glauben schenken, ist vor allem der einfachere Zugang zu Informationen, Inhalten und Produkten eines der größten Produktversprechen. Das soll unter Einsatz natürlicher Sprache, die wir [15]bereits als Kind erlernen und mit der wir in den meisten Fällen bis ins hohe Alter unsere Wünsche äußern können, problemlos funktionieren – und zwar ohne erst komplexe Technologien wie Computer verstehen zu müssen oder den Umgang mit diesen erlernen zu müssen. Die Plattformbetreiber Google, Amazon oder auch Samsung haben dazu einen Marktplatz geschaffen, um die digitalen Assistenten durch Drittanbieter-Anwendungen »aufzuschlauen«, also intelligenter zu machen, und Inhaltsvielfalt zu garantieren. Jeder darf dem Sprachassistenten – wie z. B. dem Assistant von Google, Alexa von Amazon oder Bixby von Samsung – neue Fähigkeiten beibringen, aktuell in Form von Anwendungen wie Actions für den Assistant, Skills für Alexa oder Kapseln für Bixby.

Neben der Einfachheit, Geschwindigkeit und Bequemlichkeit, Wünsche per Sprache statt Tastatureingabe zu äußern, können Sprachassistenten Einfluss auf die unangenehmen Seiteneffekte anderer Technologien nehmen. Phubbing, ein Begriff bestehend aus den Wörtern Phone (Telefon) und Snubbing (Brüskieren), wurde 2013 durch die Marketingagentur McCann Erickson erfunden, um die Angewohnheit zu beschreiben, sich mit dem Handy zu beschäftigen, während wir den Menschen um uns herum weniger bis keine Beachtung mehr schenken. Ebenso sind Smartphone und Tablet Computer gern gewählte Medien, um Kinder zu beschäftigen. Sprachassistenten, die vor allem in Smart Speakern beheimatet sind, können diese Verhaltensmuster positiv beeinflussen, denn statt einer immersiven, privaten Interaktion zwischen Nutzer und Bildschirm können smarte Assistenten Teil einer Gruppeninteraktion werden. Wir haben jetzt die Möglichkeit, Kindern mehr bildschirm- und ablenkungsfreie, aber ebenso unterhaltsame Zeit zu schenken. In Zusammenarbeit mit unseren smarten Sprachassistenten.

Und wo, wenn nicht in Autos, kann die neue Generation von Sprachassistenten zur Verkehrssicherheit beitragen? Wir deklarieren mit Situationen wie hands-busy (Hände beschäftigt) und eyes-busy (Augen beschäftigt) ultimativen Szenarien, um mithilfe von Sprachassistenz Mehrwerte zu schaffen oder Nutzern Hilfestellungen zu geben.

Jede technologische Veränderung birgt aber auch Risiken, die unter Umständen negativen Einfluss auf deren Erfolg oder Dynamik nehmen können. Der französische Kulturtheoretiker Paul Virillo brachte diesen Umstand auf den Punkt: »Mit dem Schiff erfindet man auch den Schiffbruch.«

Videoempfehlung: Nir Eyal – The Promise and Peril of Persuasive Technology

In seinem Vortrag im Rahmen des Habit Summit geht Nir Eyal auf die Kehrseiten innovativer Technologien wie Smartphones ein und beschreibt mit anschaulichen Beispielen die Seiteneffekte, aber auch Ansätze, wie wir gesellschaftlich damit umgehen können.

Quelle: www.youtube.com/watch?v=EuAYOhSKOwk

Kurzlink: vui.guru/nireyal

[16]Im Kontext der Sprachassistenten ist es vor allem die Diskussion um mangelnde Transparenz zum Schutz der persönlichen Daten, welche die Marktdurchdringung der intelligenten Lautsprecher begleitet. Die Medien bringen Schlagzeilen und Storys heraus, die ein negatives Licht auf Plattformbetreiber werfen. Die Entwicklungen der letzten Jahre rund um den Datenschutz im Internet und in sozialen Medien bieten einen Nährboden für diese Bedenken. Die Anbieter ließen in der Vergangenheit viele Fragen leider unbeantwortet.

Ein weiterer Punkt ist die Auffindbarkeit von Inhalten und damit einhergehend die Priorisierung von Suchergebnissen. In einer Welt ohne Bildschirm müssen wir darauf vertrauen, dass die vorgelesenen Resultate des Sprachassistenten seriös, authentisch und relevant für uns sind. Aus eigener Erfahrung kennen Sie wahrscheinlich die Relevanz der zweiten Ergebnisseite bei Suchmaschinen. Bei Sprachassistenten ist das noch drastischer. Viele Experten sprechen davon, dass sogar nur das erste Ergebnis Relevanz hat. Wer wählt aber aus, was für mich als Nutzer auf dem ersten Platz der Ergebnisse steht? Wie bereite ich mich als Unternehmen auf diese extremen Wettbewerbsbedingungen vor? In dem aktuellen Entwicklungsstadium begegnen wir vielen offenen Fragestellungen – die Antworten darauf werden hoffentlich sehr bald folgen. Status quo ist: Werbung auf digitalen Sprachassistenten ist sehr stark limitiert. Sie bieten nur einen Bruchteil der Vermarktungsmöglichkeiten, die wir aus dem Web kennen. In der historischen Entwicklung der Interfaces haben wir allerdings erlebt, dass der Reichweite einer Technologie zumeist Werbegelder folgen. Facebook als Plattform ist das Paradebeispiel für diese Entwicklung, da es seit seiner Erfindung im Jahr 2004 viele verschiedene Facebook-Werbeformate mit unzähligen Zielgruppeneinstellungen eingeführt hat, die das Unternehmen im vierten Quartal 2018 um vierzehn Billionen Euro bereicherten (Martech Today 2019).

Was Ihnen dieses Buch bietet

Wir befinden uns in einer sehr dynamischen Entwicklungsphase des Marktes der digitalen Sprachassistenten. Amazon ist Treiber dieser Dynamik. Schon im September 2018 wurden während eines spontanen Hardware-Events vierzehn neue Geräte mit Alexa-Unterstützung vorgestellt (The Verge, Alexa Surprise 2018). 2019 folgten weitere vierzehn Geräte, inklusive einer Brille, Kopfhörern und sogar einem Ring mit Alexa-Integration (Techradar 2019).

Wir werden uns in diesem Buch einen Überblick über die jüngsten Entwicklungen der digitalen Sprachassistenten verschaffen. Der Fokus liegt dabei auf den großen Anbietern Amazon, Google und Samsung.

Den Gesamtkontext zu verstehen ist unsere gemeinsame Grundlage für den Kreationsprozess von Anwendungen für Sprachassistenten. Dabei konzentrieren wir uns auf [17]den Konzeptionsprozess von Anwendungen für Amazon Alexa und Google Assistant. Neben der Marktbetrachtung sprechen wir über strategische Aspekte wie Ziele und Zielgruppen, dem Design von Dialogen bis hin zu Prototyping-Methoden, um Konzepte frühzeitig evaluieren zu können. Wir teilen die Essenz aus unserer täglichen Arbeit und haben uns zum Ziel gesetzt, dass Sie von unseren Erfahrungen profitieren und nach diesem Buch einen leichteren Einstieg in das Thema finden oder noch bessere Anwendungen für Sprachassistenten entwickeln können.

Dabei lernen wir die Prinzipien der Dialoggestaltung für Alexa und den Assistant kennen, die Möglichkeiten und Limitierungen der Plattformen und was Sie beachten sollten, wenn Sie die entwickelten Anwendungen im jeweiligen Marktplatz veröffentlichen.

Nach der Veröffentlichung der Voice-Anwendung befassen wir uns im nächsten Schritt mit der Weiterentwicklung, den Analysen und den Vermarktungsmöglichkeiten Ihrer Voice Apps.

Viele der beschriebenen Methodologien und Ansätze lassen sich auch auf andere digitale Sprachassistenten übertragen. Wir wollen Ihnen allerdings einen weitreichenden Einblick in die Plattformen geben, die vor allem im Bereich der Smart Speaker die Mehrheit der Marktanteile unter sich aufteilen: Amazon Alexa und Google Assistant (mehr zu den Marktzahlen in Kapitel 1.4).

Ziel ist es, dass Sie die Funktionsweise und vor allem das Basiswissen zur Gestaltung und Entwicklung von Anwendungen für diese Systeme verstehen und Impulse erhalten, die Sie in Ihre zukünftige Arbeit einfließen lassen können. Neben den Online-Arbeitshilfen stellen wir eine Beispielanwendung für Amazon Alexa und Google Assistant bereit – sagen Sie zu Ihrem Echo-Gerät einfach: »Alexa, öffne Voice Guru.« Zum Google Assistant sagen Sie: »Hey Google, sprich mit Voice Guru.« Alternativ können Sie die Sprachfunktion über die Amazon Alexa App oder die Google-Assistant-Funktion (für iOS auch als App erhältlich) auf Ihrem Smartphone nutzen.

Was dieses Buch nicht behandelt

Um Ihnen ein klares Bild dieser Lektüre zu verschaffen, finden Sie hier eine Auflistung der Themen, die in diesem Buch nicht behandelt werden:

Gestaltung und Entwicklung eines eigenen digitalen SprachassistentenKonzeption für IVR-Systeme (Interactive Voice Response)Konzeption von bzw. für Chat- oder MessengerbotsEntwicklung von Anwendungen für Open-Source-SprachassistentenEntwicklung oder Konzeption von Siri Shortcuts oder Microsoft Cortana SkillsGrundlagen und Einfluss von Machine Learning oder künstlicher Intelligenz im Umfeld von digitalen SprachassistentenSuchmaschinenoptimierung zur Auffindbarkeit Ihrer Inhalte durch Sprachsuche

[18]»All About Voice« konzentriert sich auf die Konzeption und Entwicklung von Anwendungen für die digitalen Sprachassistenten Amazon Alexa und Google Assistant.

Gender-Hinweis

Aus Gründen der besseren Lesbarkeit wird bei Personenbezeichnungen und personenbezogenen Hauptwörtern die grammatisch männliche Form verwendet, das generische Maskulinum. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung selbstverständlich für alle Geschlechter.

Danksagung

Dieses Buch hätte nicht ohne die Unterstützung einiger wichtiger Menschen in unserem Umfeld entstehen können. Wir möchten zunächst unseren Familien für die bedingungslose Rückendeckung danken, während wir in Deutschland und über die Grenzen hinaus unserer Mission folgen, die Popularität der Technologie »Voice« zu steigern und ihre Relevanz für Marken und Unternehmen unermüdlich zu untermauern. »All About Voice« ist als eigene Konferenz, als gleichnamiger Podcast und nun auch als Buch unser Beitrag dazu, interessierte Menschen zusammenzubringen und den Funken hoffentlich auch auf Sie überspringen zu lassen. Wir danken unserem Team, das uns täglich bei dieser Arbeit mit Leidenschaft und Hingabe unterstützt.

Außerdem danken wir der – wie wir sie nennen – »voice-first Familie«. Das ist die weltweite Community von Enthusiasten, Einzelkämpfern und namhaften Unternehmern, die die Leidenschaft für dieses Thema teilen. Sie leisten ihren Beitrag, damit die globale Akzeptanz und Durchdringung der Technologie noch schneller voranschreiten kann: Durch kreative Ideen und Konzepte, die Entwicklung von unterstützenden Technologien und die Bereitstellung von unverzichtbaren Werkzeugen für das Design und die Entwicklung von Anwendungen für Sprachassistenten.

Eine dieser Enthusiastinnen ist Karile Klug, Voice-Expertin und Innovationsstrategin. Durch die Zusammenarbeit in vielen »Voice Bootcamp« Workshops sind essenzielle Prozessschritte für die Konzeption von Voice-Anwendungen entstanden. Sie bilden die Grundlage für einige Abschnitte in Kapitel 2, 3 und 4 dieses. Insbesondere die Relevanz des Schreibens (»Copywriting«) als Designwerkzeug und die Methode des User Journey Mappings zur Identifikation von Anwendungsideen für Sprachassistenten sind auf Karile zurückzuführen.

Wir danken auch Jan König, Voice Experte und Gründer von Jovo, der durch sein konstruktives Feedback zu diesem Buch ebenfalls zur Qualität des Endergebnisses beigetragen hat.

Wir wünschen Ihnen nun viel Freude mit dieser Lektüre und heißen Sie herzlich willkommen unter den Voice-Enthusiasten!

[19]1Das Zeitalter der unsichtbaren Benutzeroberfläche

Vor allem seit der Einführung von Amazon Alexa in Deutschland im Frühjahr 2017 müssen wir uns als Unternehmen neuen Herausforderungen im Marketing stellen. Nachdem wir mit der Mobiloptimierung unseres Internetauftritts gekämpft und eine Social-Media-Strategie entwickelt haben, wurde in den vergangenen Jahren vielleicht noch über den Einsatz eines Messenger-Chatbots nachgedacht. Nun stehen wir plötzlich einem weiteren neuen, komplexen Ökosystem gegenüber, das (grundsätzlich) ohne Bildschirm daherkommt und mit dem Nutzer per Sprache interagieren kann. Verfallen wir in Schockstarre oder nehmen wir die neue Herausforderung an? Die letzten technologischen Entwicklungen wie Augmented Reality (AR) und Virtual Reality (VR) haben zunächst für ein ähnliches Bild in den Medien gesorgt, aber von Leuchtturmprojekten großer, internationaler Unternehmen abgesehen bis jetzt keine Breitenwirkung in Deutschland erzielt. Warum sollten wir uns jetzt also mit Voice User Interfaces (VUI) beschäftigen?

In diesem Kapitel grenzen wie Begrifflichkeiten voneinander ab, werfen einen Blick auf die nationalen und internationalen Marktzahlen und Akteure im Markt der digitalen Sprachassistenten. Wir erfahren außerdem, wofür diese bisher vorzugsweise genutzt wurden. Damit erhalten wir die Grundlage für eine Einschätzung, ob auch Ihre Inhalte, Services und Produkte in Zukunft dialogfähig werden sollten.

1.1Die Magie von digitalen Sprachassistenten

Die Steuerung unserer Umgebung per Sprache hat bis vor wenigen Jahren nur in Film- oder Fernsehproduktionen reibungslos funktioniert. In diesem Zusammenhang verweisen wir gerne auf Serienklassiker wie Star Trek und Knightrider oder das Hollywood-Drama »Her« (2013), in dem sogar eine romantische Beziehung mit einem digitalen Sprachassistenten gesellschaftlich anerkannt war. Bewusst oder unterbewusst, unsere Gesellschaft treibt die Faszination für die Sprachsteuerung von Maschinen und Computern schon seit Jahrzehnten um.

Es gleicht zuerst einem surrealen Erlebnis, wenn sich die Technologie dem Menschen anpasst und – wie bei Sprachassistenten – auf unsere Stimme reagiert. Vor allem, wenn wir uns alleine in unseren eigenen vier Wänden befinden. Unter Calm Technology verstehen wir Systeme, die sich unauffällig und natürlich in unsere Umgebung einbetten. Digitale Sprachassistenten zählen dazu und können uns in Zukunft auf Zuruf zielgerichtet unterstützen. Sie zeichnen sich dadurch aus, dass sie im Vergleich [20]zu anderen Technologien wie Smartphones einen weniger stark ausgeprägten Lockin-Effekt erzeugen und damit ein geringeres Ablenkungspotenzial aufweisen.

1.2Die Funktionsweise von digitalen Sprachassistenten

Um Anwendungen für Sprachassistenten zu entwickeln, ist es unerlässlich, dass wir das Grundprinzip der technischen Abläufe im Hintergrund verstehen. Einerseits, um die Infrastruktur auf Anwendungsseite ordnungsgemäß einrichten zu können, andererseits, um auf mögliche Fragen der Projektbeteiligten, Kunden oder anderer Stakeholder besser vorbereitet zu sein.

Lassen Sie uns einen Blick auf die Funktionsweise des Sprachassistenten Amazon Alexa werfen. Ein ähnliches Prinzip kommt auch bei Google Assistant, Samsung Bixby und anderen Sprachassistenten zum Tragen. Nachfolgend umreißen wir die wesentlichen Technologien, die bei der Interaktion mit Ihrem Sprachassistenten involviert sind:

a) Automatic Speech Recognition (ASR) und Natural Language Understanding (NLU)

Wenn wir mit unseren Amazon-Echo-Gerät sprechen, wird der Audiomitschnitt der Eingaben nach Nennung des Aufwecknamens (Wakeword) »Alexa« an den Alexa Voice Service (AVS) gesendet. Dort wird das gesprochene Wort in Text umgewandelt (Speech-To-Text, kurz STT). Vereinfacht gesagt sorgt ASR und NLU dafür, dass der Sprachassistent unsere Eingaben grundsätzlich entgegennehmen und verstehen kann.

b) Natural Language Processing (NLP)

Für jeden digitalen Sprachassistenten ist es das Herzstück, natürliche Sprache verarbeiten zu können. Im täglichen Umgang mit unserem Assistenten merken wir, wie gut oder weniger gut das gelingen kann. In unserem Beispiel sorgt der Alexa Voice Service dafür, dass aus dem durch NLU erkannten Text eine Intention erkannt wird. Der transkribierte Text wird dann in Form einer Anfrage (Request) der Anwendungsfunktion bereitgestellt. Dieser Request enthält neben der erkannten Absicht (Intent) Informationen wie beispielsweise eine Nutzer-ID, Zeitstempel, verschiedene Geräteinformationen des Nutzers oder die eingestellte Sprache auf Nutzerseite.

c) Natural Language Generation (NLG)

Mithilfe des Datensatzes, der bei der Nutzeranfrage an unsere Anwendungsfunktion übergeben wurde, können wir wiederum die Antwort bereitstellen und zurück an den Alexa Voice Service übergeben. Wir senden im Wesentlichen die Antwort als Text zurück und optional auch Zusatzinformationen zur Anzeige auf Geräten mit Bildschirm.

[21]NLG hilft nun dabei, dass aus dem geschriebenen Text wieder gesprochenes Wort wird (Text-To-Speech, kurz TTS). Alexa spricht zum Nutzer und antwortet auf die Anfrage.

All das passiert im Bruchteil einer Sekunde.

Die folgende Abbildung zeigt den Informationsfluss und die technischen Abläufe einer Wetter-Anwendung für Amazon Alexa (sog. Alexa Skill).

Abb. 1: Vereinfachte Darstellung der Funktionsweise des Sprachassistenten Amazon Alexa

1.3Der richtige Jargon – Einordnung der Begriffe

Jede technologische Neuerung bringt in der Regel neue Begrifflichkeiten mit sich. Diese finden sich in Handbüchern zur Hardware oder Dokumentationen zur Software-Erstellung wieder. Außerdem werden viele der Fachbegriffe durch eine Community geprägt, die sich intensiv mit der Technologie beschäftigt. Diese Begriffe werden in einem Glossar am Ende dieses Buches erläutert. Hier möchten wir Ihnen die wichtigsten Begrifflichkeiten kurz vorstellen:

BegriffErläuterungNatural Language Understanding (NLU)Ermöglicht das Verständnis natürlicher Sprache durch einen digitalen SprachassistentenNatural Language Processing (NLP)Hauptverantwortlich für die Erkennung der NutzerabsichtNatural Language Generation (NLG)Ermöglicht die Sprachausgabe durch Nutzung einer künstlich generierten Stimme[22]Text-To-Speech (TTS)Text zu gesprochenem Wort GenerierungSpeech-To-Text (STT)Gesprochenes Wort zu Text GenerierungVoice AssistantDigitaler Sprachassistent (Software)Smart SpeakerSmart Lautsprecher, Hardware zum Zugriff auf einen Voice AssistantWakewordAufweckwort, um einen Sprachassistenten zu aktivierenPromptAusgabe des SprachassistentenRepromptAusgabe des Sprachassistenten, wenn der Nutzer nicht antwortet, z. B. auf Fragen/AufforderungenMultimodalAusgabe von Zusatzinformationen (z. B. visuell) zusätzlich zur Sprachausgabe bzw. Interakation mit dem Sprachassistent über Touch- oder GestensteuerungCardText oder Bild auf einem Gerät mit Bildschirm (Smartphone oder Smart Speaker mit Bildschirm) zur Anzeige unterstützender InformationenEndpointAdresse (URL) der Anwendungsfunktion zur Erfüllung der gewünschten Aufgabe. Enthält einen Großteil der Business-Logik der Voice-Anwendung.IntentErkannte Nutzerabsicht, die der Anwendungslogik entsprechend zugeordnet wird, um Datenbank- und Schnittstellenanfragen durchzuführen und die Antwort an den Nutzer vorzubereitenInteraction ModelModell der gesamten Intents inkl. Beispieleingaben. Maßgeblich verantwortlich für die korrekte Zuordnung der Nutzerabsichten zu Intents in der Anwendungsfunktion(Sample) UtterancesBeispielformulierungen, durch die Intents in der Anwendungsfunktion angesprochen werden könnenSlots, EntitiesDynamische Werte/Platzhalter in UtterancesVoice User Interface (VUI)Sprachbenutzeroberfläche zur Interaktion per SpracheVUI-DiagrammGrafische Darstellung des Entscheidungsbaumes bzw. der Nutzerführung in einer Anwendung für Sprachassistenten

Tab. 1: Das richtige Vokabular im Zusammenhang mit der Realisierung von Voice-Assistant-Anwendungen

[23]1.4Verbreitung von digitalen Sprachassistenten

Digitale Sprachassistenten sind die komplexe Software, die Benutzereingaben verarbeiten und uns auf unsere Wünsche und Bedürfnisse antworten. 2019 wurde der Gesamtmarkt der digitalen Assistenten hinsichtlich der potenziellen Reichweite durch Apple, Google und Microsoft angeführt.

Siri, der Sprachassistent von Apple, ist mittlerweile auf jedem iPhone, iPad und tragbaren sowie stationären Computern neuerer Generationen verfügbar. Von Google wissen wir, dass die Verbreitung des Betriebssystems »Android« mit dem vorinstallierten Google Assistant in achtzig Ländern mit mehr als 25 unterstützten Sprachen auf über eine Milliarde Geräte angestiegen ist. Microsofts Betriebssystem Windows 10 mit dem Sprachassistenten Microsoft Cortana lässt sich auf über 700 Millionen Geräten nutzen.

Amazon Alexa schaut auf mehr als 100 Millionen Geräte, die den Sprachassistenten beherbergen. Dazu zählen neben den eigenen Amazon-Echo-Geräten auch die Hardware verschiedener Drittanbieter wie Harman/Kardon, Bose, Sonos oder Anker. Im Vergleich zu den meisten Anbietern digitaler Sprachassistenten können Hardwarehersteller unter Berücksichtigung verschiedener Auflagen den Alexa Voice Service (AVS) in ihre Geräte integrieren und auf den Markt bringen. Sie sind mit der Kennzeichnung »Works With Alexa« ausgezeichnet.

Abb. 2: Verbreitung von digitalen Sprachassistenten in sprachaktivierten Geräten

1.5Verbreitung von Smart Speakern

In der Vergangenheit wurden die Begrifflichkeiten »Sprachassistent« und »Smart Speaker« häufig als Synonym genutzt. Das hängt vor allem mit den enormen Marketinginvestitionen von Amazon zusammen. Millionen Echo-Geräte sind vor allem zu den Shopping-Events Black-Friday und Prime-Day über die Ladentheke gegangen. Die Schlagzeilen verwiesen auch auf den Amazon Echo Dot als meist gekauftes Produkt auf amazon.com während der Weihnachtszeit 2017 und 2018. Eine nach wie vor gern [24]gesehene Geschenkidee, da vor allem der Smart Speaker »Echo Dot« immer wieder mit mehr als 50 % Rabatt angeboten wird.

Im Segment der Smart Speaker, die wie Smartphones oder verschiedene Laptops zu den sprachaktivierten Geräten zählen, führte 2018 Amazon mit seinem intelligenten Lautsprecher den weltweiten Markt – China ausgeschlossen – mit 61,5 % Marktanteil an. Google-Home-Geräte waren mit nur 24 % weit abgeschlagen. Die übrigen 14,5 % teilten der Apple HomePod und andere Marktbegleiter untereinander auf. Das Marktforschungsunternehmen Loup Ventures prognostiziert, dass Google in Zukunft diese Lücke schließen wird und die Verbreitung von Smart Speakern sogar mit 48,1 % im Vergleich zu 44,7 % bei Amazon einholt. Insgesamt soll die Verbreitung von Smart Speakern aus dem Hause Amazon und Google bis zum Jahr 2025 auf 1,2 Milliarden genutzte Geräte steigen (Voicebot 2019).

Abb. 3: Vergleich der weltweiten Marktanteile im Smart-Speaker-Segment 2018 zu 2025 (ausgeschlossen China)