Projektowanie głosowych
interfejsów użytkownika
Zasady doświadczeń
konwersacyjnych
Możliwość
porozmawiania ze swoim komputerem od lat rozpalała wyobraźnię
inżynierów, użytkowników i...
artystów. Jak się okazało, sprawa nie jest - i nigdy nie
była - oczywista: rozumienie naturalnej mowy to skomplikowany proces.
Języki, którymi posługują się ludzie, są bowiem przepełnione
subtelnościami i niejednoznacznością, a ich zrozumienie wymaga
znajomości kontekstu. Intensywny rozwój technologii VUI
doprowadził do tego, że komputer wykonujący polecenia głosowe nie jest
niczym nadzwyczajnym. Wciąż jednak sporo można w tej dziedzinie
poprawić. Szczególnie ważne wydaje się wzięcie pod uwagę
wrażeń użytkownika: interfejs VUI, który jest uciążliwy dla
odbiorcy, nie podaje potrzebnych informacji lub podaje zupełnie
nieprzydatne, będzie użytkowany z niechęcią albo wcale.
W tym przewodniku
znajdziesz przegląd najważniejszych zasad projektowania
interfejsów głosowych, a także opis narzędzi służących do
tego celu.
Poza najbardziej podstawowymi informacjami o mechanizmach rozpoznawania
głosu omówiono złożone strategie rozumienia języka
naturalnego, analizę nastroju, zbieranie danych oraz techniki
przekształcania tekstu w mowę. W książce wyczerpująco opisano
zagadnienia wydajności interfejsu VUI: dowiesz się, co na tę wydajność
wpływa i w jaki sposób można ją podnieść. Przedstawiono
również problematykę systemów sterowanych
głosowo, takich jak asystenty domowe czy interfejsy projektowane dla
samochodów. Z przewodnika skorzystają zarówno
menedżerowie oraz projektanci biznesowi, jak i projektanci
interfejsów VUI, niezależnie od tego, czy samodzielnie piszą
swoje VUI, czy korzystają z istniejących platform.
W książce:
- kluczowe koncepcje
projektów interfejsów głosowych
- wizualne reprezentacje
interfejsów głosowych
- technologie rozpoznawania
mowy
- metody testowania
aplikacji głosowych
- poprawa wydajności
aplikacji głosowych
- rzeczywiste przykłady
interfejsów głosowych
Przedmowa
do wydania polskiego 11
Wstęp 13
1.
Wprowadzenie
19
Krótka historia interfejsów VUI 19
Druga era interfejsów głosowych 20
Po co nam interfejsy głosowe? 21
Konwersacyjne interfejsy użytkownika 23
Wywiad z Alexą 23
Kim jest projektant interfejsów VUI? 25
Chatboty 26
Wnioski 28
2.
Podstawowe
zasady projektowania interfejsów głosowych
29
Różnice między projektami dla urządzeń mobilnych a
projektami dla systemów IVR 29
Projekty konwersacyjne 32
Ustalanie oczekiwań użytkownika 35
Narzędzia projektowe 37
Przykładowe dialogi 37
Próby wizualne 38
Przepływy 38
Narzędzia do prototypowania 39
Potwierdzenia 40
Metoda 1. Pewność trójstopniowa 43
Metoda 2. Potwierdzenia niejawne 43
Metoda 3. Potwierdzenia niewerbalne 43
Metoda 4. Potwierdzenia ogólne 44
Metoda 5. Potwierdzenia wizualne 45
Sterowanie poleceniami a konwersacja 47
Sterowanie poleceniami 47
Konwersacja 50
Znaczniki konwersacji 52
Obsługa błędów 53
Nie wykryto mowy 55
Mowa wykryta, ale nie rozpoznana 56
Mowa rozpoznana, ale nie obsłużona 57
Mowa rozpoznana nieprawidłowo 57
Poszerzanie opisu błędu 58
Nie zrzucaj winy na użytkownika 59
Użytkownicy początkujący i zaawansowani 59
Pamiętaj o kontekście 60
Pomoc i inne uniwersalne elementy 65
Opóźnienia 68
Dwuznaczności 69
Dokumentacja projektowa 70
Teksty zachęty 71
Gramatyka i frazy kluczowe 71
Dostępność 71
Interakcje powinny być krótkie 72
Nie przedłużaj 73
Mów szybciej! 74
Przerwij mi w dowolnym momencie 75
Podawaj kontekst 75
Gdzie jestem? 76
Personalizacja mechanizmu TTS 76
Wnioski 78
3.
Persony, awatary, aktorzy i gry wideo 81
Persony 81
Czy mój interfejs głosowy powinien być widoczny? 84
Używanie awatara - czego nie robić? 85
Używanie awatara (lub nagrania z aktorem) - co robić? 88
Opowiadanie historii 88
Praca zespołowa 89
Gry wideo 90
Kiedy korzystać z nagrań w moim interfejsie? 93
Wizualny interfejs głosowy - najlepsze praktyki 94
Czy użytkownicy muszą widzieć swój obraz? 95
A co z interfejsem graficznym? 95
Obsługa błędów 97
Kolejność mówienia i wchodzenie w słowo 98
Utrzymywanie zaangażowania i iluzja świadomości 99
Wizualne (ale bez awatara) informacje zwrotne 102
Wybieranie głosu 105
Zalety awatara 105
Wady awatara 107
Dolina niesamowitości 109
Wnioski 110
4.
Technologia
rozpoznawania mowy 111
Wybieranie mechanizmu 111
Wchodzenie w słowo 112
Limity czasowe 116
Limit czasu na zakończenie wypowiedzi 116
Limit czasu bez mowy 117
Zbyt dużo tekstu 122
Listy N-najlepszych 123
Wyzwania związane z rozpoznawaniem mowy 124
Hałas 125
Wiele mówiących osób 125
Dzieci 126
Nazwy, literowanie i znaki alfanumeryczne 127
Prywatność danych 128
Wnioski 129
5.
Projektowanie
zaawansowanych interfejsów głosowych 131
Wybieranie ścieżki interakcji na podstawie informacji głosowych 132
Odpowiedzi ograniczone 132
Mowa otwarta 133
Kategoryzacja danych wejściowych 134
Znaki wieloznaczne i wyrażenia logiczne 135
Rozwiewanie dwuznaczności 136
Brak informacji 136
Więcej informacji niż to potrzebne 138
Obsługa negacji 139
Wychwytywanie intencji i celów 141
Zarządzanie dialogiem 142
Nie zostawiaj użytkownika bez pomocy 144
Czy interfejs głosowy powinien wyświetlić to, co rozpoznał? 144
Analiza uczuć i wykrywanie emocji 146
Mechanizm syntezy mowy lub nagrania aktorów 148
Weryfikacja mówiącego 150
Słowa wybudzające 151
Kontekst 152
Zaawansowana wielomodalność 153
Wstępne zbiory danych 153
Dane ze stron WWW 153
Dane z centrum telefonicznego 154
Zbieranie danych 154
Zaawansowane rozumienie języka naturalnego 154
Wnioski 158
6.
Testowanie
interfejsów głosowych przez użytkowników
159
Szczególne cechy interfejsów głosowych 159
Różne badania na temat użytkowników i
przypadków użycia 160
Nie próbuj wymyślać ponownie koła 160
Projektowanie badania z rzeczywistymi użytkownikami 161
Definicja zadania 161
Wybieranie uczestników badania 163
Jakie pytania zadawać? 164
Na co zwracać uwagę? 168
Testowanie na wczesnym etapie 169
Przykładowe dialogi 169
Próbki 171
Testy "Czarnoksiężnika z krainy Oz" 171
Różnice między testami WOz i testami użyteczności 173
Testowanie użyteczności 174
Testy zdalne 174
Testy w laboratorium 178
Testy "partyzanckie" 178
Miary wydajności 179
Kolejne kroki 179
Testowanie interfejsów głosowych w samochodach, urządzeniach
i robotach 180
Samochody 180
Urządzenia i roboty 181
Wnioski 182
7.
Twój
interfejs głosowy jest ukończony! Co teraz?
183
Testy przed wydaniem systemu 183
Testy przechodzenia przez dialog 183
Testowanie rozpoznawania mowy 185
Testy obciążeniowe 186
Mierzenie wydajności 187
Wskaźnik ukończenia zadań 188
Wskaźnik przerwań 189
Inne elementy, które warto sprawdzić 189
Rejestrowanie zdarzeń 195
Transkrypcje 196
Fazy wdrożenia 197
Pilotaż 197
Ankiety 198
Analiza 199
Poziom pewności 200
Limity czasowe zakończenia mowy 200
Wyniki pośrednie i wyniki końcowe 201
Własne słowniki 201
Teksty zachęty 201
Narzędzia 202
Testy regresji 204
Wnioski 205
8.
Interfejsy
głosowe samochodów i urządzeń
207
Urządzenia 207
Asystenci domowi 207
Zegarki, opaski i słuchawki 215
Inne urządzenia 217
Samochody i pojazdy autonomiczne 218
Wyzwania związane z projektowaniem interfejsu głosowego dla samochodu
218
Projektowanie systemów dla samochodów 219
Rozproszenia podczas jazdy 222
Zmiana urządzenia 224
Tryb interakcji 225
Wnioski dotyczące samochodów 226
Wnioski 226
Epilog 227
Produkty wymieniane w tej książce 229
232
strony, Format: 17.0x24.0cm, oprawa miękka