Lecture: Alexa, hast Du mich verstanden?

Eine vergleichende akustische Studie zum Einfluss von Alter und Geschlecht auf die Perzeption von Amazons Alexa

Die Studie untersucht, ob die Variablen Geschlecht und Alter Einfluss auf die akustische Perzeptionsfähigkeit von Amazons Sprachassistenz Alexa nehmen. Alexa ist eine künstliche Intelligenz (KI), die mithilfe von Sprachsteuerung alltägliche Aufträge für Nutzer/innen erfüllt und Vorgänge des gesamten Haushalts kontrolliert. Dafür wird eine Tracking-Technik genutzt, bei der das Zielsignal des Benutzerinputs in vier Einheiten heruntergebrochen (wake word, invocation name, utterance und launch) und mit statistischem Zugriff auf Einzelphoneme die gesamte Äußerungseinheit ermittelt wird. In einem Pretest wurden vier Nutzer/innen (zwei Erwachsene (age/mean=24.5) und zwei Senior/innen (age/mean=81.5) unterschiedlicher Geschlechter) gebeten, 42 Testsätze an Alexa (Echo 3) zu richten. Zusätzlich enthielten die Stimuli 14 semantische Hindernisse, die von Alexa lokalisiert und umgangen werden sollten. Nach einer quantitativen Fehleranalyse des Outputs wurden Ursachen der akustischen Perzeptionsschwierigkeiten mithilfe des Praat Plug-Ins Stimmprofil für die Variablen (1) Grundfrequenz (Maximum, Minimum, Stimmumfang und Standardabweichung), (2) Unregelmäßigkeiten im Frequenzbereich (jitter) und im Amplitudenbereich des Signals (shimmer), (3) Geräuschanteil in der Stimme (HNR) und (4) Stimmtongeschwindigkeit (Lexem/Millisekunde) an den Äußerungseinheiten Satz und wake word (Alexa) gemessen. Angenommen wurde, dass weibliche (H1(a)) und junge (H1(b)) Stimmen aufgrund ihrer niedrigeren Variation in Lautstärke (shimmer), Stimmton (jitter) sowie des geringeren Geräuschanteils in der Stimme (HNR) besser verstanden wurden, als männliche, ältere Stimmen. Während H1(a) zurückgewiesen wurde, deuteten die Resultate auf eine Verifikation von H1(b) hin. Akustische und semantische Perzeptionsdefizite sind somit bei weiblichen und älteren Proband/innen am stärksten vorhanden. Als kritisch wurden dabei auch die Erkennung des stimmlosen, glottalen Frikativ [h] und des stimmhaften, lateralen alveolaren Approximanten [l], des gerundeten, halb-offenen [œ] und des gerundeten, geschlossenen Vorderzungenvokals [y], sowie des stimmlosen, velaren [k] und des stimmhaften, bilabialen Plosiv [b] identifiziert. Außerdem wurde sichtbar, dass die akustische Perzeption an gewisse Grenzwerte gebunden ist – Sätze mit besonders hohen oder niedrigen Werten bei Standardabweichung des Stimmtons, Stimmumfang, jitter, shimmer, HNR oder Sprechgeschwindigkeit lösten Perzeptionsdefizite aus.

Info

Day: 2020-05-21
Start time: 14:50
Duration: 00:30
Room: Herring
Track: Phonetics and Phonology
Language: de

Feedback

Click here to let us know how you liked this event.

Schedule StuTS 67