next up previous contents
Next: CASSELL und VILHJáLMSSON: Autonomes Up: Empirische Befunde zur Wirkung Previous: 8 KODA und MAES:

CASSELL und THÓRISSON: Die Macht eines Nickens und eines Blickes

 

Cassell und Thórisson (1998) präsentieren in ihrer Arbeit einen personifizierten, animierten Agent mit der Fähigkeit, multimodale Konversation mit einem Nutzer in Echtzeit durchzuführen. Mit diesem Agenten untersuchen sie zwei menschliche Eigenschaften, die als besonders nützlich für konversationale Systeme herausgestellt werden: emotional feedback und envelope feedback.

Emotional feedback bezeichnet die Technik, eine bestimmte Emotion durch einen bestimmten Gesichtsausdruck darzustellen. Envelope feedback meint non-verbales Verhalten während eines Gesprächs von Angesichts zu Angesicht, die der animierte Agent als Antwort auf die kommunikative Aktionen des Nutzers generiert. Dies können zum Beispiel Handgesten, Blicke zum Nutzer oder weg von ihm und Kopfnicken sein. Hier ist das Timing besonders wichtig.

In ihrer Studie verglichen Cassell und Thórisson diese beiden Arten von non-verbalem Feedback.

Untersuchte Fragen

Cassell und Thórisson fragten sich:

Sie vermuteten, daß dieser Vergleich zugunsten von emotional feedback ausgehen würde.

Die Probanden interagierten mit einem Agenten, der ihnen einiges über das Sonnensystem erklären konnte. Sie erstellten drei Versuchsbedingungen: (CONT) der Agent gibt kein non-verbales Feedback, (EMO) der Agent gibt emotionales Feedback und (ENV) der Agent gibt envelope feedback. Näheres dazu im Abschnitt ,,Das Experiment``. Die Autorinnen stellten acht Hypothesen auf:

  1. Zwischen den Bedingungen CONT und EMO wird es keine Unterschiede geben bzgl. der relativen Beteiligungen der Nutzer.
  2. Die relative Zahl der Beteiligungen der Probanden wird in der Bedingung ENV kleiner sein als in den anderen beiden Bedingungen.
  3. Die Probanden in der Bedingung CONT werden genauso oft zögern wie in der Bedingung EMO.
  4. In der Bedingung ENV werden die Probanden relativ gesehen weniger häufig zögern als in den Bedingungen EMO und CONT.
  5. Die Probanden in der Bedingung CONT werden genauso oft gleichzeitig wie der Agent sprechen wie die Probanden in der Bedingung EMO.
  6. In der Bedingung ENV werden die Probanden relativ gesehen weniger oft gleichzeitig wie der Agent als in den Bedingung EMO und CONT.
  7. Es wird keinen signifikanten Unterschied in den Ratings des Agenten zwischen den Bedingungen CONT und EMO geben.
  8. Die Probanden in der Bedingung ENV werden den Agenten höher bewerten als die Probanden in den Bedingungen CONT und EMO.
Die Daten für die Hypothesen 1-6 wurden durch Videoband-Analysen gewonnen. Dies geschah unabhängig durch zwei Analysten in einerm Doppelblind-Design. Die Reliabilität dieser Analysen war sehr gut (r = 0.95). Die Daten für die Hypothesen 7 und 8 wurden durch Fragebogen erhoben.

Das Experiment

Für ihr Experiment nutzten Cassell und Thórisson ein ,,Ymir`` genanntes System zur Generation von voll automatisierten Charakteren mit Echtzeit- und multi-modalen Fähigkeiten, die mit dem Nutzer von Angesicht zu Angesicht interagieren können. Die Figur des Agenten erschien auf einem Monitor und ein Model des Sonnensystems auf einem anderen. Das System konnte die Augenbewegungen des Probanden verfolgen. Der Nutzer trug einen ,,tracking suit``; dies erlaubte es dem System, sich eine visuelle Repräsentation seines Oberkörpers zu errechnen.

Der Nutzer konnte dem System Fragen über das Sonnensystem und seine Planeten stellen.

Es wurden drei animierte, personifizierte Agenten erstellt. Sie unterschieden sich nur in ihrem Gesicht und ihrer Stimme. Zusätzlich, abhängig von der Versuchsbedingung, unterschieden sie sich in ihren Antworten auf die Konversation: in der Kontrollbedingung (CONT) gab der Agent nur inhaltliche Rückmeldungen, in der zweiten Bedingung (ENV) zusätzlich envelope feedback und in der dritten Bedingung (EMO) zusätzlich zur Kontrollbedinung emotional feedback.

Das Verhalten des Agenten faßten die Autorinnen wie folgt zusammen:

  1. CONT
  2. EMO
  3. ENV

Zu den abhängigen Variablen: Die Erfahrung der Nutzer mit der Lebensähnlickeit des Agenten und der Einfachheit der Interaktion wurden durch einen Fragebogen erhoben. Die Effizienz der Interaktion wurde gemessen durch die relative Zahl von Äußerungen (Verhältnis Beteiligungen des Nutzer zu Beteiligungen des Agenten), der relativen Zahl des Zögerns des Probanden (bezogen auf die absolute Zahl seiner Beiträge) und relative Zahl der Frustrationen (bezogen auf die absolute Zahl seiner Beiträge).

In einer Vorstudie testeten Cassell und Thórisson mit 24 Probanden, dass die emotionalen Gesichtsausdrücke bei allen genutzten Charakteren korrekt erkannt wurden.

Die unabhängigen Variablen waren:

Die ersten beiden Variablen waren intraindividuell und die beiden letzten interindividuell.

Die zwölf Probanden waren beiderlei Geschlechts und zwischen 22 und 37 Jahre alt. Sie waren Anfänger im Umgang mit Computern und wurden instruiert, daß der Agent Kenntnisse über das Sonnensystem besitzt und sie mit ihm so normal wie möglich interagieren sollen. Sie konnten sich in 4-8 Gesprächsrunden mit den Agenten vertraut machen, bevor das Experiment begann. Die Probanden interagierten im Durchschnitt sieben Minuten mit jedem der drei Agenten, dazwischen gab es jeweils eine fünfminütige Pause.

Ergebnisse

Sechs der acht Hypothesen wurden bestätigt. Insgesamt unterstützen die Ergebnisse die Signifikanz von envelope feedback über emotional feedback und rein inhaltliche Rückmeldungen. In keinem Fall wurde emotionales Feedback anders eingeschätzt als in der Kontrollbedingung. Die Autorinnen fanden keinen Effekt der Reihenfolgen von Charakteren und Bedingungen.

In der ENV Bedingung machten die Probanden weniger Gesprächsbeiträge pro Agenten-Gesprächsbeitrag als in den anderen Bedingungen. Cassell und Thórisson sehen darin eine ungefähre Schätzung für die Effizienz der Unterhaltung.

In dem Fragebogen mußten die Probanden die Sprache des Agenten, den Interaktionsstil und die Lebensähnlichkeit einschätzen. Für die Forscherinnen überraschend erreichten die Agenten in der ENV Bedingung eine hohe Bewertung bzgl. der Sprachfähigkeiten, und zwar absolut und verglichen mit den anderen beiden Bedingungen. Auch empfanden die Versuchspersonen in der ENV Bedingungen das Gespräch reibungsloser als in den anderen beiden Bedingungen.

Die Hypothesen vier und sechs wurden nicht bestätigt. In der Bedingung ENV zögerten die Probanden häufiger und sprachen auch häufiger zur gleichen Zeit wie der Agent. Cassell und Thórisson erklären dies zum einen mit Problemen der vorliegenden Implementationen mit zu lebenhaften Nutzern. Das Ins-Wort-Fallen sei typisch für Mensch-zu-Mensch Kommunikation. Außerdem habe der Agent Probleme mit dem Ins-Wort-Fallen, was wiederum zum Zögern beim Nutzer führen könnte.

Zusammenfassend, so die Autorinnen, hätten sie demonstriert, daß Systeme zur Konversation, die eine anthropomorphe Figur nutzen, besser funktionieren und besser akzeptiert werden können, wenn sie Elemente des envelope feedback anwenden würden.


next up previous contents
Next: CASSELL und VILHJáLMSSON: Autonomes Up: Empirische Befunde zur Wirkung Previous: 8 KODA und MAES:

Erik Pischel
Mit Jan 3 18:11:33 CET 2001