Cassell und Thórisson (1998) präsentieren in ihrer Arbeit einen personifizierten, animierten Agent mit der Fähigkeit, multimodale Konversation mit einem Nutzer in Echtzeit durchzuführen. Mit diesem Agenten untersuchen sie zwei menschliche Eigenschaften, die als besonders nützlich für konversationale Systeme herausgestellt werden: emotional feedback und envelope feedback.
Emotional feedback bezeichnet die Technik, eine bestimmte Emotion durch einen bestimmten Gesichtsausdruck darzustellen. Envelope feedback meint non-verbales Verhalten während eines Gesprächs von Angesichts zu Angesicht, die der animierte Agent als Antwort auf die kommunikative Aktionen des Nutzers generiert. Dies können zum Beispiel Handgesten, Blicke zum Nutzer oder weg von ihm und Kopfnicken sein. Hier ist das Timing besonders wichtig.
In ihrer Studie verglichen Cassell und Thórisson diese beiden Arten von non-verbalem Feedback.
Cassell und Thórisson fragten sich:
Die Probanden interagierten mit einem Agenten, der ihnen einiges über das Sonnensystem erklären konnte. Sie erstellten drei Versuchsbedingungen: (CONT) der Agent gibt kein non-verbales Feedback, (EMO) der Agent gibt emotionales Feedback und (ENV) der Agent gibt envelope feedback. Näheres dazu im Abschnitt ,,Das Experiment``. Die Autorinnen stellten acht Hypothesen auf:
Für ihr Experiment nutzten Cassell und Thórisson ein ,,Ymir`` genanntes System zur Generation von voll automatisierten Charakteren mit Echtzeit- und multi-modalen Fähigkeiten, die mit dem Nutzer von Angesicht zu Angesicht interagieren können. Die Figur des Agenten erschien auf einem Monitor und ein Model des Sonnensystems auf einem anderen. Das System konnte die Augenbewegungen des Probanden verfolgen. Der Nutzer trug einen ,,tracking suit``; dies erlaubte es dem System, sich eine visuelle Repräsentation seines Oberkörpers zu errechnen.
Der Nutzer konnte dem System Fragen über das Sonnensystem und seine Planeten stellen.
Es wurden drei animierte, personifizierte Agenten erstellt. Sie unterschieden sich nur in ihrem Gesicht und ihrer Stimme. Zusätzlich, abhängig von der Versuchsbedingung, unterschieden sie sich in ihren Antworten auf die Konversation: in der Kontrollbedingung (CONT) gab der Agent nur inhaltliche Rückmeldungen, in der zweiten Bedingung (ENV) zusätzlich envelope feedback und in der dritten Bedingung (EMO) zusätzlich zur Kontrollbedinung emotional feedback.
Das Verhalten des Agenten faßten die Autorinnen wie folgt zusammen:
Zu den abhängigen Variablen: Die Erfahrung der Nutzer mit der Lebensähnlickeit des Agenten und der Einfachheit der Interaktion wurden durch einen Fragebogen erhoben. Die Effizienz der Interaktion wurde gemessen durch die relative Zahl von Äußerungen (Verhältnis Beteiligungen des Nutzer zu Beteiligungen des Agenten), der relativen Zahl des Zögerns des Probanden (bezogen auf die absolute Zahl seiner Beiträge) und relative Zahl der Frustrationen (bezogen auf die absolute Zahl seiner Beiträge).
In einer Vorstudie testeten Cassell und Thórisson mit 24 Probanden, dass die emotionalen Gesichtsausdrücke bei allen genutzten Charakteren korrekt erkannt wurden.
Die unabhängigen Variablen waren:
Die zwölf Probanden waren beiderlei Geschlechts und zwischen 22 und 37 Jahre alt. Sie waren Anfänger im Umgang mit Computern und wurden instruiert, daß der Agent Kenntnisse über das Sonnensystem besitzt und sie mit ihm so normal wie möglich interagieren sollen. Sie konnten sich in 4-8 Gesprächsrunden mit den Agenten vertraut machen, bevor das Experiment begann. Die Probanden interagierten im Durchschnitt sieben Minuten mit jedem der drei Agenten, dazwischen gab es jeweils eine fünfminütige Pause.
Sechs der acht Hypothesen wurden bestätigt. Insgesamt unterstützen die Ergebnisse die Signifikanz von envelope feedback über emotional feedback und rein inhaltliche Rückmeldungen. In keinem Fall wurde emotionales Feedback anders eingeschätzt als in der Kontrollbedingung. Die Autorinnen fanden keinen Effekt der Reihenfolgen von Charakteren und Bedingungen.
In der ENV Bedingung machten die Probanden weniger Gesprächsbeiträge pro Agenten-Gesprächsbeitrag als in den anderen Bedingungen. Cassell und Thórisson sehen darin eine ungefähre Schätzung für die Effizienz der Unterhaltung.
In dem Fragebogen mußten die Probanden die Sprache des Agenten, den Interaktionsstil und die Lebensähnlichkeit einschätzen. Für die Forscherinnen überraschend erreichten die Agenten in der ENV Bedingung eine hohe Bewertung bzgl. der Sprachfähigkeiten, und zwar absolut und verglichen mit den anderen beiden Bedingungen. Auch empfanden die Versuchspersonen in der ENV Bedingungen das Gespräch reibungsloser als in den anderen beiden Bedingungen.
Die Hypothesen vier und sechs wurden nicht bestätigt. In der Bedingung ENV zögerten die Probanden häufiger und sprachen auch häufiger zur gleichen Zeit wie der Agent. Cassell und Thórisson erklären dies zum einen mit Problemen der vorliegenden Implementationen mit zu lebenhaften Nutzern. Das Ins-Wort-Fallen sei typisch für Mensch-zu-Mensch Kommunikation. Außerdem habe der Agent Probleme mit dem Ins-Wort-Fallen, was wiederum zum Zögern beim Nutzer führen könnte.
Zusammenfassend, so die Autorinnen, hätten sie demonstriert, daß Systeme zur Konversation, die eine anthropomorphe Figur nutzen, besser funktionieren und besser akzeptiert werden können, wenn sie Elemente des envelope feedback anwenden würden.