Conversational User Interface: Der Anfang vom Ende des Graphical User Interface?

21. Februar 2017 at 11:17
Conversational User Interface: Der Anfang vom Ende des Graphical User Interface?

Conversational User Interface: Der Anfang vom Ende des Graphical User Interface?

 

„Hallo, ich bin Marie“

Auf immer mehr Webseiten verbirgt sich hinter dem Button „Kontakt“ nicht mehr eine Telefonnummer der Service-Hotline oder ein Kontaktformular, sondern ein Chatfenster und eine Nachricht wie: „Hallo! Ich bin Marie. Wie kann ich dir weiterhelfen?“. Das Gewohnheitstier Nutzer denkt: „Chatten – das kenne & liebe ich von Facebook, Whatsapp & Co.“ und „zum Glück muss ich nicht suchen oder mit einer nervigen Hotline telefonieren und kann direkt die gesuchten Informationen erhalten.“ Was der Nutzer häufig nicht auf den ersten Blick erkennt und im Idealfall auch im Laufe des Chatgesprächs nicht bemerkt, ist, dass auf der anderen Seite kein freundlicher Servicemitarbeiter sitzt, sondern ein fleißiger Algorithmus der die hilfsbereiten Antworten ausgibt. Diese Technik, mit der Nutzer auf Webseiten wie zum Beispiel Congstar oder Tele2 interagieren können, trägt den Namen Chatbot, virtual assistant oder smart assistant und gehört zur Art der Conversational User Interfaces.

 

Virtual Assistant oder Chatbot – wie neu ist die Idee wirklich?

Die Idee, mit einem Programm wie in einem Gespräch zu interagieren, ist nicht neu. Der etwas versiertere Computer Nutzer denkt vermutlich als Erstes an das gute alte Terminal, über welches Befehle direkt an den Computer eingegeben werden können, ohne mit der grafischen Oberfläche des Betriebssystems (GUI) interagieren zu müssen.

Terminal

Terminal

Der entscheidende Unterschied ist hier, dass sich der Nutzer bei der Benutzung des Terminals an die Syntax und Logik des Computers anpassen muss. Kennt der Nutzer nicht den richtigen Befehl, baut einen Rechtschreibfehler ein oder versteht nicht, wie er welche Befehle kombinieren muss, passiert im besten Falle nichts, im schlimmsten Fall zerstört er seine Daten.

Der Grundgedanke eines Conversational User Interface ist es, dass ein Programm Eingaben in natürlicher Sprache wie „Wie wird das Wetter morgen?“ versteht und passende Antworten in ebenso natürlicher (also menschlicher) Sprache darauf geben kann.

Experimente und Entwicklungen hin zu einem (anscheinend) „intelligenten“ System hat es schon lange gegeben: Ein frühes und beliebtes Beispiel ist ELIZA 8, ein ursprünglich 1966 durch Joseph Weizenbaum als wissenschaftliches Projekt entwickeltes Computerprogramm, welches einen Psychotherapeuten simuliert. ELIZA antwortet auf Basis von Nutzereingaben mit Antworten aus einem im Voraus definierten Antwortenpool. Bei einem Gesprächsversuch mit dem Programm wird jedoch schnell deutlich, dass es sich hier um ein automatisiertes System handelt, da sich das Gespräch schnell im Kreis dreht. Bei einem so komplexen Thema ist dies jedoch nicht wirklich verwunderlich, da es verständlicherweise schwierig ist, alle möglichen Nutzereingaben auf die Frage „Is something troubling you?“ im Voraus vorherzusehen.

ELIZA

ELIZA

Noch nicht ganz so alt – aus dem Jahr 2000 und vermutlich wesentlich bekannter als ELIZA – ist die animierte Büroklammer aus dem Programm Word von Microsoft Office Clippit. Die animierte Figur bot dem Nutzer Hilfestellungen zu bestimmten Anwendungsfällen und Themen an und erschien in der unteren rechten Ecke des Programms. Viele Nutzer empfanden Clippit jedoch eher störend, als hilfreich.

Anna und Clippit

Anna und Clippit

2005 konnten Nutzer der IKEA Website Hilfe durch die virtuelle Assistentin Anna erhalten. Wie ein menschlicher Service-Mitarbeiter sollte Anna Nutzern zu allen möglichen Anfragen Antworten liefern. Da auch hier „mögliche Anfragen“ ein sehr breites und schwer vorhersehbares Feld sein konnten, waren die Antworten von Anna auch nur mäßig hilfreich und Annas Lebensspanne nicht allzu lang.

Diese Beispiele zeigen, dass die Idee eines Conversational User Interfaces nicht neu ist und vor allen Dingen: Die Idee hat noch nie so richtig gut funktioniert. Was soll also der ganze Trubel?

 

„Nichts ist mächtiger als eine Idee, deren Zeit gekommen ist.“
– Victor Hugo

Die technischen Voraussetzungen sind besser

Seit den ersten personal Computern von IBM in den 1970ern sind fast 50 Jahre vergangen und von der Idee, jeden Menschen auf der Welt mit einem Computer auszustatten, sind wir nicht mehr weit entfernt: Wir steuern unsere Heizung vom Auto aus, Lastwagen können ohne Fahrer fahren, wir können Videogespräche in Echtzeit mit Freunden am anderen Ende der Welt führen & wir tragen unseren Kalender, unser Bankkonto, eine hochauflösende Kamera, einen persönlichen Assistenten und 10 verschiedene Spiele in unserer Hosentasche.
Dies und noch viel mehr ist das Resultat und die Ursache der technologischen Entwicklungen und der stetigen Optimierung der zugrundeliegenden Infrastrukturen wie neural networks, Cloud Computing, Auf- und Ausbau von Datenbanken und Automatismen. Was aber vor allen Dingen die Entwicklung von Conversational User Interfaces voran getrieben hat, sind Machine Learning und Natural Language Processing. Denn erst jetzt stehen die nötigen Datenmengen und Infrastrukturen zur Verfügung, um diese effektiv auszubauen. So benötigt eine Anfrage an die virtuelle Apple Assistentin Siri zum Beispiel 100 mal mehr Prozessor Leistung als eine einfache Stichwortsuche im Internet.
Mit der Weiterentwicklung der Hardware und Software ist auch eine Entwicklung unseres Verständnisses der Interaktion zwischen Mensch und Maschine einhergegangen. Denn mit den ersten Betriebssystemen begann die Suche nach der perfekten Schnittstelle zwischen Mensch und Maschine: Das Graphical User Interface war geboren.

Die grafische Nutzeroberfläche findet ihre eigene Sprache

Die grafische Nutzeroberfläche (GUI) ist stark bestimmt durch die Mittel, mit denen wir mit der Maschine, dem Computer, interagieren: Zunächst nur Maus und Tastatur. Um die abstrakten Prozesse in einem Computer abzubilden und den verfügbaren Interaktionsmitteln zu entsprechen, hat sich die Gestaltung von grafischen Nutzeroberflächen sehr stark an der wirklichen Welt orientiert: Von Ordnern, einem Schreibtisch bis hin zum Papierkorb stützte sich die Bildsprache auf Repräsentationen aus unserem Alltag. Erst nach und nach entwickelt sich eine selbstständige grafische Sprache, wie zum Beispiel das Hamburger-Icon, das mittlerweile ein gebräuchlicher Bezeichner für das Menü einer Webseite oder App ist.

Hamburger-Icon

Hamburger-Icon

Während sich die grafische Nutzeroberfläche immer mehr verselbständigt, haben wir inzwischen weitere Möglichkeiten, mit der Maschine vor uns zu interagieren: Touchscreens, Spracherkennung oder Gesten eröffnen neue Möglichkeiten der Interaktion, die sich auch auf die Entwicklung der GUI auswirken, da eine Interaktion mit einem System in gesprochener Sprache beispielsweise eine andere Schnittstelle, ein anderes User Interface, erfordert als die Interaktion mit Maus und Tastatur.
Mit dem GUI hat sich auch der Nutzer weiterentwickelt, sodass die Interaktion mit der Maschine natürlicher und alltäglicher wird, aber auch die Ansprüche an Prozesse und Systeme steigen.

Der Medienkompetente Nutzer

Hat die Eröffnung des App Stores 2008 noch einen wahren Boom in der Entwicklung und dem Download von Apps verursacht, ist dem Nutzer mittlerweile die Lust an der Flut von Anwendungen vergangen. Nutzer laden sich immer weniger Apps herunter und verbringen 85% ihrer Zeit mit wenigen beliebten Apps, wie der Facebook Messenger, WhatsApp oder auch Snapchat. Dies ist für viele Unternehmen ein schwieriger Trend und die Herausforderung die eigenen Kunden zu erreichen, führte zu neuen Lösungsansätzen.

Ein Trend wird aufgegriffen

Um Kunden bzw. Nutzer zu erreichen, greifen Unternehmen den Chat-Trend auf. Plattformen wie zum Beispiel Facebook bieten Unternehmen an, eigene Chatbots auf Basis Ihrer Systeme einzubinden. Zudem wird erkannt, dass Nutzer gerne und viel Chatten und dies eine angenehme und gelernte Form der Kommunikation ist, die gerade auf mobilen Endgeräten gut funktionieren kann. Außerdem werden Webseiten immer komplexer, haben aber zugleich die Schwierigkeit ihre Inhalte in Informationsarchitekturen abbilden zu müssen. Hier trifft die Idee der Conversational User Interfaces auf fruchtbaren Boden. Denn die Zeit ist reif: technologisch sind wir auf Basis gesammelter Erfahrungen soweit, effektive Conversational User Faces zu entwickeln. Auch in dem Verständnis der Gestaltung einer UI zwischen Mensch und Maschine ist die Form der Konversation als Interaktionsschnittstelle, im Gegensatz zum Beispiel zur Abhängigkeit von einer Maus oder einer Tastatur, vielversprechend.

Ein CUI kann
• Real-time Services abbilden
• neue Möglichkeiten für Personalisierung bieten
• effektive Kommunikation von Unternehmen zu Kunde
• komplexe Nutzeranfragen unter Umständen effektiver beantworten als ein GUI
• vielfältig eingesetzt werden:
• Formulare
• Onboarding
• …

 

Was steckt in der Blackbox Conversational User Interface?

Nachdem wir einen Blick auf die Entwicklungen rund um die Popularität von CUI geworfen haben, ist die nächste interessante Frage, wie sie funktionieren und welche Mechanismen dahinterstehen. Zusammengefasst gibt es drei verschiedene Modelle, auf denen diese Technologie aktuell basieren kann.

Retrieval based model

Bei diesem Modell berechnet das Programm auf Basis des Konversationskontexts und der Nutzereingaben die passendste Antwort aus einem Pool an möglichen Antworten. Hier muss im Vorfeld das Anwendungsgebiet definiert und alle möglichen Nutzereingaben antizipiert werden, um möglichen Fragen und passende Antworten aufeinander abzustimmen. Das Programm erstellt somit keine eigenen Antworten und es handelt sich um „simulierte Intelligenz“. Dies ist nach wie vor das meistgenutzte Modell für die Entwicklung einer CUI und steht zum Beispiel auch hinter den vorgestellten Beispielen von ELIZA oder Anna. Wie an den Beispielen aber schnell deutlich wird, ist, dass bei komplexen Anwendungsgebieten das Programm schnell an seine Grenzen stoßen kann.

Was spricht für dieses Modell?

• „Echte“ Texte
• Bibliothek an Antworten wächst im Laufe der Zeit an / wird optimiert

Was spricht gegen dieses Modell?

• Viel Pflegeaufwand
• Kann sehr Komplex werden
• Bei längeren Unterhaltungen oder unerwarteten Wendungen sind schnell Grenzen erreicht

 

Generative based model

Dies ist ein komplexes Modell, dass sich auf machine learning und Cloud Comuputing stützt und auf Basis von Massen an Übungsdaten, dem Konversationskontext und der Nutzereingabe eigene Antworten generiert. Dieses Modell ist eine Form der künstlichen Intelligenz wie sie zum Beispiel in dem durch Microsoft entwickelten Twitter Bot Tay angewendet wurde. Tay war ein Bot mit der Persönlichkeit eines Teenagers der eigene Inhalte auf Basis von Twitter Daten generierte.

Microsoft hat Tay jedoch relativ schnell wieder deaktiviert, da der Bot rassistische Inhalte generierte. Hier wird dann auch die Schwierigkeit des Modells deutlich: es ist nur schwer zu kontrollieren, gerade zu Anfang können grammatische und inhaltliche Fehler entstehen und sie können irrelevante und unangebrachte Inhalte produzieren.

Was spricht für dieses Modell?

• Wenn es gut funktioniert, kann es sehr realistisch wirken.
• reagiert flexibel auf Nutzeranfragen und generiert eigenständig passende Antworten.
• Lernfähig

Was spricht gegen dieses Modell?

• Schwierig zu entwickeln
• Schwierig zu „trainieren“
• Erfordern riesige Mengen an Daten (als Lernbasis)
• Gerade zu Anfang können die Antworten sehr maschinell wirken (grammatische Fehler)

 

Eine Kombination aus dem generative und retrieval based model

Um die Schwächen und Stärken beider Systeme miteinander zu kombinieren, verwendet Google in seinem E-Mail Provider „Inbox“ die Funktion „Smart reply“ welches eine Kombination beider Systeme ist. Das Programm schlägt dem Nutzer proaktiv mögliche Antworten auf E-Mails vor. Dabei trainiert das System auf Basis von echten Nachrichten des Nutzers.

Inbox Smart Replay (Bildquelle: https://blog.google/products/gmail/computer-respond-to-this-email/)

Qual der Wahl

Das generative based model erfordert viele Ressourcen, die nicht ohne Weiteres aufgebracht werden können. Daher ist das aktuell meistgenutzte Modell das retrieval based model. Gerade für klar definierte, kleinere Anwendungsfälle kann es sehr gut funktionieren. So gibt es mittlerweile zahlreiche Chatbot Plattformen wie rebot.me, pandorabots.com und viele mehr, auf denen mit relativ wenig Aufwand schnell ein Chatbot erstellt werden kann.

 

Also – Graphical oder Conversational User Interface?

Denkt man an Filme wie Her oder an Serien wie Knight Rider und hört von Conversational User Interfaces, kann die Euphorie schnell groß sein, dass wir bald alle mit unseren Smartphones, Autos, Wohnungen und vielem mehr reden können. Dabei ist aber nicht zu vergessen, welche Herausforderungen bei der Interaktion zwischen Mensch und Maschine noch immer zu meistern sind. Menschen reden und denken nicht in einer strukturierten und sinnvollen Weise. Wir machen Gedankensprünge auf Grund von multisensorischen Eindrücken, die aus einer logischen Perspektive nur schwer nachvollziehbar sind. Eine Äußerung wie „Reserviere uns einen Tisch in meinem üblichen Restaurant“ klingt als Aufgabe banal, setzt aber folgendes Wissen voraus:

• Was bedeutet „üblich“ – das Restaurant in dem der Nutzer unter der Woche luncht oder sein Lieblingsrestaurant für das Wochenende?
• Was heißt mir, wie viele Personen kommen mit?
• Zu welcher Zeit?
• …

Ein Programm muss zunächst erkennen, dass es dieser Informationen bedarf und es muss versuchen, sich möglichst viele dieser Informationen durch Fragen selbstständig zu beantworten. Denn ein Programm, das jede Kleinigkeit erfragt ohne „zu sehen“, dass der Nutzer beispielsweise Besuch von zwei Freunden mit kleinem Kind hat und daher natürlich einen Tisch für vier Personen benötigt, wird schnell als belastend denn als hilfreich erfahren. Wer Google Inbox verwendet oder die Tweets von Tay kennt, hat bereits erfahren, dass die vorgeschlagene Antwort der Smart Reply Funktion nicht immer passen oder dass die Tweets von Tay nicht immer Sinn ergeben. Hier muss und wird noch viel Geschehen bis Szenarien wie in „Her“, Wirklichkeit werden. Aber bereits die jahrzehntelange Faszination der Idee, in natürlicher Sprache wie mit einem Menschen mit einem Programm zu interagieren, beweist, dass der Mensch dieser Idee weiter nachstrebt und sie bereits in Sichtweite kommt. Die Erstellung von CUI in einem beschränkten Rahmen sind daher ein guter Weg, zu lernen und Erfahrung mit der Technologie zu sammeln.

Alina Niemann

 

Referenzen:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4717285/
http://www.reading.ac.uk/news-and-events/releases/PR583836.aspx
https://uxdesign.cc/my-website-is-now-conversational-here-is-what-i-learned-7e943cc6ace0#.pimo57gof
http://www.statista.com/topics/1523/mobile-messenger-apps/
https://techcrunch.com/2015/06/11/time-spent-in-apps-up-63-percent-over-past-two-years-but-apps-used-monthly-shows-little-change/
https://medium.com/conversational-interfaces/conversational-interfaces-arent-new-but-they-re-changing-the-game-67578e37ac3#.dzjc19sjv
https://www.fastcodesign.com/3058546/conversational-interfaces-explained
http://www.sciencedirect.com/science/article/pii/S1877050916316854
https://www.researchgate.net/profile/Stavros_Vassos/publication/309370085_Art-Bots_Toward_Chat-Based_Conversational_Experiences_in_Museums/links/582b4e8708ae138f1bf4a420.pdf
http://www.aclweb.org/anthology/W/W16/W16-36.pdf#page=234
https://chatbotsmagazine.com/conversational-interfaces-beyond-the-hype-457c18290644#.a2ykh1t27