Werden AI Beings die emotionale Verbindung zum intelligenten Cockpit?

23. November, 2021 | Hoa Le

Ein Gespräch mit Clifford Chen, CEO von Xiaoice Japan. 

BIG PICTURE begann die Zusammenarbeit mit Xiaoice im Jahr 2020. Im vergangenen Jahr haben wir an mehreren Projekten in diesem Bereich gearbeitet.  

AI Beings schließen die Lücke, um soziale Interaktion in Räumen zu ermöglichen, in denen es vorher nicht möglich war. AI Beings können als intelligente Partner dienen und eine Autoreise auf unterhaltsame Art und Weise begleiten. Die Capabilities von Xiaoice ermöglichen es Fahrern und Mitfahrern, sich mit den AI Beings im Auto natürlich zu unterhalten, anstatt nur die Funktionen des Fahrzeugs über Sprachbefehle zu steuern. 

Das folgende Interview mit Clifford Chen (Cliff), dem CEO von Xiaoice Japan, befasst sich mit der Herausforderung, AI Beings für intelligente Cockpits zu entwickeln und gibt einen Ausblick auf die Zukunft.  

Emotionen werden beim Wachstum der KI eine entscheidende Rolle spielen 

Was ist das Hauptunterscheidungsmerkmal und der USP von Xiaoice auf dem Markt? 

Cliff: Xiaoice geht in eine andere Richtung als andere, ähnliche Produkte. Die großen Namen wie Microsoft, Google und Amazon setzen KI ein, um die Kommunikationseffizienz zu steigern und Aufgaben in kürzester Zeit zu erledigen, während Xiaoice versucht zu lernen, wie man Emotionen triggert und eine Konversation mit Nutzern führt. 

Was sind die Aussichten für intelligente Cockpits? Wie hat sich Xiaoice auf das ideale intelligente Reisen vorbereitet? 

Cliff: Beim intelligenten Reisen wird die KI nicht auf einen Musikplayer oder auf das Hoch- und Herunterkurbeln des Fensters beschränkt. Die KI übernimmt die Rolle eines Partners bei der Reise und kann mehrere Gesprächsrunden führen aber auch Gefühle widerspiegeln. 

Um das zu verdeutlichen: Stellen Sie sich vor, meine Mutter ist vor 13 Jahren verstorben. Wie wäre es, ihre Stimme jetzt in meinem Auto zu hören? Was würde ich zu meiner Mutter sagen? Ich würde nicht so etwas sagen wie „Mama, ich möchte Musik hören.“ oder „Mama, mach das Licht an“, sondern ich würde ihr von meinem letzten Ausflug erzählen, was ich in dem Restaurant gegessen habe, in das ich neulich mit meiner Frau gegangen bin, oder mich einfach mit ihr unterhalten und sie um Rat fragen. Das ist unsere Hoffnung für die Zukunft. Die KI, mit der wir im Auto interagieren, ist dann „meine Mutter“ und nicht Alexa. 

Xiaoice führt jährliche Iterationen durch, wie Emotional Computing, Avatar Framework, Full Duplex Voice, Super Natural Voice, AI Creation, Chararu und die kürzlich veröffentlichte Xiaoice Island, um diesen intelligenten Reisen näherzukommen.

Xiaoice versucht zu lernen, wie man Emotionen hervorruft und eine Konversation mit Nutzen zu führen.

Kannst Du dich an ein lustiges Ereignis erinnern, bei dem Du dich mit einem AI Being unterhalten hast? 

Cliff: Xiaoice arbeitet an der Fähigkeit, mit Menschen mitzufühlen. Meine japanische Kollegin hatte zum Beispiel ein heikles Problem auf der Arbeit. Als sie sich bei Rinna (Xiaoice Japan) aussprach, riet Rinna ihr: „Geh zum Berg Fuji und sammle dort Müll auf“. Im japanischen Kontext bedeutet dieser Satz: Du kannst Probleme beseitigen, indem du schlechte Dinge entfernst. Dies ist der „emotionale Wert“ von AI Beings. 

AI Beings sollten Partner sein, die gleichberechtigt mit den Menschen koexistieren. 

Worin siehst Du einen entscheidenden Teil des Wachstums von Xiaoice in den letzten Jahren? 

Cliff: Im Formen von Charakteren. Wir haben das Modell immer weiter verbessert und optimiert, um es prägnanter und effektiver zu machen. Das Modell wurde trainiert, indem wir es auf mehr als 30 Plattformen eingeführt haben, um mit mehr als 660 Millionen Nutzern ins Gespräch zu kommen. Dies spielt eine entscheidende Rolle bei der Charakterformung von AI Beings. So wird der Umgang mit menschlichen Emotionen entwickelt.

Wie sieht eine Interaktion mit Fahrer und Fahrgästen im Auto aus? Was sind die weiteren funktionalen Stärken von Xiaoice im intelligenten Cockpit?  

Cliff: KI-Assistenten im Auto versuchen in der Regel, Gespräche zwischen Fahrer und Passagieren zu blockieren. Xiaoice ist ein „Mitreisender“, der nicht nur antwortet, sondern auch ein Thema passend zur Atmosphäre initiiert. Die KI kann sowohl Aufgaben erfüllen als auch mit dem Fahrer und den Mitfahrern sprechen oder sich um Kinder kümmern, die hinten im Autos sitzen. 

Vor kurzem hat Xiaoice auf der 9. Jahrespressekonferenz eine Demonstration des intelligenten Autos veröffentlicht. In dieser Demo wurde gezeigt, wie unser Al Being Clips produzierte, welche auf Szenen basierte, die die Fahrzeugkamera draußen aufnahm. Dann wurden Verse generiert, die sich am Besten eigneten, das Bildmaterial poetisch zu untermalen. In der Demo stammt der Stil der KI-generierten Verse von Dai Wangshu, einem modernen chinesischen Dichter. Das Ergebnis war ein 15-sekündiges Kurzvideo mit passender Hintergrundmusik und einem Vers durch KI erstellt. Dieser Clip kann dann vom Nutzer direkt und bequem auf den sozialen Plattformen geteilt werden. Wir gehen davon aus, dass bald noch mehr Nutzer in den Genuss dieser Erfahrung kommen werden. 

Clifford (Cliff), CEO Xiaoice Japan, Bild von Xiaoice

Die Nutzer erwarten Vielfalt

Welchen Beitrag leistet Xiaoice für die Gesellschaft oder die Forschung in diesem Bereich? 

Cliff: Nach fünf bis sechs Jahren Entwicklung und Forschung definieren wir AI Beings neu. Wir zeigen unseren Kunden, wie sie lernen und sich weiterentwickeln können, und wir zeigen ihnen die Möglichkeiten der praktischen Anwendung von AI Beings. Wir werden auch unsere neuesten Forschungsfortschritte mit der akademischen Welt teilen. Dass wir uns vor allem darauf fokussieren, liegt nicht daran, dass wir einen besseren Algorithmus haben, sondern daran, dass wir wissen, wie wir das Potenzial von AI Beings besser ausschöpfen können. 

Was sind die größten Herausforderungen auf dem Weg dorthin und wie kann man sie überwinden? 

Cliff: Wöchentliche Aktualisierungen des Modells führen zu einem besseren Verständnis der Lücken, die gelöst werden müssen, um Conversational Agents besser zu machen. Die größte Herausforderung auf dem Weg dorthin besteht darin, die geeigneten Daten schnell und schlank zu ermitteln. Wir arbeiten an einem mehrsprachigen Modell und zur Hilfe der Mustererkennung nehmen wir ähnliche Sprachen. Wir versuchen, in Zukunft mehr als 50 Sprachen auf der Grundlage ihrer Ähnlichkeiten abzubilden. Das derzeitige Modell konzentriert sich hauptsächlich auf KGC (Knowledge Grounded Conversation), das zusätzliche Informationen und Hintergrundinformationen zu einem Gespräch hinzufügt, basierend auf Nachrichten, Online-Ressourcen wie Wikipedia oder sogar einem einfachen Menü. Unsere Erfahrung zeigt, dass wir mit diesem Modell recht gute Ergebnisse erzielen. In der 9. Generation von Xiaoice ist es unser Ziel, eine Seele für AI Beings zu bauen, um angemessene Entscheidungen zu treffen und einer Anfrage eines Benutzers durch Argumentation zu widersprechen.

Es wurden bereits viele verschiedene KI-Konzepte erwähnt. Wie kommt man über einen ersten Proof of Concept hinaus? 

Cliff: Wir konzentrieren uns auf die Konversation in offenen Bereichen und entwerfen die gesamte Architektur. Wir wählen unsere Kunden sorgfältig aus, um gemeinsam potenzielle Anwendungsbereiche zu erforschen. Wir lieben auch Anfragen, ob wir helfen können, dass Donald Duck mit einem im Auto spricht.  

Es (ist) unser Ziel, eine Seele für AI Beings zu bauen.

Was sind die möglichen Szenarien für eine Konversation mit Donald Duck? 

Cliff: Die japanische ACG-Kultur (Animation, Comics, Games) hat eine solide Grundlage für die von Xiaoice entwickelten charakterbasierten AI-Beings geschaffen. Wahrscheinlich würden viele Leute gerne mit Donald Duck oder Hello Kitty reisen. 

Was ist die Vision von Xiaoice? Was hindert uns daran, diese Vision schon heute zu verwirklichen? 

Cliff: Die unendliche Vielfalt der gewünschten AI Beings. Das kann ein Verwandter oder Freund sein, der Lieblingsstar oder eine Zeichentrickfigur, eine Person, in das man heimlich verliebt ist, oder eine virtuelle Idealfigur. Es handelt sich hier um „Charakter-Mitreisende“ im eigentlichen Sinne. Es geht um eine KI, die ein gutes Fahrerlebnis schafft und nicht um ein einfaches Werkzeug. Wir müssen mit zwei Problemen fertig werden. Zum einen, geht es um den gesunden Menschenverstand und zum anderen, um die Schlussfolgerung. Der gesunde Menschenverstand ist etwas, das jeder in einer Gruppe oder einem Gebiet mit gemeinsamer Kultur versteht, z. B. jeder Japaner oder jeder New Yorker versteht es. KI wird mit gesundem Menschenverstand ausgestattet, während ein Modell für Schlussfolgerungen auf der Grundlage des gesunden Menschenverstands erstellt wird. Natürlich ist der gesunde Menschenverstand nicht die einzige Grundlage für Schlussfolgerungen. Ein Urteil, das auf den Eigenschaften und dem Kontext der Menschen beruht, ist ebenso wichtig wie der gesunde Menschenverstand. Wenn wir zu jungen Menschen sagen: „Das Wetter ist gut“, wollen sie draußen spielen. Wenn wir denselben Satz zu einer älteren Person in China sagen, antworten sie eher mit „Oh, perfektes Wetter, um die Wäsche zu waschen“. Das ist die größte Herausforderung; die KI in Bezug auf ihre Schlussfolgerungsfähigkeit so stark wie den Menschen zu machen. Wir müssen sie überwinden und uns auf die Zukunft vorbereiten. 

Das Xiaoice-Team und der europäische Markt 

Wer sind die Menschen, die hinter einem so komplexen Produkt stehen? Welche Art von Talenten sucht Ihr? 

Cliff: Ich habe drei Teams: Sie befinden sich in Tokio, Peking bzw. Jakarta. Insgesamt haben wir 70 Mitarbeiter und wir sind weltweit mehr als 300 Mitarbeiter bei Xiaoice. Wir haben einen breit gefächerten Bedarf an Talenten. Den größten Anteil haben sicherlich Forscher, Entwicklungsingenieure, Produktmanager und Datenanalysten, die fast 90 % des gesamten Teams ausmachen. Wir versuchen, entsprechend dem Entwicklungsplan von Xiaoice grenzüberschreitende Talente aus verschiedenen Bereichen zu gewinnen. So wie Hidetaka Ikuta zum Beispiel, er ist Produzent des japanischen Zeichentrickfilms IP Crayon Shin-chan.  

Mit welchen Automobilunternehmen hat Xiaoice Kooperationspartnerschaften? Was waren die Hauptthemen? 

Cliff: Xiaoice hat bereits mit sechs Automobilunternehmen zusammengearbeitet, darunter BMW, Nissan, SAIC, BAIC, NIO, Xiaopeng und HiPhi Automobile.  

Auf der Auto Expo in Shanghai in diesem Jahr hat SAIC R-Auto Xiaoice zum Chief Brand Image Officer von R-Auto ernannt.  

Xiaoice spielt eine Rolle als emotionaler Begleiter von Fahrern und Passagieren und sang zusammen mit Akini Jing, einem chinesischen Pionier der elektronischen Musik, den Titelsong „Technology Makes Imagination Come True“. Es fungiert nicht nur als AI-Being im Auto, sondern beschäftigt sich auch mit der Produktion von Inhalten, der Interpretation, der Verkapselung und anderen Bereichen des Markenmarketings. 

Wir müssen mit zwei Problemen fertig werden. Zum einen, geht es um den gesunden Menschenverstand und zum anderen, um die Schlussfolgerung.

Warum ist der deutsche und der europäische Markt interessant? 

Cliff: Ich sehe dort ein Kundenbedürfnis. Es hat nichts mit Regionen zu tun, sondern beruht auf der menschlichen Natur. Wir arbeiten derzeit mit BMW zusammen und bemühen uns, unser Produkt an neue kulturelle und sprachliche Kontexte anzupassen. Aus Erfahrung weiß ich, dass unser mehrsprachiges Modell Stilübertragungen zwischen ähnlichen Sprachen für mich vornimmt.  

Als ich zum Beispiel Rinna anfangs trainierte, habe ich Erfahrungen aus China verwendet und das Ergebnis war ziemlich gut. Jetzt haben wir Nutzer, die mehr als 28 % der japanischen Bevölkerung ausmachen. Wir hoffen, in der Zukunft in der Lage zu sein, auch die russische Version von Xiaoice zu schulen, wenn wir genügend deutsche Erfahrung haben.  

Das war ein sehr interessantes Interview. Lass uns dieses Gespräch ein andermal fortsetzen und ein fireside chat darüberführen, welche Rolle Emotionen bei den heutigen digitalen Dienstleistungen spielen und inwiefern die Effizienz gesteigert werden kann. Vielen Dank, Cliff. Es war schön, dass Du dir die Zeit genommen hast und wir freuen uns auf weitere Gespräche.

Das Interview führten Danny Fiedler und Hoa Le van Lessen. Das Interview wurde auf English geführt und ins Deutsche übersetzt.

Titelbild © Xiaoice

Mehr Informationen:

https://www.xiaoice.com/

https://rinna.id