Transformers - Rise of the New Beasts: Ein 100% subjektiver Test der Systeme AI21, ALEPH, ALPHA, MUSE versus GPT-3

28. November, 2022 | Maximilian Vogel

In den letzten Monaten, sind vielversprechende Language Models auf dem Markt gekommen. Ich habe einige dieser Plattformen getestet und mit Daten beworfen. Können andere Modelle GPT-3 das Wasser reichen? Oder sind sie sogar besser?

Alle Plattformen bringen spezielle Eigenschaften mit, die sich teilweise nur schwer vergleichen lassen: Wie etwa die Fähigkeit, Programm-Code zu generieren und zu verstehen, der SQL-ähnliche Tabellenverarbeitung, oder bestimmte Sprachen abzudecken. Um einen fairen Vergleich anzustellen, habe ich einige grundlegende Tests im Bereich Weltwissen durchgeführt, sowie die Fähigkeit logische Schlüsse zu ziehen. Testsprache war Englisch.

Kurze Intro der Plattformen:

Muse ist ein Sprachmodell des Startups LightOn aus Paris, das ein Funding von knapp 4 Mio. $ erhalten hat. Fokus liegt auf europäischen Sprachen.

Showcase Muse: Beantwortung von Restaurantbewertungen mit Emojis (User: normaler Test; Modell: Text fett.)

Aleph Alpha ist ein Startup aus Heidelberg und hat knapp 30 Mio. $ von VCs eingesammelt. Neben seinem sehr guten, rein sprachlichem Interface besitzt es die Fähigkeit, multimodalen Input zu verarbeiten.

Showcase Aleph Alpha. (User: normaler Text; Modell: Text fett) Antwort auf einen kombinierten Bild-Text-Input. (Image credit: Lily Banse on unsplash)

AI21 Labs ist ein Startup aus Tel Aviv. Insgesamt hat das Unternehmen 118 Mio. $ eingesammelt. Eines der ersten GPT-3 Konkurrenzmodelle.

Showcase: Datenbanken natürlichsprachlich abfragen. Der Prompt für das Modell enthält strukturierte Informationen (User: normaler Text; Modell: Text fett) und beantwortet auf dieser Basis spezifische Fragen. Das Modell ist auch sehr gut in der Lage, unstrukturierten Textinput zu verarbeiten.

GPT-3 von OpenAI in San Francisco ist das LLM, das in den letzten Jahren wahrscheinlich am meisten Furore gemacht hat und eine Art Gold Standart für Sprachmodelle ist.

Hier ein Überblick über die Teilnehmer inkl. spezifische Modelle und Test-Settings.

Aber: Was ist ein Large Language Model überhaupt?

Large Language Models sind Automaten, die meist eine spezifische Architektur aufweisen (Transformer) und mit Gigabyte und Terabyte von Texten aus dem Internet (z.B Wikipedia) trainiert worden sind. Auf Basis dieser Daten leiten sie die Wahrscheinlichkeiten von Wortsequenzen ab. Im Prinzip können sie diese Automaten prognostizieren, wie eine Folge von Wörtern, ein Satz, eine Geschichte, eine Unterhaltung weitergeht. Und das nur auf Basis ihres gigantischen Lerndatensatzes.

Der Test: Weltwissen und einfache Logik

Ich lasse verschiedene Large Language Models gegeneinander antreten, indem ich ihr Weltwissen und ihre Fähigkeit zu Schlussfolgern prüfe. Modelle, die ihn bestehen, können für eine Vielzahl von Einzelanwendungen eingesetzt werden: z.B. für die Beantwortung von Kundenfragen, für die Analyse und Zusammenfassung von Texten und die automatische Bearbeitung von Mails. Dieser Test ist spezifisch für Large Language Models konzipiert: Klassische regelbasierte Sprachsysteme wie Alexa steigen ab einer bestimmten Komplexität der Fragen aus und können diese nicht mehr beantworten. Ich habe Alexa, als das am weitesten entwickelte klassische Sprachmodell dieselben Fragen gestellt, um die Fähigkeiten der verschiedenerer Plattform-Architekturen zu vergleichen.

1) Fakten

Diese Fragen haben jeweils eine exakt richtige Antwort. Jedes Modell sollte in der Lage sein, diese Fragen zu beantworten.

2) Weiches Wissen / vernünftige Einschätzungen

Die Antworten auf die folgenden Fragen sind nicht mit reinem Faktenwissen zu beantworten. Hier muss eine Schlussfolgerung gezogen oder eine Einschätzung gegeben werden. Unterschiedliche Antworten sind möglich, mehrere können richtig sein.

3) Harte Nüsse mit logischem Schlussfolgern und Kontextverständnis:

Jetzt wird es sehr, sehr schwer. Ich stelle Fragen, die auch Menschen nicht leicht beantworten können.

Eine richtige Antwort auf die erste Frage wäre, dass es dazu keine genauen Daten gibt oder dass es wahrscheinlich ungefähr genauso viele sind.

Final countdown – Wie schlagen sich die new beasts unter den Transformern gegenüber GPT-3?

Das Ergebnis meines subjektiven Tests war für mich teilweise sehr unerwartet:

Vielen Dank an: Kirsten Küppers, Hoa Le van Lessen und Almudena Pereira für Inspiration und Support bei diesem Beitrag!

Stay tuned: Meine nächsten Tests drehen sich um die Frage, wie die Modelle im Kontext von Business Fragestellungen abschneiden.

Lesen Sie den vollständigen Artikel auf medium.com/@maximilianvogel.