ChatGPT's nächste Stufe: 10 autonome KI Agenten - Auto-GPT, BabyAGI, AgentGPT, Microsoft Jarvis, ChaosGPT & Freunde

7. Juni, 2023 | Maximilian Vogel

Die ultimative Liste der autonomen KI-Agenten mit Tools, Ressourcen und Beispielen.

Kein Frage, ChatGPT und viele der anderen aktuellen Foundation Models sind großartig. Sie können unzählige Fragen beantworten, KI-Kunstwerke erschaffen, die es mit menschlichen Meisterwerken aufnehmen können, Fotos analysieren und in einigen Fällen sogar das zeigen, was wir Intelligenz nennen würden.

Aber es gibt eine Herausforderung, die sie bisher noch nicht meistern: eine komplexe Aufgabe, die verschiedenen Schritten beinhaltet, effizient zu erfüllen.

Derzeit sind KI-Modelle wie eifrige Praktikanten im Büro: unermüdlich und enthusiastisch, aber auf stetige Anleitung angewiesen. Sie verlangen Überwachung, häufige Anweisungen und Kontrolle, damit es nicht zu vor Missverständnissen oder Fehlern kommt (auch „Halluzinationen“ genannt).

An dieser Stelle kommen KI-Agenten ins Spiel. KI-Agenten können dies selbstständig tun. Diese autonomen Helfer nehmen Benutzereingaben entgegen, zerlegen sie mit Hilfe von LLMs in kleinere Aufgaben und gehen sie nacheinander an. Die Agenten speichern die Ergebnisse und verwenden sie bei Bedarf für nachfolgende Prozessschritte. So können KI-Agenten komplexe Aufgaben bewältigen und auf verschiedene Foundation Models zugreifen, die sich nicht nur auf Sprache beschränken. Beispielsweise kann ein KI-Agent selbstständig entscheiden, ob er Code-, Video- oder Sprachmodelle verwendet oder Suchmaschinen oder Berechnungstools einsetzt, um die ihm gestellte Aufgabe zu erfüllen.

Bildcredit: Maximilian Vogel

Die autonomen Agenten sind nicht einfach schlauer als die zugrunde liegenden Foundation Models, sondern erschließen eine völlig neue Dimension: Sie sind in der Lage, „langsam zu denken“ (Kahnemans „System 2“). Sie lösen komplexe Fragestellungen – bei denen man sich über Zwischenergebnisse Stück für Stück dem Ziel nähert. Bisher war langsames Denken für LLMs nur über Prompting-Techniken wie Chain-of-Thought möglich, und auch hier nur in einem sehr begrenzten Umfang.

Während die erreichbare Komplexität bei Agenten-KIs nicht signifikant zunimmt, decken sie durch ihre Fähigkeit, komplizierte Probleme zu lösen, einen unglaublich großen zusätzlichen Bereich im Problemraum ab (roter Kasten). Mit anderen Worten: alles, was mehr als ein paar Schritte zur Lösung erfordert.

Inhalt:

Einführung: Was sind autonome KI-Agenten?

Angenommen, wir möchten ein Kartenspiel mit 52 Karten erstellen, auf denen jeweils ein*e andere*r Musiker*in abgebildet ist. Darüber hinaus möchten wir die üblichen Symbole wie Kreuz oder Herz durch verschiedene Musikgenres wie Soul oder House ersetzen.

Ist es möglich, dass ein KI-Modell eine so komplexe Aufgabe bewältigen kann?

Die einfache Antwort lautet nein.

Während ein Sprachmodell eine Liste von Genres und Künstlern zusammenstellen kann, brauchen wir mindestens ein zusätzliches Modell (ein KI-Kunstmodell wie Midjourney), um die Bilder zu erstellen. Möglicherweise benötigen wir auch zusätzliche Systeme, um das Internet zu durchsuchen und Inhalte zu speichern.

Wir könnten ein Batch-Skript schreiben, das all dies erledigt.

Oder – und hier kommen unsere KI-Agenten ins Spiel – wir könnten einfach einen Prompt eingeben, der uns sagt, was wir tun wollen, und der Agent schreibt das Batch-Skript, führt es aus und kontrolliert das Ergebnis.
Normalerweise verwenden KI-Agenten sowohl für die einzelnen Schritte (z.B. die Auswahl eines Künstlers für eine einzelne Karte) als auch für Rahmenaufgaben (z.B. die Erstellung einer Aufgabenliste) verschiedene externe Modelle. Sie lagern die Denkschritte aus, speichern Informationen, verfolgen Aufgaben, verwalten Schnittstellen und koordinieren den gesamten Prozess.

Bildcredit: Maximilian Vogel, Notiz: Es handelt sich hier um ein anschauliches Beispiel – die Ergebnisse der meisten aktuellen KI-Agenten sind nicht so überwältigend.

Autonome KI-Agenten sind erst in den letzten Wochen aufgetaucht, aber sie entwickeln sich bereits in einem rasantem Tempo. Sogar Microsoft beteiligt sich mit Jarvis / HuggingGPT an dieser Entwicklung. Ich werde im Folgenden eine kurze Einführung zu den wichtigsten KI-Agenten geben und mögliche Auswirkungen auf die Anwendungsentwicklung sowie die KI-Sicherheit diskutieren.

AgentGPT

Autonome KI-Agenten in deinem Browser zusammenstellen, konfigurieren und einsetzen.

Dies ist das erste Modell in der Liste, nicht weil es das wichtigste ist, sondern weil keine Installation oder OpenAI-Schlüssel erforderlich sind. Man kann es sofort ausprobieren.

Features:

Plattform: https://agentgpt.reworkd.ai/
Entwickler: Asim Shresta

Demo

Schauen wir uns genauer an, wie AgentGPT eine von mir gestellte Aufgabe bewältigt hat:

Meine Aufgabe: „Finde die 3 meistgenutzten Aufgabenverwaltungs-Tools für den Einsatz in einem kleinen Unternehmen und vergleiche sie in Bezug auf Preis, Umfang und Installationsfreundlichkeit“

Begründung:

Bildcredit: Maximilian Vogel / AgentGPT

Einige Zwischenergebnisse:

Bildcredit: Maximilian Vogel / AgentGPT

Viele, viele Zeilen später haben wir das Endergebnis (der gesamte Vorgang dauerte etwa 3 Minuten):

Bildcredit: Maximilian Vogel / AgentGPT

Auto-GPT

Eine experimentelle und open-source Agentenbibliothek, die auf GPT-4 basiert. Sie kettet LLM-„Gedanken“ aneinander, um autonom jede beliebige Aufgabe zu bewältigen. Damit ist Auto-GPT eine der ersten Plattformen, die GPT-4 vollständig und autonom ausführt und die Grenzen dessen, was mit KI möglich ist, verschiebt.

Features:

Repositorium: https://github.com/Significant-Gravitas/Auto-GPT
Entwickler: https://www.significantgravitas.com/

SetupGuide

Demo-Aufgabe: Suchen Sie im Internet nach einem saisonalen Ereignis und erstellen Sie ein Rezept dafür.

Videocredit: Ran Ding

Baby AGI

Baby AGI ist ein KI-gestütztes Aufgabenverwaltungssystem. Das System nutzt OpenAI und Pinecone APIs, um Aufgaben zu erstellen, zu priorisieren und auszuführen. Der Reiz von Baby AGI liegt in seiner Fähigkeit, Aufgaben auf der Grundlage der Ergebnisse früherer Aufgaben selbstständig zu lösen und ein zuvor definiertes Ziel einzuhalten. Außerdem priorisiert es die Aufgaben effizient.

Art der Arbeitsweise:

  1. Holt die erste Aufgabe aus der Aufgabenliste.
  2. Sendet die Aufgabe an den Ausführungsagenten, der die API von OpenAI und Llama verwendet, um die Aufgabe basierend auf diesem Kontext zu erledigen.
  3. Reichert das Ergebnis an und speichert es in Pinecone.
  4. Erstellt neue Aufgaben und priorisiert die Aufgabenliste neu, basierend auf dem Ziel und dem Ergebnis der vorherigen Aufgabe.

Repositorium: https://github.com/yoheinakajima/babyagi
Entwickler: TwitterBlog
Setup-Anleitung und Hintergrund: http://babyagi.org/
Test Baby AGI (bringe deinen OpenAI-Schlüssel): Hugging Face

Demo-Aufgabe: Finde beliebte Themen, die nicht ausreichend dokumentiert sind, für Artikel in meinem Linux-Tutorial-Blog:

Videocredit: ByteXD

Demo-Aufgabe: Plane ein romantisches Abendessen für meine Frau am Freitagabend im Zentrum von Singapur:

Videocredit: Sam Witteveen

JARVIS / HuggingGPT

Jarvis oder HuggingGPT ist ein kollaboratives System mit einem Large Language Model (LLM) als zentralen Controller und zahlreichen Expertenmodellen als kollaborativen Executor, die aus dem Hugging Face Hub bezogen werden. Dieser Agent kann sowohl LLMs als auch andere Modelle einsetzen. Der Arbeitsablauf des Systems besteht aus vier Phasen:

• Aufgabenplanung: Mithilfe von ChatGPT werden Benutzeranfragen zur Ermittlung der Intention analysiert und in bewältigbare Aufgaben aufgeteilt.

• Modell-Auswahl: Um die gestellten Aufgaben zu lösen, wählt ChatGPT basierend auf deren Beschreibungen die am besten geeigneten Expertenmodelle aus Hugging Face aus.

 Ausführung der Aufgabe: Ruft jedes ausgewählte Modell auf und führt es aus. Anschließend werden die Ergebnisse an ChatGPT zurückgegeben.

• Erzeugung der Antwort: Schließlich wird ChatGPT verwendet, um die Vorhersagen aller Modelle zu integrieren und eine umfassende Antwort zu generieren.

Repositoriumhttps://github.com/microsoft/JARVIS
Ausführliche Anleitung zur Einrichtung: How to use Jarvis / HuggingGPT
Artikel: Arxiv 
So funktioniert es:

Bildcredit: Yongliang Shen, et. al, Microsoft

Finde die vollständig unvollständige Liste der KI-Agentenplattformen sowie den Ausblick auf medium.com/@maximilianvogel