Sind Agenten-Workflows das nächste große Ding in der KI? - Semiwiki

Sind Agenten-Workflows das nächste große Ding in der KI? – Semiwiki

Quellknoten: 2535069

KI ist nach wie vor ein sich schnell verändernder Bereich und wir sind immer auf der Suche nach dem nächsten großen Ding. Mittlerweile herrscht viel Aufregung um sogenannte Agenten-Workflows – ein hässlicher Name, aber eine gute Idee. LLMs haben sich als hochmoderne KI-Technik gut bewährt, es gibt jedoch immer mehr Hinweise darauf, dass allein das Grundmodell hinter LLMs sowohl theoretisch als auch in der praktischen Anwendung Einschränkungen aufweist. Der einfache Aufbau immer größerer Modelle (über eine Billion Parameter, als ich das letzte Mal nachgesehen habe) bringt möglicherweise keine Durchbrüche, die über die übermäßigen Kosten und den Stromverbrauch hinausgehen. Wir brauchen neue Ideen und Agenten-Workflows könnten eine Antwort sein.

Sind Agenten-Workflows das nächste große Ding in der KI?

Bildhöflichkeit Mike McKenzie

Beschränkungen für Transformatoren/LLMs

Zuerst sollte ich a anerkennen Quanta-Artikel Das hat mich auf diesen Weg gebracht. A jüngsten Papier untersuchte theoretische Grenzen von Transformatoren auf der Grundlage einer Komplexitätsanalyse. Das Standardnutzungsmodell beginnt mit einer Eingabeaufforderung an das LLM, das dann das gewünschte Ergebnis zurückgeben sollte. Indem sie den Transformator als Rechenmaschine betrachten, beweisen die Autoren, dass die Bandbreite der Probleme, die angegangen werden können, für diese oder alle vergleichbaren Modellarchitekturen recht begrenzt ist.

In einem späteren Artikel wird ihre Arbeit verallgemeinert, um Denkkettenarchitekturen zu betrachten, in denen das Denken in einer Kette von Schritten abläuft. Die Aufforderung schlägt vor, die Aufgabe in eine Reihe einfacherer Zwischenziele zu unterteilen, die in den „Zeigen Sie Ihre Arbeit“-Ergebnissen demonstriert werden. Die Autoren beweisen, dass die Komplexitätsgrenzen mit einer langsam wachsenden Anzahl von Schritten (in Bezug auf die Eingabeaufforderungsgröße) leicht ansteigen, schneller mit linearem Wachstum in Schritten und noch schneller mit polynomialem Wachstum. Im letzten dieser Fälle beweisen sie, dass es sich bei der Klasse der lösbaren Probleme genau um diejenigen handelt, die in polynomieller Zeit lösbar sind.

Komplexitätsbasierte Beweise scheinen zu abstrakt zu sein, um wichtig zu sein. Schließlich ist bekannt, dass das Problem des Handlungsreisenden NP-schwer ist, doch das Chip-Design ist routinemäßig auf heuristische Lösungen für solche Probleme angewiesen und funktioniert sehr gut. Allerdings gibt es Einschränkungen bei der praktischen Anwendung von LLMs auf das mathematische Denken (siehe meine früherer Blog) deuten darauf hin, dass diese theoretischen Analysen möglicherweise nicht allzu weit von der Realität entfernt sind. Die Genauigkeit steigt sicherlich mit mehr Zwischenschritten in der Analyse realer Gedankenketten. Auch die Zeitkomplexität bei der Ausführung mehrerer Schritte nimmt zu, und zwar entsprechend der Theorie. Dies deutet darauf hin, dass zwar eine höhere Genauigkeit möglich sein könnte, der Preis jedoch wahrscheinlich in längeren Laufzeiten liegt.

Agentenströme

Der Name leitet sich von der Verwendung von „Agenten“ in einem Fluss ab. Es gibt eine schöne Beschreibung der Konzepte in a YouTube-Video von Andrew Ng der den One-Shot-LLM-Ansatz (Sie geben eine Eingabeaufforderung, es liefert auf einen Schlag eine Antwort) mit dem Agentic-Ansatz vergleicht, der eher der Art und Weise ähnelt, wie ein Mensch eine Aufgabe angehen würde. Entwickeln Sie einen Angriffsplan, recherchieren Sie, schreiben Sie einen ersten Durchgang, überlegen Sie, welche Bereiche möglicherweise verbessert werden müssen (vielleicht lassen Sie den Entwurf sogar von einem anderen Experten überprüfen), wiederholen Sie den Vorgang, bis Sie zufrieden sind.

Nach meinem Verständnis bieten Agentenströme einen Rahmen für die Verallgemeinerung von Gedankenketten. Auf einer ersten Ebene können Sie im Anschluss an das Video von Andrew Ng in einer Eingabeaufforderung einen Coder-Agenten (LLM) bitten, ein Stück Code zu schreiben (Schritt 1), und ihn in derselben Eingabeaufforderung bitten, den von ihm generierten Code auf mögliche Fehler zu überprüfen (Schritt 2). Wenn Fehler gefunden werden, kann der Code verfeinert werden, und Sie können sich vorstellen, dass dieser Prozess mehrere Stufen der Selbstverfeinerung durchläuft. Ein nächster Schritt wäre die Verwendung eines zweiten Agenten, um den Code anhand einiger Testreihen zu testen, die er möglicherweise basierend auf einer Spezifikation generiert. Zusammengenommen werden diese Schritte aus offensichtlichen Gründen „Reflexion“ genannt.

Es gibt zusätzliche Komponenten im Ablauf, die Andrew vorschlägt: für die Tool-Nutzung, die Planung und die Zusammenarbeit mit mehreren Agenten. Der Reflexionsteil ist für mich jedoch am interessantesten.

Was bringt Ihnen ein Agentic Flow?

Agentenflüsse lösen das Problem der Zeitkomplexität nicht; Stattdessen schlagen sie ein Architekturkonzept zur Verbesserung der Genauigkeit bei komplexen Problemen durch ein System zusammenarbeitender Agenten vor. Sie können sich vorstellen, dass dies sehr flexibel ist, und das gibt es einige überzeugende Demonstrationen. Gleichzeitig, so Andrew, müssen wir uns vorstellen, dass Agenten-Workflows Minuten oder sogar Stunden benötigen, um ein brauchbares Ergebnis zu liefern.

Ein Vorschlag

Ich sehe lange Laufzeiten als eine interessante Herausforderung für die menschliche Technik. Es ist in Ordnung, Sekunden zu warten, bis wir ein gutes Ergebnis erhalten (wie bei einer Websuche). Möglicherweise stundenlang auf weniger als ein sehr gutes Ergebnis zu warten, wäre schwer zu verkaufen.

Ich verstehe, dass VCs und die von ihnen finanzierten Unternehmen auf Mondschüsse abzielen – künstliche allgemeine Intelligenz (AGI) ist das einzige, was in einem brandheißen KI-Markt genügend Aufmerksamkeit erregen könnte. Ich wünsche ihnen alles Gute, insbesondere für die Zwischenentdeckungen, die sie unterwegs machen. Ich vermute, dass das große Ziel noch in weiter Ferne liegt.

Allerdings könnte das Agentenkonzept einen praktischen und kurzfristigen Wert liefern, wenn wir bereit sind, fachkundige menschliche Agenten in den Prozess einzubeziehen. Lassen Sie den LLM die harte Arbeit erledigen, um zu einem nahegelegenen Ziel zu gelangen, und schlagen Sie ihm vielleicht ein paar Alternativen für Wege vor, die er als nächstes einschlagen könnte. Dies sollte höchstens Minuten dauern. Ein erfahrener menschlicher Agent weist den LLM dann an, einem dieser Wege zu folgen. Bei Bedarf wiederholen.

Ich denke insbesondere an das Verifizierungs-Debug. In der Reihe „Innovation in der Verifizierung“ haben wir einige Forschungsarbeiten zur Fehlerlokalisierung behandelt. Alles nützlich, aber dennoch schwierig, eine Grundursache genau zu lokalisieren. Ein Agenten-Workflow, der zwischen einem LLM und einem menschlichen Expertenagenten wechselt, könnte dazu beitragen, die genaue Lokalisierung weiter voranzutreiben, und er könnte so schnell voranschreiten, wie der Experte zwischen Alternativen entscheiden kann.

Irgendwelche Gedanken?

Teile diesen Beitrag über:

Zeitstempel:

Mehr von Semiwiki