Claude 3 Opus belegt den Spitzenplatz im Chatbot-Ranking

Claude 3 Opus belegt den Spitzenplatz im Chatbot-Ranking

Quellknoten: 2529654

Anthropics KI-Modell der nächsten Generation, Claude 3 Opus, hat die Pole-Position in der Chatbot-Arena-Rangliste eingenommen und OpenAIs GPT-4 auf den zweiten Platz verdrängt.

Seit seiner Einführung im letzten Jahr ist es das erste Mal, dass das Claude 3 Opus-Modell die Chatbot Arena-Liste anführt, in der alle drei Claude 3-Versionen in den Top 10 platziert sind.

Claude 3 Modelle setzen Akzente

Die LMSYS Chatbot Arena Die Rangliste zeigt, dass Claude 3 Sonnet gemeinsam mit Gemini Pro den vierten Platz belegte, während Claude 3 Haiku, das dieses Jahr auf den Markt kam, zusammen mit einer früheren Version von GPT-4 den sechsten Platz belegte.

Obwohl Claude 3 Haiku Das Modell ist zwar nicht so intelligent wie Sonnet oder Opus, aber schneller und deutlich günstiger, aber dennoch „so gut wie die viel größeren Modelle im Blindtest“, wie die Ergebnisse der Arena zeigen.

„Claude 3 Haiku hat alle beeindruckt und nach unserer Benutzervorliebe sogar das GPT-4-Niveau erreicht! Seine Geschwindigkeit, Fähigkeiten und Kontextlänge sind derzeit auf dem Markt unübertroffen“, erklärte LMSYS.

Was Haiku laut Tom's Guide noch beeindruckender macht, ist die Tatsache, dass es sich um ein „lokales Modell handelt, das mit Gemini Nano vergleichbar ist“. Es kann lesen und verarbeiten Sie informationsreiche Forschungsergebnisse Papiere in weniger als drei Sekunden.

Das Modell erzielt auch ohne die Billionen-Plus-Parameterskala von Opus oder einem der Modelle der GPT-4-Klasse hervorragende Ergebnisse.

Könnte das ein kurzfristiger Erfolg sein?

Obwohl die GPT-4-Versionen von OpenAI auf den zweiten Platz verdrängt wurden, dominierten sie mit vier Versionen immer noch die Top 10 der Liste.

Laut Tom's Guide, haben die GPT-4-Versionen von OpenAI in ihren verschiedenen Formen „so lange den Spitzenplatz inne, dass jedes andere Modell, das seinen Benchmarks nahe kommt, als Modell der GPT-4-Klasse bezeichnet wird“.

Da irgendwann in diesem Jahr ein „deutlich anderes“ GPT-5 erwartet wird, wird Anthropic diese Position möglicherweise nicht allzu lange halten, da der Punkteunterschied zwischen Claude 3 Opus und GPT-4 gering ist.

Obwohl OpenAI über die tatsächliche Veröffentlichung seiner Version Stillschweigen bewahrt hat GPT-5, der Markt erwartet seine Einführung mit Spannung. Berichten zufolge durchläuft das Modell einige „Strenge Sicherheitstests” und simulierte Angriffe, die vor der Veröffentlichung von entscheidender Bedeutung sind.

Die LMSYS Chatbot Arena

Dieses Ranking basiert im Gegensatz zu anderen Formen des Benchmarkings für KI-Modelle auf menschlichen Stimmen. Bei dieser Variante ordnen die Leute die Ausgabe zweier verschiedener Modelle blind der gleichen Eingabeaufforderung zu.

Die Chatbot Arena wird von LMSYS betrieben und verfügt über eine Vielzahl großer Sprachmodelle (LLMs), die in „anonymen, zufälligen Schlachten“ gegeneinander antreten.

Es wurde erstmals im vergangenen Mai gestartet und hat mehr als 400,000 Stimmen von Nutzern gesammelt, die über KI-Modelle von Google, Anthropic und anderen verfügen OpenAI.

„LMSYS Chatbot Arena ist eine offene Crowdsourcing-Plattform für LLM-Bewertungen. Wir haben über 400,000 menschliche Präferenzstimmen gesammelt, um LLMs mit dem Elo-Ranking-System zu bewerten“, sagte LMSYS.

Das Elo-System wird hauptsächlich in Spielen wie Schach verwendet, um die relativen Fähigkeiten eines Spielers zu bewerten. In diesem Fall wird das Ranking jedoch auf den Chatbot angewendet und „nicht auf den Menschen, der das Modell verwendet“.

Lies auch: Microsoft stellt „erste“ Surface-PCs mit Copilot AI Button vor

Die Mängel

Das Ranking der Chatbot Arena mangelt es nicht an Fehlern. Laut Tom's Guide sind nicht alle enthaltenen Modelle oder Modellversionen enthalten, und Benutzer haben manchmal schlechte Erfahrungen damit gemacht, dass GPT-4 nicht geladen werden kann. Es kann auch einige Modelle bevorzugen, die über einen Live-Internetzugang verfügen, beispielsweise Google Gemini Pro.

Während andere Modelle wie die des französischen KI-Startups Mistral Obwohl chinesische Firmen wie Alibaba neben Open-Source-Modellen in letzter Zeit einen Spitzenplatz in der Arena erobert haben, fehlen in der Arena immer noch einige hochkarätige Modelle. Es fehlen beispielsweise Modelle wie das Google Gemini Pro 1.5

Zeitstempel:

Mehr von MetaNews