Claude 3 Opus belegt den Spitzenplatz im Chatbot-Ranking

Neuauflage von Plato

Verfolger: 0

Anthropics KI-Modell der nächsten Generation, Claude 3 Opus, hat die Pole-Position in der Chatbot-Arena-Rangliste eingenommen und OpenAIs GPT-4 auf den zweiten Platz verdrängt.

Seit seiner Einführung im letzten Jahr ist es das erste Mal, dass das Claude 3 Opus-Modell die Chatbot Arena-Liste anführt, in der alle drei Claude 3-Versionen in den Top 10 platziert sind.

Claude 3 Modelle setzen Akzente

Die LMSYS Chatbot Arena Die Rangliste zeigt, dass Claude 3 Sonnet gemeinsam mit Gemini Pro den vierten Platz belegte, während Claude 3 Haiku, das dieses Jahr auf den Markt kam, zusammen mit einer früheren Version von GPT-4 den sechsten Platz belegte.

Obwohl Claude 3 Haiku Das Modell ist zwar nicht so intelligent wie Sonnet oder Opus, aber schneller und deutlich günstiger, aber dennoch „so gut wie die viel größeren Modelle im Blindtest“, wie die Ergebnisse der Arena zeigen.

„Claude 3 Haiku hat alle beeindruckt und nach unserer Benutzervorliebe sogar das GPT-4-Niveau erreicht! Seine Geschwindigkeit, Fähigkeiten und Kontextlänge sind derzeit auf dem Markt unübertroffen“, erklärte LMSYS.

Was Haiku laut Tom's Guide noch beeindruckender macht, ist die Tatsache, dass es sich um ein „lokales Modell handelt, das mit Gemini Nano vergleichbar ist“. Es kann lesen und verarbeiten Sie informationsreiche Forschungsergebnisse Papiere in weniger als drei Sekunden.

Das Modell erzielt auch ohne die Billionen-Plus-Parameterskala von Opus oder einem der Modelle der GPT-4-Klasse hervorragende Ergebnisse.

[Arena-Update]

Über 70 neue Arena-Stimmen🗳️ sind da!

Claude-3 Haiku hat alle beeindruckt und nach unserer Benutzervorliebe sogar das GPT-4-Niveau erreicht! Seine Geschwindigkeit, Fähigkeiten und Kontextlänge sind derzeit auf dem Markt unübertroffen🔥

congrats @AnthropicAI zum unglaublichen Start von Claude-3!

Aufregender… pic.twitter.com/p1Guuf0B3K

– lmsys.org (@lmsysorg) 26. März 2024

Könnte das ein kurzfristiger Erfolg sein?

Obwohl die GPT-4-Versionen von OpenAI auf den zweiten Platz verdrängt wurden, dominierten sie mit vier Versionen immer noch die Top 10 der Liste.

Laut Tom's Guide, haben die GPT-4-Versionen von OpenAI in ihren verschiedenen Formen „so lange den Spitzenplatz inne, dass jedes andere Modell, das seinen Benchmarks nahe kommt, als Modell der GPT-4-Klasse bezeichnet wird“.

Da irgendwann in diesem Jahr ein „deutlich anderes“ GPT-5 erwartet wird, wird Anthropic diese Position möglicherweise nicht allzu lange halten, da der Punkteunterschied zwischen Claude 3 Opus und GPT-4 gering ist.

Obwohl OpenAI über die tatsächliche Veröffentlichung seiner Version Stillschweigen bewahrt hat GPT-5, der Markt erwartet seine Einführung mit Spannung. Berichten zufolge durchläuft das Modell einige „Strenge Sicherheitstests” und simulierte Angriffe, die vor der Veröffentlichung von entscheidender Bedeutung sind.

Die LMSYS Chatbot Arena

Dieses Ranking basiert im Gegensatz zu anderen Formen des Benchmarkings für KI-Modelle auf menschlichen Stimmen. Bei dieser Variante ordnen die Leute die Ausgabe zweier verschiedener Modelle blind der gleichen Eingabeaufforderung zu.

Die Chatbot Arena wird von LMSYS betrieben und verfügt über eine Vielzahl großer Sprachmodelle (LLMs), die in „anonymen, zufälligen Schlachten“ gegeneinander antreten.

Es wurde erstmals im vergangenen Mai gestartet und hat mehr als 400,000 Stimmen von Nutzern gesammelt, die über KI-Modelle von Google, Anthropic und anderen verfügen OpenAI.

„LMSYS Chatbot Arena ist eine offene Crowdsourcing-Plattform für LLM-Bewertungen. Wir haben über 400,000 menschliche Präferenzstimmen gesammelt, um LLMs mit dem Elo-Ranking-System zu bewerten“, sagte LMSYS.

Das Elo-System wird hauptsächlich in Spielen wie Schach verwendet, um die relativen Fähigkeiten eines Spielers zu bewerten. In diesem Fall wird das Ranking jedoch auf den Chatbot angewendet und „nicht auf den Menschen, der das Modell verwendet“.

Lies auch: Microsoft stellt „erste“ Surface-PCs mit Copilot AI Button vor

Die Mängel

Das Ranking der Chatbot Arena mangelt es nicht an Fehlern. Laut Tom's Guide sind nicht alle enthaltenen Modelle oder Modellversionen enthalten, und Benutzer haben manchmal schlechte Erfahrungen damit gemacht, dass GPT-4 nicht geladen werden kann. Es kann auch einige Modelle bevorzugen, die über einen Live-Internetzugang verfügen, beispielsweise Google Gemini Pro.

Während andere Modelle wie die des französischen KI-Startups Mistral Obwohl chinesische Firmen wie Alibaba neben Open-Source-Modellen in letzter Zeit einen Spitzenplatz in der Arena erobert haben, fehlen in der Arena immer noch einige hochkarätige Modelle. Es fehlen beispielsweise Modelle wie das Google Gemini Pro 1.5

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Zeitstempel: 28. März 2024

Zeitstempel: Jan 10, 2024

Claude 3 Opus belegt den Spitzenplatz im Chatbot-Ranking

Neuauflage von Plato

Claude 3 Modelle setzen Akzente

Könnte das ein kurzfristiger Erfolg sein?

Die LMSYS Chatbot Arena

Die Mängel

Mehr von MetaNews

KI-Finanzcrash „fast unvermeidbar“, sagt SEC-Chef

Fans reagieren auf In-Game-Werbung in Assassin's Creed

Harvest Moon steht kurz vor der Veröffentlichung auf dem PC

Duolingo entlässt Auftragnehmer und setzt auf KI

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto