Benchmarks für ChatGPT und Co
April 2024
Die Highlights des Monats:
Gemini Pro 1.5 von Google - Verbesserung von Pro 1.0, jetzt in der EU verfügbar
Command-R und Command-R Plus von Cohere - mittelmäßige Ergebnisse
Neues GPT-4 Turbo - OpenAI hat es wieder geschafft!
Llama 3: 70B ist in Ordnung, aber 8B ist wirklich vielversprechend
Langfristige Trends
LLM Benchmarks | April 2024
Die Trustbit-Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.
☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz
model | code | crm | docs | integrate | marketing | reason | final 🏆 | Cost | Speed |
---|---|---|---|---|---|---|---|---|---|
GPT-4 Turbo v5/2024-04-09 ☁️ | 80 | 99 | 98 | 93 | 88 | 45 | 84 | 2.51 € | 0.83 rps |
GPT-4 v1/0314 ☁️ | 80 | 88 | 98 | 52 | 88 | 50 | 76 | 7.19 € | 1.26 rps |
GPT-4 Turbo v4/0125-preview ☁️ | 60 | 97 | 100 | 71 | 75 | 45 | 75 | 2.51 € | 0.82 rps |
GPT-4 v2/0613 ☁️ | 80 | 83 | 95 | 52 | 88 | 50 | 74 | 7.19 € | 2.07 rps |
Claude 3 Opus ☁️ | 64 | 88 | 100 | 53 | 76 | 59 | 73 | 4.83 € | 0.41 rps |
GPT-4 Turbo v3/1106-preview ☁️ | 60 | 75 | 98 | 52 | 88 | 62 | 72 | 2.52 € | 0.68 rps |
Gemini Pro 1.5 ☁️ | 62 | 97 | 96 | 63 | 75 | 28 | 70 | 1.89 € | 0.58 rps |
GPT-3.5 v2/0613 ☁️ | 62 | 79 | 73 | 75 | 81 | 48 | 70 | 0.35 € | 1.39 rps |
GPT-3.5 v3/1106 ☁️ | 62 | 68 | 71 | 63 | 78 | 59 | 67 | 0.24 € | 2.29 rps |
GPT-3.5 v4/0125 ☁️ | 58 | 85 | 71 | 60 | 78 | 47 | 66 | 0.13 € | 1.41 rps |
Gemini Pro 1.0 ☁️ | 55 | 86 | 83 | 60 | 88 | 26 | 66 | 0.10 € | 1.35 rps |
Cohere Command R+ ☁️ | 58 | 77 | 76 | 49 | 70 | 59 | 65 | 0.85 € | 1.88 rps |
GPT-3.5-instruct 0914 ☁️ | 44 | 90 | 69 | 60 | 88 | 32 | 64 | 0.36 € | 2.12 rps |
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ | 56 | 86 | 67 | 52 | 88 | 26 | 62 | 0.37 € | 2.99 rps |
Meta Llama 3 8B Instruct f16🦙 | 74 | 60 | 68 | 49 | 80 | 42 | 62 | 0.35 € | 3.16 rps |
GPT-3.5 v1/0301 ☁️ | 49 | 75 | 69 | 67 | 82 | 24 | 61 | 0.36 € | 3.93 rps |
Starling 7B-alpha f16 ⚠️ | 51 | 66 | 67 | 52 | 88 | 36 | 60 | 0.61 € | 1.80 rps |
Mistral 7B OpenChat-3.5 v1 f16 ✅ | 46 | 72 | 72 | 49 | 88 | 31 | 60 | 0.51 € | 2.14 rps |
Claude 3 Haiku ☁️ | 59 | 69 | 64 | 55 | 75 | 33 | 59 | 0.08 € | 0.53 rps |
Mixtral 8x22B API (Instruct) ☁️ | 47 | 62 | 62 | 94 | 75 | 7 | 58 | 0.18 € | 3.01 rps |
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ | 51 | 74 | 72 | 41 | 75 | 31 | 57 | 0.36 € | 3.05 rps |
Claude 3 Sonnet ☁️ | 67 | 41 | 74 | 52 | 78 | 30 | 57 | 0.97 € | 0.85 rps |
Mistral Large v1/2402 ☁️ | 33 | 49 | 70 | 75 | 84 | 25 | 56 | 2.19 € | 2.04 rps |
Anthropic Claude Instant v1.2 ☁️ | 51 | 75 | 65 | 59 | 65 | 14 | 55 | 2.15 € | 1.47 rps |
Anthropic Claude v2.0 ☁️ | 57 | 52 | 55 | 45 | 84 | 35 | 55 | 2.24 € | 0.40 rps |
Cohere Command R ☁️ | 39 | 63 | 57 | 55 | 84 | 26 | 54 | 0.13 € | 2.47 rps |
Anthropic Claude v2.1 ☁️ | 36 | 58 | 59 | 60 | 75 | 33 | 53 | 2.31 € | 0.35 rps |
Meta Llama 3 70B Instruct b8🦙 | 46 | 72 | 53 | 29 | 82 | 18 | 50 | 7.32 € | 0.22 rps |
Mistral 7B OpenOrca f16 ☁️ | 42 | 57 | 76 | 21 | 78 | 26 | 50 | 0.43 € | 2.55 rps |
Mistral 7B Instruct v0.1 f16 ☁️ | 31 | 70 | 69 | 44 | 62 | 21 | 50 | 0.79 € | 1.39 rps |
Llama2 13B Vicuna-1.5 f16🦙 | 36 | 37 | 53 | 39 | 82 | 38 | 48 | 1.02 € | 1.07 rps |
Llama2 13B Hermes f16🦙 | 38 | 23 | 30 | 61 | 60 | 43 | 42 | 1.03 € | 1.06 rps |
Llama2 13B Hermes b8🦙 | 32 | 24 | 29 | 61 | 60 | 43 | 42 | 4.94 € | 0.22 rps |
Mistral Small v1/2312 (Mixtral) ☁️ | 10 | 58 | 65 | 51 | 56 | 8 | 41 | 0.19 € | 2.17 rps |
Mistral Small v2/2402 ☁️ | 27 | 35 | 36 | 82 | 56 | 8 | 41 | 0.19 € | 3.14 rps |
Llama2 13B Puffin f16🦙 | 37 | 12 | 38 | 48 | 56 | 41 | 39 | 4.89 € | 0.22 rps |
Mistral Medium v1/2312 ☁️ | 36 | 30 | 27 | 59 | 62 | 12 | 38 | 0.83 € | 0.35 rps |
Llama2 13B Puffin b8🦙 | 37 | 9 | 37 | 46 | 56 | 39 | 37 | 8.65 € | 0.13 rps |
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ | 13 | 39 | 57 | 40 | 59 | 8 | 36 | 0.05 € | 2.30 rps |
Llama2 13B chat f16🦙 | 15 | 38 | 17 | 45 | 75 | 8 | 33 | 0.76 € | 1.43 rps |
Llama2 13B chat b8🦙 | 15 | 38 | 15 | 45 | 75 | 6 | 32 | 3.35 € | 0.33 rps |
Mistral 7B Zephyr-β f16 ✅ | 28 | 34 | 46 | 44 | 29 | 4 | 31 | 0.51 € | 2.14 rps |
Llama2 7B chat f16🦙 | 20 | 33 | 20 | 42 | 50 | 20 | 31 | 0.59 € | 1.86 rps |
Mistral 7B Notus-v1 f16 ⚠️ | 16 | 43 | 25 | 41 | 48 | 4 | 30 | 0.80 € | 1.37 rps |
Orca 2 13B f16 ⚠️ | 15 | 22 | 32 | 22 | 67 | 19 | 29 | 0.99 € | 1.11 rps |
Mistral 7B Instruct v0.2 f16 ☁️ | 7 | 21 | 50 | 13 | 58 | 8 | 26 | 1.00 € | 1.10 rps |
Mistral 7B f16 ☁️ | 0 | 4 | 42 | 42 | 52 | 12 | 25 | 0.93 € | 1.17 rps |
Orca 2 7B f16 ⚠️ | 13 | 0 | 24 | 18 | 52 | 4 | 19 | 0.81 € | 1.34 rps |
Llama2 7B f16🦙 | 0 | 2 | 18 | 3 | 28 | 2 | 9 | 1.01 € | 1.08 rps |
Die Benchmark-Kategorien im Detail
Hier erfahren Sie, was wir mit den unterschiedlichen Kategorien der LLM Leaderboards genau untersuchen
-
Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
-
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
-
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
-
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
-
Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
-
Kann das Modell Code generieren und bei der Programmierung helfen?
-
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
-
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.
Google Gemini Pro 1.5
In unseren März Benchmarks haben wir Gemini Pro 1.0 von Google getestet. Die neuere Version Gemini 1.5 Pro zeigt eine deutlich bessere Leistung. Sie erreicht fast die Leistung des GPT-4 Turbo.
Dieses Modell schneidet besonders gut bei Aufgaben im Zusammenhang mit der Arbeit an Dokumenten und Informationen ab. Es erzielt auch fast perfekte Ergebnisse bei CRM-bezogenen Aufgaben. Komplexe Aufgaben des logischen Denkens liegen jedoch unterhalb des Niveaus von GPT-3.5.
Gemini Pro 1.5 ist auf unseren Workloads ungefähr 20-mal teurer als Pro 1.0. Dies ist angesichts der Qualitätsstufe von GPT-4 zu erwarten.
Beide Modelle sind nun in Google Vertex AI verfügbar, was sie endlich für Unternehmenskunden in der EU nutzbar macht.
Command R models von Cohere
Cohere AI ist spezialisiert auf unternehmensorientierte LLMs. Sie haben die Command-R-Modellfamilie - LLMs, die für dokumentenorientierte Aufgaben konzipiert sind: "Command R" und "Command R Plus".
Diese Modelle sind sowohl als API-SaaS als auch als herunterladbare Modelle auf Hugging Face verfügbar. Herunterladbare Modelle werden unter nicht-kommerziellen Zwecken veröffentlicht.
Das Command-R-Modell ist grob vergleichbar mit den Anthropic Claude-Modellen der ersten beiden Generationen, jedoch deutlich günstiger. Dennoch gibt es in dieser Preiskategorie bessere Modelle wie Gemini Pro 1.0 und Claude 3 Haiku.
Das Command R+ ist ein deutlich besseres Modell mit Fähigkeiten im Bereich von GPT-3.5, jedoch zu einem 2- bis 3-fachen Preis.
OpenAI erreicht mit neuen ChatGPT-4 Turbo erneut einen Meilenstein
OpenAI hat das neue GPT-4 Turbo-Modell mit der Versionsnummer 2023-04-09 veröffentlicht. Das ist aus zwei Gründen herausragend.
Erstens hat OpenAI endlich vernünftige Versionsnummern verwendet. Es hat nur ein Jahr Fortschritt gebraucht.
Zweitens übertrifft dieses Modell alle anderen Modelle in unseren LLM-Benchmarks. Es nimmt den ersten Platz mit einem deutlichen Vorsprung zum zweiten Platz ein.
Dieser Punktesprung kommt von fast perfekten Bewertungen in den Kategorien CRM und Dokumente. Außerdem hat OpenAI endlich das Problem mit der Anweisungsausführung bei wenigen Proben behoben, das dazu geführt hat, dass die Kategorie Integration so niedrig war.
GPT-4 Turbo 2023-04-09 ist derzeit unsere Standardempfehlung für neue LLM-Projekte, die das leistungsstärkste LLM benötigen, um zu starten!
Llama 3 70B and 8B
Meta hat gerade neue Modelle in seiner dritten Generation veröffentlicht. Wir haben die instruierten Versionen von 70B und 8B auf ihre Verwendbarkeit in LLM-gesteuerten Produkten getestet.
Llama 3 70B hatte einen holprigen Start - der Upload auf HuggingFace hatte Fehler mit Tokens bei der Verarbeitung von Chatvorlagen. Sobald diese behoben waren, begann das Modell besser zu funktionieren, auf dem Niveau der alten Generationen von Anthropic Claude v2.
Beachten Sie, dass wir das b8-quantisierte Modell getestet haben, um es ordnungsgemäß auf 2xA100 80GB SMX-Karten anzupassen. Es besteht die Möglichkeit, dass f16 leicht bessere Ergebnisse liefern könnte.
Llama 3 8B Instruct schnitt bei den Benchmarks deutlich besser ab und bringt den Stand der Technik voran, der von Meta zur Verfügung gestellt wird. Dieses Modell erzielt überraschend gute Gesamtergebnisse und eine gute "Reason"-Fähigkeit. Es besteht eine starke Chance, dass eine produktorientierte Feinabstimmung von Llama3 8B Instruct dieses Modell in die Top-10 bringen könnte.
Langfristige Trends
Betrachten wir jetzt das größere Bild: Wohin entwickelt sich die Branche mit all dem?
Kostengünstiger & leistungsfähigere Modelle
Zunächst einmal werden Modelle im Allgemeinen besser und erschwinglicher. Dies ist der allgemeine Trend, den Sam Altman kürzlich in seinem Interview skizziert hat: Welche Unternehmen werden von OpenAI überrollt?
Weitere langfristige LLM Trends
Neue funktionale Fähigkeiten von LLMs
LLMs erhalten neue funktionale Fähigkeiten, die in diesem Benchmark noch nicht einmal erfasst sind: Funktionsaufrufe, Multimodalität, Datenverankerung. Die neueste Version von LLM Under the Hood erweitert dieses Thema.
Experimente mit neuen LLM-Architekturen
Unternehmen werden auch mutiger und versuchen, mit neuen LLM-Architekturen außerhalb der klassischen Transformatorarchitektur zu experimentieren. Die Mischung aus Experten wurde von Mistral populär gemacht, obwohl viele glauben, dass auch GPT sie verwendet. Rekurrente neuronale Netze erleben auch ein Comeback als Möglichkeit, die Beschränkungen der Kontextgröße zu lösen. Zum Beispiel: RWKV Language Model, Recurrent Gemma von Google Deep Mind (Griffin-Architektur).
Leistungsfähige Modelle mit geringer Rechenleistung
Was an diesen Modellen interessant ist - sie zeigen anständige Fähigkeiten, während sie wesentlich weniger Rechenleistung benötigen. Zum Beispiel haben wir einen Bericht über die 0,4B-Version von RWKV erhalten, die auf einem Low-End-Android-Telefon mit einer tolerierbaren Geschwindigkeit (nur CPU-Inferenz) läuft.
Wohin steuern wir mit all dem?
Demokratisierung der KI
Erwarten Sie, dass die Modelle weiterhin besser, günstiger und leistungsstärker werden. Sam Altman nennt dies "Demokratisierung der KI". Dies gilt sowohl für die Cloud-Modelle als auch für lokal verfügbare Modelle.
Wenn Sie gerade dabei sind, ein LLM-gesteuertes System aufzubauen, erwarten Sie, dass zum Zeitpunkt der Auslieferung des Systems das zugrunde liegende LLM wesentlich leistungsfähiger sein wird. Tatsächlich können Sie das berücksichtigen und eine langfristige Strategie darauf aufbauen.
Anpassungsfähige Systeme
Sie können das zum Beispiel tun, indem Sie LLM-gesteuerte Systeme so gestalten, dass sie transparent, überprüfbar und in der Lage sind, sich kontinuierlich an den sich ändernden Kontext anzupassen. Es gibt einige Informationen zu diesem Thema in unserem neuen Abschnitt über den Aufbau von KI-Assistenten für Unternehmen.
Trustbit LLM Benchmarks Archiv
Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!