Benchmarks für ChatGPT und Co

Juni 2024

Die Highlights des Monats:

  • Der Elefant im Raum - Claude 3.5 Sonnet und die Artifacts-Function

  • Der Trend zu kleinen und leistungsstarken LLMs, die lokal betrieben werden können

  • Confidential Computing - wie es AI für Unternehmen sicherer und kostengünstiger machen kann

LLM Benchmarks | Juni 2024

Die Trustbit-Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz
⚠️ - Keine Standardlizenz! Wir empfehlen, vor Verwendung einen Rechtsberater zu konsultieren, ob es in Ihrem Unternehmen rechtskonform eingesetzt werden kann

model code crm docs integrate marketing reason final 🏆 Cost Speed
GPT-4o ☁️ 85 95 100 90 82 75 88 1.24 € 1.49 rps
GPT-4 Turbo v5/2024-04-09 ☁️ 80 99 98 93 88 45 84 2.51 € 0.83 rps
Claude 3.5 Sonnet ☁️ 67 83 89 78 80 59 76 0.97 € 0.09 rps
GPT-4 v1/0314 ☁️ 80 88 98 52 88 50 76 7.19 € 1.26 rps
GPT-4 Turbo v4/0125-preview ☁️ 60 97 100 71 75 45 75 2.51 € 0.82 rps
GPT-4 v2/0613 ☁️ 80 83 95 52 88 50 74 7.19 € 2.07 rps
Claude 3 Opus ☁️ 64 88 100 53 76 59 73 4.83 € 0.41 rps
GPT-4 Turbo v3/1106-preview ☁️ 60 75 98 52 88 62 72 2.52 € 0.68 rps
Gemini Pro 1.5 0514 ☁️ 67 96 75 100 25 62 71 2.06 € 0.91 rps
Gemini Pro 1.5 0409 ☁️ 62 97 96 63 75 28 70 1.89 € 0.58 rps
GPT-3.5 v2/0613 ☁️ 62 81 73 75 81 48 70 0.35 € 1.39 rps
GPT-3.5 v3/1106 ☁️ 62 70 71 63 78 59 67 0.24 € 2.29 rps
GPT-3.5 v4/0125 ☁️ 58 87 71 60 78 47 67 0.13 € 1.41 rps
Gemini 1.5 Flash 0514 ☁️ 32 97 100 56 72 41 66 0.10 € 1.76 rps
Gemini Pro 1.0 ☁️ 55 86 83 60 88 26 66 0.10 € 1.35 rps
Cohere Command R+ ☁️ 58 80 76 49 70 59 65 0.85 € 1.88 rps
Qwen1.5 32B Chat f16 ⚠️ 64 90 82 56 78 15 64 1.02 € 1.61 rps
GPT-3.5-instruct 0914 ☁️ 44 92 69 60 88 32 64 0.36 € 2.12 rps
Gemma 7B OpenChat-3.5 v3 0106 f16 ✅ 62 67 84 33 81 48 63 0.22 € 4.91 rps
Meta Llama 3 8B Instruct f16🦙 74 62 68 49 80 42 63 0.35 € 3.16 rps
GPT-3.5 v1/0301 ☁️ 49 82 69 67 82 24 62 0.36 € 3.93 rps
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ 56 87 67 52 88 23 62 0.33 € 3.28 rps
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ 58 73 72 45 88 28 61 0.33 € 3.27 rps
Llama 3 8B OpenChat-3.6 20240522 f16 ✅ 64 51 76 45 88 39 60 0.30 € 3.62 rps
Starling 7B-alpha f16 ⚠️ 51 66 67 52 88 36 60 0.61 € 1.80 rps
Mistral 7B OpenChat-3.5 v1 f16 ✅ 46 72 72 49 88 31 60 0.51 € 2.14 rps
Yi 1.5 34B Chat f16 ⚠️ 44 78 70 52 86 28 60 1.28 € 1.28 rps
Claude 3 Haiku ☁️ 59 69 64 55 75 33 59 0.08 € 0.53 rps
Mixtral 8x22B API (Instruct) ☁️ 47 62 62 94 75 7 58 0.18 € 3.01 rps
Claude 3 Sonnet ☁️ 67 41 74 52 78 30 57 0.97 € 0.85 rps
Qwen2 7B Instruct f32 ⚠️ 44 81 81 39 66 29 57 0.47 € 2.30 rps
Mistral Large v1/2402 ☁️ 33 49 70 75 84 25 56 2.19 € 2.04 rps
Anthropic Claude Instant v1.2 ☁️ 51 75 65 59 65 14 55 2.15 € 1.47 rps
Anthropic Claude v2.0 ☁️ 57 52 55 45 84 35 55 2.24 € 0.40 rps
Cohere Command R ☁️ 39 66 57 55 84 26 54 0.13 € 2.47 rps
Qwen1.5 7B Chat f16 ⚠️ 51 81 60 34 60 36 54 0.30 € 3.62 rps
Anthropic Claude v2.1 ☁️ 36 58 59 60 75 33 53 2.31 € 0.35 rps
Qwen1.5 14B Chat f16 ⚠️ 44 58 51 49 84 17 51 0.38 € 2.90 rps
Meta Llama 3 70B Instruct b8🦙 46 72 53 29 82 18 50 7.32 € 0.22 rps
Mistral 7B OpenOrca f16 ☁️ 42 57 76 21 78 26 50 0.43 € 2.55 rps
Mistral 7B Instruct v0.1 f16 ☁️ 31 71 69 44 62 21 50 0.79 € 1.39 rps
Llama2 13B Vicuna-1.5 f16🦙 36 37 53 39 82 38 48 1.02 € 1.07 rps
Codestral v1 ⚠️ 33 47 43 71 66 13 45 0.31 € 3.98 rps
Google Recurrent Gemma 9B IT f16 ⚠️ 46 27 71 45 56 25 45 0.93 € 1.18 rps
Mistral Small v1/2312 (Mixtral) ☁️ 10 67 65 51 56 8 43 0.19 € 2.17 rps
Llama2 13B Hermes f16🦙 38 24 30 61 60 43 43 1.03 € 1.06 rps
Mistral Small v2/2402 ☁️ 27 42 36 82 56 8 42 0.19 € 3.14 rps
Llama2 13B Hermes b8🦙 32 25 29 61 60 43 42 4.94 € 0.22 rps
Mistral Medium v1/2312 ☁️ 36 43 27 59 62 12 40 0.83 € 0.35 rps
IBM Granite 34B Code Instruct f16 ☁️ 52 49 30 44 57 5 40 1.12 € 1.46 rps
Llama2 13B Puffin f16🦙 37 15 38 48 56 41 39 4.89 € 0.22 rps
Llama2 13B Puffin b8🦙 37 14 37 46 56 39 38 8.65 € 0.13 rps
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ 13 47 57 40 59 8 37 0.05 € 2.30 rps
Llama2 13B chat f16🦙 15 38 17 45 75 8 33 0.76 € 1.43 rps
Llama2 13B chat b8🦙 15 38 15 45 75 6 32 3.35 € 0.33 rps
Mistral 7B Notus-v1 f16 ⚠️ 16 54 25 41 48 4 31 0.80 € 1.37 rps
Mistral 7B Zephyr-β f16 ✅ 28 34 46 44 29 4 31 0.51 € 2.14 rps
Llama2 7B chat f16🦙 20 33 20 42 50 20 31 0.59 € 1.86 rps
Orca 2 13B f16 ⚠️ 15 22 32 22 67 19 29 0.99 € 1.11 rps
Mistral 7B Instruct v0.2 f16 ☁️ 7 30 50 13 58 8 28 1.00 € 1.10 rps
Microsoft Phi 3 Mini 4K Instruct f16 ⚠️ 36 35 31 1 50 6 27 0.87 € 1.26 rps
Mistral 7B v0.1 f16 ☁️ 0 9 42 42 52 12 26 0.93 € 1.17 rps
Microsoft Phi 3 Medium 4K Instruct f16 ⚠️ 12 34 30 13 47 8 24 0.85 € 1.28 rps
Google Gemma 2B IT f16 ⚠️ 20 28 14 39 15 20 23 0.32 € 3.44 rps
Orca 2 7B f16 ⚠️ 13 0 24 18 52 4 19 0.81 € 1.34 rps
Google Gemma 7B IT f16 ⚠️ 0 0 0 9 62 0 12 1.03 € 1.06 rps
Llama2 7B f16🦙 0 5 18 3 28 2 9 1.01 € 1.08 rps
Yi 1.5 9B Chat f16 ⚠️ 0 4 29 8 0 8 8 1.46 € 0.75 rps

Die Benchmark-Kategorien im Detail

Hier erfahren Sie, was wir mit den unterschiedlichen Kategorien der LLM Leaderboards genau untersuchen

  • Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

  • Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

  • Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

  • Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

  • Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

  • Kann das Modell Code generieren und bei der Programmierung helfen?

  • Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

  • Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

Claude 3.5 Sonnet - Anthropic hat es schon wieder gemacht

Erinnern Sie sich, wie Anthropic im März eine große Qualitätsverbesserung in ihren Modellen vorgenommen hat?

Sie haben es gerade wieder getan, indem sie Claude 3.5 Sonnet veröffentlicht haben. Dieses mittelgroße Modell ist nicht nur leistungsfähiger als das Spitzenmodell Opus, sondern auch etwa fünfmal günstiger.

Verbesserte Leistungsfähigkeit mit Claude 3.5 Sonnet

Claude 3.5 Sonnet befolgt Anweisungen besser und hat die gleichen Reason-Fähigkeiten wie ihr Topmodell Haiku, was eine enorme Verbesserung darstellt.

Neu: Artifacts für bessere Benutzererfahrung

Es gibt jedoch noch eine weitere große Verbesserung in der Produktlinie von Anthropic. Sie heißt Artifacts und bezieht sich nicht auf die Leistungsfähigkeit der LLMs, sondern auf die Benutzererfahrung und die Integration der LLMs.

Artifacts: Effizientes Arbeiten mit Dokumenten und Code

Die Idee von Artifacts ist: Wenn Sie an einem Dokument oder einem Stück Code arbeiten, wird Claude Web Chat dieses Dokument in ein separates, praktisches Fenster ziehen. Dieses Dokument wird nun zu einer eigenen Entität, nicht nur zu einem Schnipsel, der im Web Chat wiederholt wird. Artifacts sind versioniert, und Sie können ordnungsgemäß an ihnen iterieren.

Das mag wie eine kleine Funktion erscheinen, aber zusammen mit Claude 3.5 Sonnet wird es zu einem enormen Produktivitätsschub, der es lohnenswert macht, Claude Chat anstelle von ChatGPT zu verwenden, wenn man mit Dokumenten und Code-Snippets arbeitet.

Kleine, effiziente Modelle werden immer besser

Im letzten Monat haben wir mehrere lokale LLMs getestet. Dabei gab es einige angenehme Überraschungen:

So zum Beispiel Google Gemma 7B Instruct. Dieses Google-Modell wird oft kritisiert, weil es zu eingeschränkt und begrenzt sei.

Doch das OpenChat-3.5 Fine-Tuning dieses Modells offenbart die wahren Fähigkeiten und stellt dieses 7B-Modell über die erste Version von GPT-3.5.

Es wird gemunkelt, dass GPT-3.5 etwa 20-175B Parameter hatte, und dieses kleine 7B-Modell (das auf einem Laptop laufen kann) schafft es, es zu übertreffen! Das Fortschrittstempo ist beeindruckend.

Tatsächlich ist das einzige lokale LLM, das besser als dieses Modell (in unseren Benchmarks) abschneidet, das Qwen1.5-32B-Modell von AliBaba. Dieses Modell hat jedoch eine nicht standardmäßige Lizenz und benötigt mehr als viermal so viele Ressourcen zum Laufen.

Wie Sie auf dem Bild sehen können, gibt es bereits viele 7B-Modelle mit einer Leistung, die mit frühen Versionen von GPT-3.5 vergleichbar ist. Basierend auf den Trends wird der Fortschritt nicht einfach dort enden.

Schlechter abschneidende Modelle

Nicht alle lokalen Modelle schneiden in unserem Benchmark so gut ab. Hier sind einige, die schlecht abschnitten (meistens, weil sie selbst grundlegenden Anweisungen nicht genau folgen konnten):

- Yi 1.5 34B Chat

- Google Recurrent Gemma 9B IT

- Microsoft Phi 3 Mini/Medium

- Google Gemma 2B/7B

Apple Privacy Model und Confidential Computing

In seiner jüngsten Ankündigung hat Apple begonnen, mehr KI-Funktionen für sein Ökosystem einzuführen. Einer der interessantesten Aspekte war das Konzept des Private Cloud Compute.

Im Wesentlichen wird das iPhone ein kleines und effizientes LLM-Modell verwenden, um alle eingehenden Anfragen zu bearbeiten. Dieses LLM ist nicht sehr leistungsfähig und vergleichbar mit modernen 7B-Modellen. Es ist jedoch schnell und verarbeitet alle Anfragen auf sichere Weise lokal.

Besonders interessant wird es, wenn das LLM-gesteuerte System erkennt, dass es mehr Rechenleistung benötigt, um die Anfrage zu bearbeiten.

In diesem Fall hat es zwei Optionen:

  • Es kann den Benutzer um Erlaubnis bitten, die spezifische Anfrage an OpenAI GPT zu senden.

  • Es kann die Anfrage auf sichere Weise an eine von Apple verwaltete Private Cloud Compute weiterleiten.

Was ist Private Cloud Compute?

Es handelt sich um ein geschütztes Apple-Rechenzentrum, das eigene Chips verwendet, um leistungsstarke Large Language Models zu hosten. Diese Einrichtung bietet starke Garantien dafür, dass Ihre persönlichen Anfragen sicher bearbeitet werden und niemand, nicht einmal Apple, die Fragen und Antworten einsehen kann.

Dies wird durch eine Kombination aus spezieller Hardware, Verschlüsselung, gesicherten VM-Images und gegenseitiger Beglaubigung zwischen Software und Hardware erreicht. Letztendlich tun sie ihr Bestes, um es selbst für Apple oder Regierungen sehr schwierig und kostspielig zu machen, dieses System zu durchbrechen.

Bei Apple dreht sich alles um Unterhaltungselektronik, gibt es etwas Vergleichbares für Unternehmen?

Ja, das gibt es. Es nennt sich Confidential Computing. Das Konzept gibt es schon seit einiger Zeit (siehe das Confidential Computing Consortium), wurde aber erst kürzlich von Nvidia auf GPUs richtig angewendet. Nvidia führte es in der Hopper-Architektur (H100 GPUs) ein und eliminierte fast vollständig die Leistungseinbußen in der Blackwell-Architektur.

Das Konzept ist dasselbe wie bei Apples PCC:

  • Daten werden während der Übertragung und im Ruhezustand verschlüsselt

  • Daten werden während der Berechnungszeit entschlüsselt

  • Hardware und Software sind so gestaltet, dass es unmöglich (wirklich schwierig und teuer) ist, die Daten während der Entschlüsselung anzusehen.

Große Cloud-Anbieter testen bereits VMs mit vertraulicher GPU-Berechnung (z. B. Microsoft Azure mit H100 seit 2023, Google Cloud mit H100 seit 2024).

Dieser Ansatz ist interessant, weil er Unternehmen, die ein sicheres LLM-gesteuertes System aufbauen müssen, eine dritte Option bietet:

Optionen Garantien Investitionen im Voraus Kosten für den Betrieb
OpenAI von Microsoft Mittel. Nicht jeder mag es, Daten an Dritte zu senden. Aber viele nutzen bereits MS Office Keine Hoch - wir zahlen pro Anfrage
Unser eigenes Rechenzentrum mit GPUs Sehr hoch - Daten bleiben innerhalb unseres Sicherheitsbereichs. Enorm - GPUs sind teuer, die Lieferzeiten sind ebenfalls lang. Niedrig
Mieten von vertraulicher GPU-Berechnung Hoch - es gibt viele Garantien, dass unsere Daten vor allen anderen geschützt werden. Niedrig - wir können nach Bedarf bezahlen Hoch - wir zahlen pro Mietzeit

Genau wie bei hybriden Clouds (sie waren früher ein großes Thema, sind aber heutzutage die Norm), können wir diese Optionen mischen und anpassen, um eine kosteneffektive und sichere Lösung zu finden, so wie es Apple mit PCC macht. Zum Beispiel:

  • Sie haben eine kleines lokales Deployment, das kostengünstige 7B-Modelle auf einer eigenen Hardware ausführt. Diese wird alle Anfragen lokal bearbeiten.

  • Wenn eine Benutzeranfrage eine leistungsfähigere KI/LLM benötigt und keine kritischen Informationen enthält, wird die Anfragen an Azure OpenAI weitergeleitet.

  • Wenn eine Benutzeranfrage sowohl sensibel ist als auch eine hohe GPU-Rechenleistung erfordert, dann wird an eine vertrauliche Berechnung in der Cloud ausgeführt.

Letztendlich, wenn die leistungsfähigen und vertraulichen Arbeitslasten konstant genug sind, könnte es sinnvoll sein, ein paar lokale und leistungsstarke GPUs hinzuzufügen, um sie zu bewältigen. Während der Spitzenzeiten können wir immer noch vertrauliche Berechnungen in der Cloud mieten.

Mit einem H100-Setup kann man selbst mit einer einzelnen GPU eine hohe Leistung erwarten, wenn man die richtige Software und das richtige Optimierungsprofil verwendet. Zum Beispiel kann man +20-50% Durchsatz mit Llama 3 8B bei fp16 erreichen, indem man das Backend von vLLM auf TensorRT-Backend mit Nvidia NIM-Setup umstellt.

Da die H100-Hardware auch fp8-Quantisierung unterstützt, können wir sogar +10-30% Leistung erzielen, indem wir von fp16 auf fp8 umstellen.

💡 Die Leistungssteigerungen hängen von der gesamten Kontextgröße, der Batchgröße und der Art der Arbeitslast ab.

Confidential Computing: Neue Wege der Zusammenarbeit ohne Offenlegung von Daten und Code

Wenn man das Konzept noch weiter vorantreibt, ermöglicht Confidential Computing eine neue Form der Zusammenarbeit zwischen Unternehmen: Man kann eine mehrteilige Datenanalyse durchführen, ohne Daten und Code offenzulegen. Zum Beispiel können medizinische Unternehmen ihre Daten zusammenführen, um effizientere Behandlungsmethoden zu entwickeln, ohne dabei rohe private Daten untereinander preiszugeben.

Zusammenfassung

Apple hat großartige Arbeit geleistet, um dem Publikum die Konzepte des vertraulichen Rechnens zu erklären. Dies erhöht das Bewusstsein für eine weitere kostengünstige Möglichkeit, eine sichere, KI-gesteuerte Unternehmenslösung zu entwickeln.

Alle Zutaten für den Bau einer solchen Lösung sind bereits verfügbar:

  • Ressourceneffiziente LLMs, die lokal innerhalb des Sicherheitsperimeters betrieben werden können - Feinanpassungen von Llama 3 8B, Gemma und Mistral 7B.

  • Leistungsstarke Cloud-Modelle von renommierten Anbietern: GPT von OpenAI und Gemini von Google.

  • Neue Hardware, die starke Datenschutzgarantien bietet und gemietet werden kann.

Die Zeit wird zeigen, ob dieser Ansatz populärer wird.

Trustbit LLM Benchmarks Archiv

Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!