Benchmarks für ChatGPT und Co
Juni 2024
Die Highlights des Monats:
Der Elefant im Raum - Claude 3.5 Sonnet und die Artifacts-Function
Der Trend zu kleinen und leistungsstarken LLMs, die lokal betrieben werden können
Confidential Computing - wie es AI für Unternehmen sicherer und kostengünstiger machen kann
LLM Benchmarks | Juni 2024
Die Trustbit-Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.
☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz
⚠️ - Keine Standardlizenz! Wir empfehlen, vor Verwendung einen Rechtsberater zu konsultieren, ob es in Ihrem Unternehmen rechtskonform eingesetzt werden kann
model | code | crm | docs | integrate | marketing | reason | final 🏆 | Cost | Speed |
---|---|---|---|---|---|---|---|---|---|
GPT-4o ☁️ | 85 | 95 | 100 | 90 | 82 | 75 | 88 | 1.24 € | 1.49 rps |
GPT-4 Turbo v5/2024-04-09 ☁️ | 80 | 99 | 98 | 93 | 88 | 45 | 84 | 2.51 € | 0.83 rps |
Claude 3.5 Sonnet ☁️ | 67 | 83 | 89 | 78 | 80 | 59 | 76 | 0.97 € | 0.09 rps |
GPT-4 v1/0314 ☁️ | 80 | 88 | 98 | 52 | 88 | 50 | 76 | 7.19 € | 1.26 rps |
GPT-4 Turbo v4/0125-preview ☁️ | 60 | 97 | 100 | 71 | 75 | 45 | 75 | 2.51 € | 0.82 rps |
GPT-4 v2/0613 ☁️ | 80 | 83 | 95 | 52 | 88 | 50 | 74 | 7.19 € | 2.07 rps |
Claude 3 Opus ☁️ | 64 | 88 | 100 | 53 | 76 | 59 | 73 | 4.83 € | 0.41 rps |
GPT-4 Turbo v3/1106-preview ☁️ | 60 | 75 | 98 | 52 | 88 | 62 | 72 | 2.52 € | 0.68 rps |
Gemini Pro 1.5 0514 ☁️ | 67 | 96 | 75 | 100 | 25 | 62 | 71 | 2.06 € | 0.91 rps |
Gemini Pro 1.5 0409 ☁️ | 62 | 97 | 96 | 63 | 75 | 28 | 70 | 1.89 € | 0.58 rps |
GPT-3.5 v2/0613 ☁️ | 62 | 81 | 73 | 75 | 81 | 48 | 70 | 0.35 € | 1.39 rps |
GPT-3.5 v3/1106 ☁️ | 62 | 70 | 71 | 63 | 78 | 59 | 67 | 0.24 € | 2.29 rps |
GPT-3.5 v4/0125 ☁️ | 58 | 87 | 71 | 60 | 78 | 47 | 67 | 0.13 € | 1.41 rps |
Gemini 1.5 Flash 0514 ☁️ | 32 | 97 | 100 | 56 | 72 | 41 | 66 | 0.10 € | 1.76 rps |
Gemini Pro 1.0 ☁️ | 55 | 86 | 83 | 60 | 88 | 26 | 66 | 0.10 € | 1.35 rps |
Cohere Command R+ ☁️ | 58 | 80 | 76 | 49 | 70 | 59 | 65 | 0.85 € | 1.88 rps |
Qwen1.5 32B Chat f16 ⚠️ | 64 | 90 | 82 | 56 | 78 | 15 | 64 | 1.02 € | 1.61 rps |
GPT-3.5-instruct 0914 ☁️ | 44 | 92 | 69 | 60 | 88 | 32 | 64 | 0.36 € | 2.12 rps |
Gemma 7B OpenChat-3.5 v3 0106 f16 ✅ | 62 | 67 | 84 | 33 | 81 | 48 | 63 | 0.22 € | 4.91 rps |
Meta Llama 3 8B Instruct f16🦙 | 74 | 62 | 68 | 49 | 80 | 42 | 63 | 0.35 € | 3.16 rps |
GPT-3.5 v1/0301 ☁️ | 49 | 82 | 69 | 67 | 82 | 24 | 62 | 0.36 € | 3.93 rps |
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ | 56 | 87 | 67 | 52 | 88 | 23 | 62 | 0.33 € | 3.28 rps |
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ | 58 | 73 | 72 | 45 | 88 | 28 | 61 | 0.33 € | 3.27 rps |
Llama 3 8B OpenChat-3.6 20240522 f16 ✅ | 64 | 51 | 76 | 45 | 88 | 39 | 60 | 0.30 € | 3.62 rps |
Starling 7B-alpha f16 ⚠️ | 51 | 66 | 67 | 52 | 88 | 36 | 60 | 0.61 € | 1.80 rps |
Mistral 7B OpenChat-3.5 v1 f16 ✅ | 46 | 72 | 72 | 49 | 88 | 31 | 60 | 0.51 € | 2.14 rps |
Yi 1.5 34B Chat f16 ⚠️ | 44 | 78 | 70 | 52 | 86 | 28 | 60 | 1.28 € | 1.28 rps |
Claude 3 Haiku ☁️ | 59 | 69 | 64 | 55 | 75 | 33 | 59 | 0.08 € | 0.53 rps |
Mixtral 8x22B API (Instruct) ☁️ | 47 | 62 | 62 | 94 | 75 | 7 | 58 | 0.18 € | 3.01 rps |
Claude 3 Sonnet ☁️ | 67 | 41 | 74 | 52 | 78 | 30 | 57 | 0.97 € | 0.85 rps |
Qwen2 7B Instruct f32 ⚠️ | 44 | 81 | 81 | 39 | 66 | 29 | 57 | 0.47 € | 2.30 rps |
Mistral Large v1/2402 ☁️ | 33 | 49 | 70 | 75 | 84 | 25 | 56 | 2.19 € | 2.04 rps |
Anthropic Claude Instant v1.2 ☁️ | 51 | 75 | 65 | 59 | 65 | 14 | 55 | 2.15 € | 1.47 rps |
Anthropic Claude v2.0 ☁️ | 57 | 52 | 55 | 45 | 84 | 35 | 55 | 2.24 € | 0.40 rps |
Cohere Command R ☁️ | 39 | 66 | 57 | 55 | 84 | 26 | 54 | 0.13 € | 2.47 rps |
Qwen1.5 7B Chat f16 ⚠️ | 51 | 81 | 60 | 34 | 60 | 36 | 54 | 0.30 € | 3.62 rps |
Anthropic Claude v2.1 ☁️ | 36 | 58 | 59 | 60 | 75 | 33 | 53 | 2.31 € | 0.35 rps |
Qwen1.5 14B Chat f16 ⚠️ | 44 | 58 | 51 | 49 | 84 | 17 | 51 | 0.38 € | 2.90 rps |
Meta Llama 3 70B Instruct b8🦙 | 46 | 72 | 53 | 29 | 82 | 18 | 50 | 7.32 € | 0.22 rps |
Mistral 7B OpenOrca f16 ☁️ | 42 | 57 | 76 | 21 | 78 | 26 | 50 | 0.43 € | 2.55 rps |
Mistral 7B Instruct v0.1 f16 ☁️ | 31 | 71 | 69 | 44 | 62 | 21 | 50 | 0.79 € | 1.39 rps |
Llama2 13B Vicuna-1.5 f16🦙 | 36 | 37 | 53 | 39 | 82 | 38 | 48 | 1.02 € | 1.07 rps |
Codestral v1 ⚠️ | 33 | 47 | 43 | 71 | 66 | 13 | 45 | 0.31 € | 3.98 rps |
Google Recurrent Gemma 9B IT f16 ⚠️ | 46 | 27 | 71 | 45 | 56 | 25 | 45 | 0.93 € | 1.18 rps |
Mistral Small v1/2312 (Mixtral) ☁️ | 10 | 67 | 65 | 51 | 56 | 8 | 43 | 0.19 € | 2.17 rps |
Llama2 13B Hermes f16🦙 | 38 | 24 | 30 | 61 | 60 | 43 | 43 | 1.03 € | 1.06 rps |
Mistral Small v2/2402 ☁️ | 27 | 42 | 36 | 82 | 56 | 8 | 42 | 0.19 € | 3.14 rps |
Llama2 13B Hermes b8🦙 | 32 | 25 | 29 | 61 | 60 | 43 | 42 | 4.94 € | 0.22 rps |
Mistral Medium v1/2312 ☁️ | 36 | 43 | 27 | 59 | 62 | 12 | 40 | 0.83 € | 0.35 rps |
IBM Granite 34B Code Instruct f16 ☁️ | 52 | 49 | 30 | 44 | 57 | 5 | 40 | 1.12 € | 1.46 rps |
Llama2 13B Puffin f16🦙 | 37 | 15 | 38 | 48 | 56 | 41 | 39 | 4.89 € | 0.22 rps |
Llama2 13B Puffin b8🦙 | 37 | 14 | 37 | 46 | 56 | 39 | 38 | 8.65 € | 0.13 rps |
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ | 13 | 47 | 57 | 40 | 59 | 8 | 37 | 0.05 € | 2.30 rps |
Llama2 13B chat f16🦙 | 15 | 38 | 17 | 45 | 75 | 8 | 33 | 0.76 € | 1.43 rps |
Llama2 13B chat b8🦙 | 15 | 38 | 15 | 45 | 75 | 6 | 32 | 3.35 € | 0.33 rps |
Mistral 7B Notus-v1 f16 ⚠️ | 16 | 54 | 25 | 41 | 48 | 4 | 31 | 0.80 € | 1.37 rps |
Mistral 7B Zephyr-β f16 ✅ | 28 | 34 | 46 | 44 | 29 | 4 | 31 | 0.51 € | 2.14 rps |
Llama2 7B chat f16🦙 | 20 | 33 | 20 | 42 | 50 | 20 | 31 | 0.59 € | 1.86 rps |
Orca 2 13B f16 ⚠️ | 15 | 22 | 32 | 22 | 67 | 19 | 29 | 0.99 € | 1.11 rps |
Mistral 7B Instruct v0.2 f16 ☁️ | 7 | 30 | 50 | 13 | 58 | 8 | 28 | 1.00 € | 1.10 rps |
Microsoft Phi 3 Mini 4K Instruct f16 ⚠️ | 36 | 35 | 31 | 1 | 50 | 6 | 27 | 0.87 € | 1.26 rps |
Mistral 7B v0.1 f16 ☁️ | 0 | 9 | 42 | 42 | 52 | 12 | 26 | 0.93 € | 1.17 rps |
Microsoft Phi 3 Medium 4K Instruct f16 ⚠️ | 12 | 34 | 30 | 13 | 47 | 8 | 24 | 0.85 € | 1.28 rps |
Google Gemma 2B IT f16 ⚠️ | 20 | 28 | 14 | 39 | 15 | 20 | 23 | 0.32 € | 3.44 rps |
Orca 2 7B f16 ⚠️ | 13 | 0 | 24 | 18 | 52 | 4 | 19 | 0.81 € | 1.34 rps |
Google Gemma 7B IT f16 ⚠️ | 0 | 0 | 0 | 9 | 62 | 0 | 12 | 1.03 € | 1.06 rps |
Llama2 7B f16🦙 | 0 | 5 | 18 | 3 | 28 | 2 | 9 | 1.01 € | 1.08 rps |
Yi 1.5 9B Chat f16 ⚠️ | 0 | 4 | 29 | 8 | 0 | 8 | 8 | 1.46 € | 0.75 rps |
Die Benchmark-Kategorien im Detail
Hier erfahren Sie, was wir mit den unterschiedlichen Kategorien der LLM Leaderboards genau untersuchen
-
Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
-
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
-
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
-
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
-
Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
-
Kann das Modell Code generieren und bei der Programmierung helfen?
-
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
-
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.
Claude 3.5 Sonnet - Anthropic hat es schon wieder gemacht
Erinnern Sie sich, wie Anthropic im März eine große Qualitätsverbesserung in ihren Modellen vorgenommen hat?
Sie haben es gerade wieder getan, indem sie Claude 3.5 Sonnet veröffentlicht haben. Dieses mittelgroße Modell ist nicht nur leistungsfähiger als das Spitzenmodell Opus, sondern auch etwa fünfmal günstiger.
Verbesserte Leistungsfähigkeit mit Claude 3.5 Sonnet
Claude 3.5 Sonnet befolgt Anweisungen besser und hat die gleichen Reason-Fähigkeiten wie ihr Topmodell Haiku, was eine enorme Verbesserung darstellt.
Neu: Artifacts für bessere Benutzererfahrung
Es gibt jedoch noch eine weitere große Verbesserung in der Produktlinie von Anthropic. Sie heißt Artifacts und bezieht sich nicht auf die Leistungsfähigkeit der LLMs, sondern auf die Benutzererfahrung und die Integration der LLMs.
Artifacts: Effizientes Arbeiten mit Dokumenten und Code
Die Idee von Artifacts ist: Wenn Sie an einem Dokument oder einem Stück Code arbeiten, wird Claude Web Chat dieses Dokument in ein separates, praktisches Fenster ziehen. Dieses Dokument wird nun zu einer eigenen Entität, nicht nur zu einem Schnipsel, der im Web Chat wiederholt wird. Artifacts sind versioniert, und Sie können ordnungsgemäß an ihnen iterieren.
Das mag wie eine kleine Funktion erscheinen, aber zusammen mit Claude 3.5 Sonnet wird es zu einem enormen Produktivitätsschub, der es lohnenswert macht, Claude Chat anstelle von ChatGPT zu verwenden, wenn man mit Dokumenten und Code-Snippets arbeitet.
Kleine, effiziente Modelle werden immer besser
Im letzten Monat haben wir mehrere lokale LLMs getestet. Dabei gab es einige angenehme Überraschungen:
So zum Beispiel Google Gemma 7B Instruct. Dieses Google-Modell wird oft kritisiert, weil es zu eingeschränkt und begrenzt sei.
Doch das OpenChat-3.5 Fine-Tuning dieses Modells offenbart die wahren Fähigkeiten und stellt dieses 7B-Modell über die erste Version von GPT-3.5.
Es wird gemunkelt, dass GPT-3.5 etwa 20-175B Parameter hatte, und dieses kleine 7B-Modell (das auf einem Laptop laufen kann) schafft es, es zu übertreffen! Das Fortschrittstempo ist beeindruckend.
Tatsächlich ist das einzige lokale LLM, das besser als dieses Modell (in unseren Benchmarks) abschneidet, das Qwen1.5-32B-Modell von AliBaba. Dieses Modell hat jedoch eine nicht standardmäßige Lizenz und benötigt mehr als viermal so viele Ressourcen zum Laufen.
Wie Sie auf dem Bild sehen können, gibt es bereits viele 7B-Modelle mit einer Leistung, die mit frühen Versionen von GPT-3.5 vergleichbar ist. Basierend auf den Trends wird der Fortschritt nicht einfach dort enden.
Schlechter abschneidende Modelle
Nicht alle lokalen Modelle schneiden in unserem Benchmark so gut ab. Hier sind einige, die schlecht abschnitten (meistens, weil sie selbst grundlegenden Anweisungen nicht genau folgen konnten):
- Yi 1.5 34B Chat
- Google Recurrent Gemma 9B IT
- Microsoft Phi 3 Mini/Medium
- Google Gemma 2B/7B
Apple Privacy Model und Confidential Computing
In seiner jüngsten Ankündigung hat Apple begonnen, mehr KI-Funktionen für sein Ökosystem einzuführen. Einer der interessantesten Aspekte war das Konzept des Private Cloud Compute.
Im Wesentlichen wird das iPhone ein kleines und effizientes LLM-Modell verwenden, um alle eingehenden Anfragen zu bearbeiten. Dieses LLM ist nicht sehr leistungsfähig und vergleichbar mit modernen 7B-Modellen. Es ist jedoch schnell und verarbeitet alle Anfragen auf sichere Weise lokal.
Besonders interessant wird es, wenn das LLM-gesteuerte System erkennt, dass es mehr Rechenleistung benötigt, um die Anfrage zu bearbeiten.
In diesem Fall hat es zwei Optionen:
Es kann den Benutzer um Erlaubnis bitten, die spezifische Anfrage an OpenAI GPT zu senden.
Es kann die Anfrage auf sichere Weise an eine von Apple verwaltete Private Cloud Compute weiterleiten.
Was ist Private Cloud Compute?
Es handelt sich um ein geschütztes Apple-Rechenzentrum, das eigene Chips verwendet, um leistungsstarke Large Language Models zu hosten. Diese Einrichtung bietet starke Garantien dafür, dass Ihre persönlichen Anfragen sicher bearbeitet werden und niemand, nicht einmal Apple, die Fragen und Antworten einsehen kann.
Dies wird durch eine Kombination aus spezieller Hardware, Verschlüsselung, gesicherten VM-Images und gegenseitiger Beglaubigung zwischen Software und Hardware erreicht. Letztendlich tun sie ihr Bestes, um es selbst für Apple oder Regierungen sehr schwierig und kostspielig zu machen, dieses System zu durchbrechen.
Bei Apple dreht sich alles um Unterhaltungselektronik, gibt es etwas Vergleichbares für Unternehmen?
Ja, das gibt es. Es nennt sich Confidential Computing. Das Konzept gibt es schon seit einiger Zeit (siehe das Confidential Computing Consortium), wurde aber erst kürzlich von Nvidia auf GPUs richtig angewendet. Nvidia führte es in der Hopper-Architektur (H100 GPUs) ein und eliminierte fast vollständig die Leistungseinbußen in der Blackwell-Architektur.
Das Konzept ist dasselbe wie bei Apples PCC:
Daten werden während der Übertragung und im Ruhezustand verschlüsselt
Daten werden während der Berechnungszeit entschlüsselt
Hardware und Software sind so gestaltet, dass es unmöglich (wirklich schwierig und teuer) ist, die Daten während der Entschlüsselung anzusehen.
Große Cloud-Anbieter testen bereits VMs mit vertraulicher GPU-Berechnung (z. B. Microsoft Azure mit H100 seit 2023, Google Cloud mit H100 seit 2024).
Dieser Ansatz ist interessant, weil er Unternehmen, die ein sicheres LLM-gesteuertes System aufbauen müssen, eine dritte Option bietet:
Optionen | Garantien | Investitionen im Voraus | Kosten für den Betrieb |
---|---|---|---|
OpenAI von Microsoft | Mittel. Nicht jeder mag es, Daten an Dritte zu senden. Aber viele nutzen bereits MS Office | Keine | Hoch - wir zahlen pro Anfrage |
Unser eigenes Rechenzentrum mit GPUs | Sehr hoch - Daten bleiben innerhalb unseres Sicherheitsbereichs. | Enorm - GPUs sind teuer, die Lieferzeiten sind ebenfalls lang. | Niedrig |
Mieten von vertraulicher GPU-Berechnung | Hoch - es gibt viele Garantien, dass unsere Daten vor allen anderen geschützt werden. | Niedrig - wir können nach Bedarf bezahlen | Hoch - wir zahlen pro Mietzeit |
Genau wie bei hybriden Clouds (sie waren früher ein großes Thema, sind aber heutzutage die Norm), können wir diese Optionen mischen und anpassen, um eine kosteneffektive und sichere Lösung zu finden, so wie es Apple mit PCC macht. Zum Beispiel:
Sie haben eine kleines lokales Deployment, das kostengünstige 7B-Modelle auf einer eigenen Hardware ausführt. Diese wird alle Anfragen lokal bearbeiten.
Wenn eine Benutzeranfrage eine leistungsfähigere KI/LLM benötigt und keine kritischen Informationen enthält, wird die Anfragen an Azure OpenAI weitergeleitet.
Wenn eine Benutzeranfrage sowohl sensibel ist als auch eine hohe GPU-Rechenleistung erfordert, dann wird an eine vertrauliche Berechnung in der Cloud ausgeführt.
Letztendlich, wenn die leistungsfähigen und vertraulichen Arbeitslasten konstant genug sind, könnte es sinnvoll sein, ein paar lokale und leistungsstarke GPUs hinzuzufügen, um sie zu bewältigen. Während der Spitzenzeiten können wir immer noch vertrauliche Berechnungen in der Cloud mieten.
Mit einem H100-Setup kann man selbst mit einer einzelnen GPU eine hohe Leistung erwarten, wenn man die richtige Software und das richtige Optimierungsprofil verwendet. Zum Beispiel kann man +20-50% Durchsatz mit Llama 3 8B bei fp16 erreichen, indem man das Backend von vLLM auf TensorRT-Backend mit Nvidia NIM-Setup umstellt.
Da die H100-Hardware auch fp8-Quantisierung unterstützt, können wir sogar +10-30% Leistung erzielen, indem wir von fp16 auf fp8 umstellen.
💡 Die Leistungssteigerungen hängen von der gesamten Kontextgröße, der Batchgröße und der Art der Arbeitslast ab.
Confidential Computing: Neue Wege der Zusammenarbeit ohne Offenlegung von Daten und Code
Wenn man das Konzept noch weiter vorantreibt, ermöglicht Confidential Computing eine neue Form der Zusammenarbeit zwischen Unternehmen: Man kann eine mehrteilige Datenanalyse durchführen, ohne Daten und Code offenzulegen. Zum Beispiel können medizinische Unternehmen ihre Daten zusammenführen, um effizientere Behandlungsmethoden zu entwickeln, ohne dabei rohe private Daten untereinander preiszugeben.
Zusammenfassung
Apple hat großartige Arbeit geleistet, um dem Publikum die Konzepte des vertraulichen Rechnens zu erklären. Dies erhöht das Bewusstsein für eine weitere kostengünstige Möglichkeit, eine sichere, KI-gesteuerte Unternehmenslösung zu entwickeln.
Alle Zutaten für den Bau einer solchen Lösung sind bereits verfügbar:
Ressourceneffiziente LLMs, die lokal innerhalb des Sicherheitsperimeters betrieben werden können - Feinanpassungen von Llama 3 8B, Gemma und Mistral 7B.
Leistungsstarke Cloud-Modelle von renommierten Anbietern: GPT von OpenAI und Gemini von Google.
Neue Hardware, die starke Datenschutzgarantien bietet und gemietet werden kann.
Die Zeit wird zeigen, ob dieser Ansatz populärer wird.
Trustbit LLM Benchmarks Archiv
Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!