August 2023

Benchmarks für ChatGPT & Co:

Ein weißes tablet das eine Tabelle zeigt, welche die Werte für das Large Language Model Leaderboard für den August 2023 zeigt

Monatlich aktualisiert: Das Trustbit LLM Leaderboard bietet Ihnen einen aktuellen Vergleich verschiedener Large Language Models wie ChatGPT und mehr, um deren Eignung für den Einsatz in der Produktentwicklung zu bewerten.

Trustbit Leaderboard
August 2023

model
code
crm
docs
integrate
marketing
reason
final

OpenAI GPT4 v2-0613 💰
85
94
100
67
88
60
82

OpenAI GPT4 v1-0314 💰
76
97
89
67
75
76
80

Claude v1 💰
62
77
69
58
88
61
69

OpenAI GPT3.5 v2-0613 💰
49
77
84
83
84
39
69

Open Models
46
62
62
100
84
22
63

Llama2 13B Nous Hermes q5_K_M ✅
46
62
62
100
56
21
58

Claude v2 💰
38
58
41
67
82
51
56

Claude v1 instant 💰
72
54
47
67
55
17
52

Vicuna v1.1 13B q4_1
30
45
57
83
71
19
51

Vicuna v1.1 13B q8_0
31
45
52
42
84
16
45

Vicuna v1.3 13B q5_1
36
51
47
50
61
19
44

Vicuna v1.1 13B q5_1
31
45
42
33
84
18
42

Puffin v1.3 13B q5_K_M ✅
28
48
53
33
25
22
35

Wizard Vicuna 13B Unlocked q5_K_M
22
39
53
33
56
0
34

Llama2 13B Guanaco q5_1 ✅
19
42
62
17
38
0
30

Llama 7B q8_0
25
30
28
25
50
0
26

Llama 13B q5_1
34
9
38
17
44
9
25

Llama2 7B chat ✅
7
33
11
17
62
14
24

Llama2 7B chat Unlocked q8_0 ✅
14
33
33
33
25
0
23

Llama2 13B chat q8_0 ✅
7
33
17
0
66
11
22

Open Llama 7B instruct q8_0
16
17
38
17
22
14
21

Llama 13B q2_K
0
5
47
33
25
0
19

Llama2 7B ✅
18
0
0
0
0
0
3

Die Benchmark-Kategorien im Detail

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
Kann das Modell Code generieren und bei der Programmierung helfen?

Neuste Versionen von ChatGPT, Anthropic Claude und Meta LlaMA auf dem Markt

Seit der Veröffentlichung des Trustbit Juli-Rankings gab es mehrere interessante Neuheiten.

OpenAI hat neue Versionen von ChatGPT (v0613) herausgebracht, die Effizienzsteigerungen und JavaScript-function calling conventions bieten.
Anthropic hat die zweite Ausgabe von Claude veröffentlicht - den engsten kommerziellen Konkurrenten von OpenAI ChatGPT.
Meta hat die zweite Generation von LLaMA - Llama v2 - eingeführt.

Jede dieser Veröffentlichungen verspricht bedeutsame Verbesserungen in den Fähigkeiten großer Sprachmodelle. Wir haben für Sie analysiert, ob sich ein Upgrade jedoch wirklich lohnt und was es zu beachten gibt.

OpenAI ChatGPT-4 0613: kann upgegradet werden

In unseren Tests schneidet die neue Version von ChatGPT-4 etwas besser ab als die vorherige Version. Sie hat einen spürbaren Geschwindigkeitsschub erhalten, die Leistung bei Aufgaben im Zusammenhang mit Code und Marketing hat sich signifikant verbessert. Allerdings ist gleichzeitig die Fähigkeit zur Schlussfolgerung und zur Arbeit mit Dokumenten leicht gesunken.

Wenn Sie die bestmögliche Leistung von Ihrem wissensorientierten Unternehmensassistenten herausholen möchten, könnte es sich lohnen, bei der Migration vorsichtig vorzugehen.

Anthropic Claude v2 hat in unseren Tests spürbar schlechter abgeschnitten. Es scheint, als wäre er darauf abgestimmt worden, ein besseres Chat-Bot zu sein, auf Kosten der Produktfähigkeiten.

Wenn möglich, empfehlen wir, Claude v1 weiterhin zu verwenden, bis die zweite Version sich weiter verbessert.

Anthropic Claude v2:
nicht upgraden

Meta Llama v2:
upgrade empfohlen

Das Llama v2-Modell ist ein offenes Modell von Meta (Facebook) mit einer kommerziell großzügigen Lizenz. Diese Lizenz macht das Modell endlich für ernsthafte Projekte nutzbar.

Llama v2 sollte ein besseres Modell sein. Allerdings performt das Basismodell signifikant schlechter als das Basismodell von v1. Die Hauptursache dafür ist, dass es ebenfalls zu gesprächig ist und sensibel auf Promts reagiert. Das Basismodell dominiert die unteren Ränge unserer Rangliste.

Doch bei offenen Modellen bedeuten schlechte Ergebnisse nicht das Ende der Geschichte. Sie können von der Community weiter trainiert werden.

Nous Research hat ihre eigene feinabgestimmte Version von Llama v2 veröffentlicht, die Nous Hermes genannt wird. Hermes übertrifft nicht nur Vicuna, sondern holt auch Claude v2 ein.

Was ist ein Leaderboard?

Ein Leaderboard ist eine Rangliste oder Tabelle, die verschiedene Elemente, Personen oder Produkte basierend auf bestimmten Kriterien miteinander vergleicht und ordnet. Es dient dazu, eine übersichtliche Darstellung der Leistung oder Eigenschaften der aufgeführten Elemente zu bieten und ermöglicht es den Betrachtern, schnell zu erkennen, welche Elemente an der Spitze stehen oder am besten abschneiden.

Wobei hilft mir das Trustbit LLM Leaderboard?

Das LLM Leaderboard von Trustbit hilft Ihnen dabei, das aktuell optimalste Large Language Model für den Einsatz im Bereich Produktentwicklung zu finden. Die von uns erstellte Scoring-Liste basiert auf realen Benchmarks, die wir aus von uns entwickelten Softwareprodukten extrahiert haben. Sie bewertet die Fähigkeiten der verschiedenen LLM-Modelle, spezifische Aufgaben in der Produktentwicklung zu erfüllen.

Welche Kategorien werden verglichen?

Folgende Kategorien stehen Ihnen zur Verfügung, um die Fähigkeiten der unterschiedlichen Modelle zu bewerten:

Dokumente: Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
CRM: Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
Integration: Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
Marketing: Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
Schlussfolgerungen: Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
Code: Kann das Modell Code generieren und bei der Programmierung helfen?

Sie möchten mehr über den Einsatz von ChatGPT und Co erfahren?

Dann freuen wir uns, von Ihnen zu hören.

christoph.hasenzagl@trustbit.tech

+43 664 88454881