Benchmarks für ChatGPT & Co:
Oktober 2023
Unsere Oktober-Benchmarks wurden im Vergleich zur September-Ausgabe auf vielfältige Weise verbessert. Außerdem stellen wir ein neues, vielversprechendes Modell vor: Mistral 7b.
Benchmarks Oktober 2023
☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz
Model | Code | Crm | Docs | Integrate | Marketing | Reason | Final 🏆 | Cost | Speed |
---|---|---|---|---|---|---|---|---|---|
GPT-4 v1-0314 ☁️ | 85 | 88 | 95 | 52 | 88 | 50 | 76 | 7.18 € | 0.71 rps |
GPT-4 v2-0613 ☁️ | 85 | 83 | 95 | 52 | 88 | 50 | 75 | 7.18 € | 0.75 rps |
GPT-3.5 v2-0613 ☁️ | 62 | 79 | 76 | 75 | 81 | 48 | 70 | 0.35 € | 0.96 rps |
GPT-3.5-instruct 0914 ☁️ | 51 | 90 | 69 | 60 | 88 | 32 | 65 | 0.36 € | 2.35 rps |
GPT-3.5 v1-0301 ☁️ | 38 | 75 | 67 | 67 | 82 | 37 | 61 | 0.36 € | 1.76 rps |
Llama2 70B Hermes b8🦙 | 48 | 76 | 46 | 76 | 62 | 29 | 56 | 13.10 € | 0.13 rps |
Mistral 7B Instruct f16 ✅ | 36 | 77 | 61 | 44 | 62 | 18 | 50 | 0.42 € | 2.63 rps |
Llama2 70B chat b4🦙 | 13 | 51 | 53 | 29 | 64 | 21 | 39 | 4.06 € | 0.27 rps |
Llama2 13B Vicuna-1.5 f16🦙 | 36 | 25 | 27 | 18 | 77 | 36 | 36 | 0.78 € | 1.39 rps |
Llama2 13B Hermes f16🦙 | 32 | 15 | 25 | 51 | 56 | 39 | 36 | 0.57 € | 1.93 rps |
Llama2 13B Hermes b8🦙 | 31 | 18 | 23 | 44 | 56 | 39 | 35 | 3.65 € | 0.30 rps |
Llama2 70B chat b8🦙 | 1 | 53 | 34 | 27 | 71 | 21 | 35 | 10.24 € | 0.16 rps |
Llama2 13B chat f16🦙 | 0 | 38 | 15 | 30 | 75 | 8 | 27 | 0.64 € | 1.71 rps |
Llama2 13B chat b8🦙 | 0 | 38 | 8 | 30 | 75 | 6 | 26 | 4.01 € | 0.27 rps |
Llama2 7B chat f16🦙 | 7 | 33 | 23 | 26 | 38 | 15 | 24 | 0.69 € | 1.58 rps |
Llama2 13B Puffin f16🦙 | 14 | 6 | 0 | 5 | 54 | 0 | 13 | 1.71 € | 0.64 rps |
Llama2 13B Puffin b8🦙 | 16 | 3 | 0 | 5 | 47 | 0 | 12 | 7.94 € | 0.14 rps |
Mistral 7B f16 ✅ | 0 | 4 | 0 | 25 | 38 | 0 | 11 | 0.92 € | 1.19 rps |
Llama2 7B f16🦙 | 0 | 0 | 4 | 2 | 32 | 0 | 6 | 1.08 € | 1.01 rps |
Die Benchmark-Kategorien im Detail
-
Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?
-
Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?
-
Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?
-
Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?
-
Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?
-
Kann das Modell Code generieren und bei der Programmierung helfen?
-
Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.
-
Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.
Besonderheiten & Neuigkeiten der Oktober Benchmarks
9 Neue Benchmarks
Wir haben 9 neue Benchmarks in die Suite integriert. Diese Benchmarks konzentrieren sich auf die Bereiche "Documents", "Integration" und "Reason". Dadurch wird die Bewertung der Modellfähigkeiten präziser, und die Gesamtzahl der verschiedenen Bewertungen steigt von 85 auf 134.
Ein Beispiel hierfür sind Situationen, in denen große Sprachmodelle strukturierte Daten erstellen und verarbeiten.
In der Kategorie Integration testen wir nun die Fähigkeit von großen Sprachmodellen, Text in den Formaten CSV, TSV, JSON und YAML zu verstehen und zu manipulieren.
Ein weiteres Beispiel betrifft unsere Arbeit an Business-Assistenten und Informationssuchsystemen für Kunden. In solchen Fällen müssen große Sprachmodelle relevante Informationsstücke identifizieren, finden und bewerten. Unsere Bewertungen helfen dabei, verschiedene Aspekte dieser Fähigkeit zu messen.
Zusätzlich zu diesen neuen Bewertungen haben wir die Leistung einiger bestehender Bewertungen verbessert, indem wir Few-Shot-Beispiele und bessere Anfragen eingeführt haben. Die meisten großen Sprachmodelle reagieren darauf sehr positiv.
Mehr Guidance
Guidance ist ein Prozess, bei dem großen Sprachmodellen geholfen wird, gewünschte Texte zu generieren. Sie funktioniert, indem die Aufmerksamkeit des Modells auf bestimmte Textelemente (Tokens) gelenkt wird.
Mit zunehmender Erfahrung bei der Gewinnung besserer Ergebnisse von großen Sprachmodellen integrieren wir diese Erkenntnisse in die Benchmarks. Unsere Oktober-Version enthält bereits Anleitungen in einigen der Bewertungen und verbessert so die Leistung einiger Modelle noch weiter.
In den kommenden Monaten planen wir, noch tiefere Anleitungen für Modelle in aufgabenbezogenen Bereichen bereitzustellen.
Neues Modell mit beeindruckender Leistung: Mistral 7B
Mistral 7B ist ein neues Modell eines französischen KI-Unternehmens gleichen Namens. Obwohl es deutlich kleiner ist als die anderen Modelle, hat es die Basiskonfigurationen von Llama2 70B sowie alle Modelle mit den Größen 7B und 13B übertroffen.
Das ist wirklich beeindruckend. Es lohnt sich, in den nächsten Monaten mehr Aufmerksamkeit auf dieses Modell zu legen. Die Kosten- und Durchsatzmerkmale dieses Modells machen es noch attraktiver für lokale Implementierungen.
Ein weiteres Highlight dieses Modells ist, dass es unter der Apache-Lizenz veröffentlicht wurde, die verständlicher und weniger restriktiv ist als die Lizenz von Llama 2. Es gibt keine "Google"-Klauseln oder mögliche Verwirrungen hinsichtlich der Verwendung dieses Modells für nicht-englische Sprachen. Unsere Modellmarkierungen spiegeln diese Änderung in der Tabelle wider.
Trustbit LLM Benchmarks Archiv
Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!