BIKI: Sprachmodelle: Unterschied zwischen den Versionen
(→Kosten) |
|||
(13 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 30: | Zeile 30: | ||
* Geschwindigkeit: Hoch | * Geschwindigkeit: Hoch | ||
* Weitere Informationen: [https://platform.openai.com/docs/models/gpt-4o-mini Beschreibung des Modells von OpenAI (englisch)] | * Weitere Informationen: [https://platform.openai.com/docs/models/gpt-4o-mini Beschreibung des Modells von OpenAI (englisch)] | ||
'''ChatGPT o3-mini''' | |||
Dieses Sprachmodell von OpenAI wurde im Januar 2025 veröffentlicht. Es ist im Gegensatz zum ''4o mini''-Modell ein sogn. ''reasoning model'' | |||
* Kosten: Mittel | |||
* Generelle Leistungsfähigkeit (Größe): Als Reasoning Modell kann es komplexe Aufgaben lösen, ein Beispiel findet sich in der [https://blogs.uni-bielefeld.de/blog/biki/entry/ein-weiteres-reasoning-modell-in Meldung im BIKI Blog] | |||
* Aktualität: Oktober 2023 | |||
* Größe des Kontextfensters: 200.000 Tokens | |||
* Geschwindigkeit: Langsam | |||
* Besonderheit: Die [[BIKIEinstellungen|Temperatureinstellung]] spielt bei diesem Modell keine Rolle | |||
* Weitere Informationen: [https://openai.com/index/openai-o3-mini/ Beschreibung des Modells von OpenAI (englisch)] | |||
=== Von der GWDG betriebene Sprachmodelle === | === Von der GWDG betriebene Sprachmodelle === | ||
Zeile 51: | Zeile 62: | ||
* Geschwindigkeit: schnell | * Geschwindigkeit: schnell | ||
==== Llama 3. | ==== Llama 3.3 (70B) ==== | ||
Beschreibung des Herstellers:<blockquote>Llama 3.3 is a text-only 70B instruction-tuned model that provides enhanced performance relative to Llama 3.1 70B–and to Llama 3.2 90B when used for text-only applications. Moreover, for some applications, Llama 3.3 70B approaches the performance of Llama 3.1 405B. </blockquote> | |||
* Kosten: '''Aktuell keine''' | * Kosten: '''Aktuell keine''' | ||
* Hersteller: Meta | * Hersteller: Meta / [https://www.llama.com/docs/model-cards-and-prompt-formats/llama3_3/ Herstellerwebseite] | ||
* Generelle Leistungsfähigkeit (Größe): Dies ist die große Variante der Llama 3. | * Generelle Leistungsfähigkeit (Größe): Dies ist die große Variante der Llama 3.3 Sprachmodelle | ||
* Aktualität: Wurde | * Aktualität: Wurde im Dezember 2024 veröffentlicht, Trainingsdaten bis Dezember 2023 | ||
* Größe des Kontextfensters: 128.000 Tokens | * Größe des Kontextfensters: 128.000 Tokens | ||
* Geschwindigkeit: | * Geschwindigkeit: hoch | ||
==== Qwen2.5 (72B) ==== | |||
* Kosten: '''Aktuell keine''' | * Kosten: '''Aktuell keine''' | ||
* Hersteller: Alibaba | * Hersteller: Alibaba | ||
* Generelle Leistungsfähigkeit (Größe): | * Generelle Leistungsfähigkeit (Größe): Dies ist die große Variante der Qwen2.5 Sprachmodelle | ||
* Aktualität: Wurde im [https://qwenlm.github.io/blog/qwen2/ | * Aktualität: Wurde im [https://qwenlm.github.io/blog/qwen2.5/ September 2024] veröffentlicht | ||
* Größe des Kontextfensters: 128.000 Tokens | * Größe des Kontextfensters: 128.000 Tokens | ||
* Geschwindigkeit: mittel | * Geschwindigkeit: mittel | ||
==== | ==== Mistral Large ==== | ||
*Kosten: '''Aktuell keine''' | |||
*Hersteller: Mistral AI | |||
* Generelle Leistungsfähigkeit (Größe): Dies ist ein großes Sprachmodell | |||
* Aktualität: Wurde im [https://mistral.ai/news/mistral-large/ Februar 2024] zuerst veröffentlicht | |||
* Größe des Kontextfensters: 32.000 Tokens | |||
* Geschwindigkeit: eher langsam | |||
==== Codestral 22B ==== | |||
*Kosten: '''Aktuell keine''' | |||
*Hersteller: Mistral AI | |||
* Generelle Leistungsfähigkeit (Größe): Dieses Sprachmodell ist auf die Codegenerierung spezialisiert | |||
* Aktualität: Wurde im [https://mistral.ai/news/codestral/ Mai 2024] zuerst veröffentlicht | |||
* Größe des Kontextfensters: 32.000 Tokens | |||
* Geschwindigkeit: schnell | |||
==== DeepSeek R1 Distill Llama 70B ==== | |||
*Hersteller: | *Kosten: '''Aktuell keine''' | ||
* Generelle Leistungsfähigkeit (Größe): | *Hersteller: DeepSeek / [https://github.com/deepseek-ai/DeepSeek-R1 Herstellerwebseite] | ||
* Generelle Leistungsfähigkeit (Größe): Dieses Sprachmodell ist ein sogenanntes ''reasoning model'', welches 'Schlußfolgerungen' aus einem vorherigen 'Denkprozess' zieht. Weitere Information zu ''reasoning models'' und inhaltlichen Beschränkungen dieses Modells [https://blogs.uni-bielefeld.de/blog/biki/entry/neue-sprachmodelle-in-biki-darunter#mainSection finden sich hier] | |||
* Größe des Kontextfensters: | * Aktualität: Wurde im Januar 2025 zuerst veröffentlicht, die Trainingsdaten reichen wie Juli 2024 | ||
* Größe des Kontextfensters: 128.000 Tokens | |||
* Geschwindigkeit: | * Geschwindigkeit: langsam | ||
== Archivierte Sprachmodelle == | == Archivierte Sprachmodelle == | ||
Diese Modelle wurden früher in BIKI angeboten: | |||
* Qwen2: Wurde am 28.10.2024 durch das 2.5 Modell abgelöst | |||
* Llama 3.1 (70B): Wurde am 29.01.2025 durch das 3.3 Modell abgelöst | |||
* Llama 3 (8B) und Llama 3 (70B): Wurden am 21.08.2024 durch die 3.1 Modelle abgelöst | * Llama 3 (8B) und Llama 3 (70B): Wurden am 21.08.2024 durch die 3.1 Modelle abgelöst | ||
Referenzen darauf können weiterhin in alten Konversationen auftauchen. | |||
== Eigenschaften von Sprachmodellen == | == Eigenschaften von Sprachmodellen == | ||
Zeile 107: | Zeile 122: | ||
Da BIKI verschiedene Betreiber*innen von Sprachmodellen nutzt gibt es aber durchaus Unterschiede zum Beispiel bei der Frage, ob die eingegebenen Daten Deutschland bzw. die EU verlassen, oder nicht. | Da BIKI verschiedene Betreiber*innen von Sprachmodellen nutzt gibt es aber durchaus Unterschiede zum Beispiel bei der Frage, ob die eingegebenen Daten Deutschland bzw. die EU verlassen, oder nicht. | ||
=== Generelle Leistungsfähigkeit (Größe) === | === Generelle Leistungsfähigkeit (Größe) === | ||
Zeile 117: | Zeile 129: | ||
Bitte beachten Sie aber, dass Sprachmodelle generell nicht zuverlässig sind bei der fehlerfreien Wiedergabe von Fakten. Lesen Sie dazu auch den Artikel '[https://blogs.uni-bielefeld.de/blog/biki/entry/warum-halluzinierst-du-biki Warum halluzinierst Du, BIKI?]' im ''Frag BIKI'' Blog. | Bitte beachten Sie aber, dass Sprachmodelle generell nicht zuverlässig sind bei der fehlerfreien Wiedergabe von Fakten. Lesen Sie dazu auch den Artikel '[https://blogs.uni-bielefeld.de/blog/biki/entry/warum-halluzinierst-du-biki Warum halluzinierst Du, BIKI?]' im ''Frag BIKI'' Blog. | ||
=== Trainingsdaten === | |||
Sprachmodelle werden auf großen Mengen von Trainingsdaten aufgebaut. Die Datengrundlage variiert dabei stark, zum Beispiel beim Umfang der zum Training verwendeten deutsch-sprachigen Texte. Manche Modelle, die im Englischen sehr gut funktionieren, können auf deutschsprachigen Anfragen deutlich schlechtere Ergebnisse zeigen. | |||
=== Inhaltliche Zensur === | |||
Mit Erscheinen der Sprachmodelle von DeepSeek - siehe [https://blogs.uni-bielefeld.de/blog/biki/entry/neue-sprachmodelle-in-biki-darunter diese Meldung] - entstand eine intensive, öffentliche Diskussion über die Frage, in wie weit der Hersteller oder in diesem Fall chinesische Behörden Einfluss auf die Trainingsdaten bzw. das Antwortverhalten der Sprachmodelle genommen haben. | |||
Generell ist es durch die Intransparenz der Funktionsweise von Sprachmodellen nicht ohne weiteres möglich zu erkennen, in wie weit z. B. bei der Auswahl der zum Training eines Modells verwendeten Daten oder bei der Optimierung des Antwortverhaltens Einfluss in die eine oder andere Richtung genommen wurde. | |||
Diesen Aspekt muss man zusätzlich zum [https://blogs.uni-bielefeld.de/blog/biki/entry/warum-halluzinierst-du-biki Problem des Halluzinierens] berücksichtigen, wenn man die Antworten von Sprachmodellen bewertet. | |||
=== Aktualität / Reichweite des Wissensstands === | === Aktualität / Reichweite des Wissensstands === | ||
Zeile 135: | Zeile 157: | ||
=== Geschwindigkeit === | === Geschwindigkeit === | ||
Sprachmodelle haben immer eine gewisse Wartezeit bzw. Generierungsgeschwindigkeit, da die Ergebnisse bei jeder Anfrage neu erzeugt werden. Je nach Größe, Anbieter und Komplexität kann es hier zu unterschiedlichen Wartezeiten / Geschwindigkeiten kommen. | Sprachmodelle haben immer eine gewisse Wartezeit bzw. Generierungsgeschwindigkeit, da die Ergebnisse bei jeder Anfrage neu erzeugt werden. Je nach Größe, Anbieter und Komplexität kann es hier zu unterschiedlichen Wartezeiten / Geschwindigkeiten kommen. | ||
Bei den ''reasoning models'' - zu denen das [https://blogs.uni-bielefeld.de/blog/biki/entry/neue-sprachmodelle-in-biki-darunter#mainSection DeepSeek R1 Modell] gehört - kommt noch die 'Nachdenkphase' hinzu, die das Antwortverhalten weiter verlangsamt. | |||
=== Berücksichtigung der Temperatur === | |||
In den [[BIKIEinstellungen|Einstellungen]] kann die sogn. Temperatur gesetzt werden, die die 'Kreativität' der Antwortgenerierung beeinflusst. Es gibt aber Modelle, bei denen die Einstellung keine Rolle spielt. |
Aktuelle Version vom 18. Februar 2025, 10:10 Uhr
Das Ziel von BIKI ist es verschiedene Sprachmodelle verfügbar zu machen. Sprachmodelle haben unterschiedliche Stärken, Schwächen und Kosten und durch die Wahl des Modells können Sie das Verhalten von BIKI beeinflussen. Zum Start werden dabei die ChatGPT Modelle von OpenAI angeboten und von der GWDG betriebene Open-Source-Modelle. Am Ende dieser Seite finden Sie eine Beschreibung dazu, worin sich Sprachmodelle unterscheiden können.
Verfügbare Sprachmodelle
Diese Modelle werden aktuell in BIKI angeboten:
Sprachmodelle von OpenAI
Die ChatGPT Sprachmodelle werden von dem US Unternehmen OpenAI angeboten und betrieben. In Hinblick auf den Datenschutz bedeutet dies, dass die in BIKI eingegebenen Daten an Server in den USA übertragen werden. Siehe dazu auch den Abschnitt 'Datenschutz' weiter unten.
ChatGPT 4o
Dieses Sprachmodell von OpenAI wurde im Mai 2024 veröffentlicht.
- Kosten: Potentiell hohe Kosten, insbesondere wenn umfangreiche Inhalte verarbeitet werden
- Generelle Leistungsfähigkeit (Größe): Ein sehr leistungsfähiges Modell
- Aktualität: Oktober 2023
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: Mittel
- Weitere Informationen: Beschreibung des Modells von OpenAI (englisch)
ChatGPT 4o mini
Dieses Sprachmodell von OpenAI wurde im Juli 2024 veröffentlicht.
- Kosten: Verspricht geringe Kosten, aber umfangreiche Inhalte können auch hier die Kosten treiben
- Generelle Leistungsfähigkeit (Größe): Ein leistungsfähiges Modell
- Aktualität: Oktober 2023
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: Hoch
- Weitere Informationen: Beschreibung des Modells von OpenAI (englisch)
ChatGPT o3-mini
Dieses Sprachmodell von OpenAI wurde im Januar 2025 veröffentlicht. Es ist im Gegensatz zum 4o mini-Modell ein sogn. reasoning model
- Kosten: Mittel
- Generelle Leistungsfähigkeit (Größe): Als Reasoning Modell kann es komplexe Aufgaben lösen, ein Beispiel findet sich in der Meldung im BIKI Blog
- Aktualität: Oktober 2023
- Größe des Kontextfensters: 200.000 Tokens
- Geschwindigkeit: Langsam
- Besonderheit: Die Temperatureinstellung spielt bei diesem Modell keine Rolle
- Weitere Informationen: Beschreibung des Modells von OpenAI (englisch)
Von der GWDG betriebene Sprachmodelle
Die Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) betreibt für wissenschaftliche Einrichtungen eine Reihe von Sprachmodellen. In Hinblick auf den Datenschutz bedeutet dies, dass die in BIKI eingegebenen Daten an Server in Deutschland übertragen und dort verarbeitet werden. Siehe auch die Nutzungsbedingungen (PDF) und die Datenschutzerklärung (PDF).
Die Sprachmodelle kommen dabei von unterschiedlichen Herstellern, aber auch wenn ein Sprachmodell ursprünglich zum Beispiel von Meta (Facebook) entwickelt wurde, so findet bei der Nutzung in BIKI über die GWDG keinerlei Datenübertragung an diese Hersteller statt.
Llama 3.1 (8B)
Beschreibung des Herstellers:
As part of this latest release, we’re introducing upgraded versions of the 8B and 70B models. These are multilingual and have a significantly longer context length of 128K, state-of-the-art tool use, and overall stronger reasoning capabilities. This enables our latest models to support advanced use cases, such as long-form text summarization, multilingual conversational agents, and coding assistants.
- Kosten: Aktuell keine
- Hersteller: Meta
- Generelle Leistungsfähigkeit (Größe): Dies ist die kleine Variante der Llama 3.1 Sprachmodelle
- Aktualität: Wurde im Juli 2024 veröffentlicht, Trainingsdaten bis Dezember 2023
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: schnell
Llama 3.3 (70B)
Beschreibung des Herstellers:
Llama 3.3 is a text-only 70B instruction-tuned model that provides enhanced performance relative to Llama 3.1 70B–and to Llama 3.2 90B when used for text-only applications. Moreover, for some applications, Llama 3.3 70B approaches the performance of Llama 3.1 405B.
- Kosten: Aktuell keine
- Hersteller: Meta / Herstellerwebseite
- Generelle Leistungsfähigkeit (Größe): Dies ist die große Variante der Llama 3.3 Sprachmodelle
- Aktualität: Wurde im Dezember 2024 veröffentlicht, Trainingsdaten bis Dezember 2023
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: hoch
Qwen2.5 (72B)
- Kosten: Aktuell keine
- Hersteller: Alibaba
- Generelle Leistungsfähigkeit (Größe): Dies ist die große Variante der Qwen2.5 Sprachmodelle
- Aktualität: Wurde im September 2024 veröffentlicht
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: mittel
Mistral Large
- Kosten: Aktuell keine
- Hersteller: Mistral AI
- Generelle Leistungsfähigkeit (Größe): Dies ist ein großes Sprachmodell
- Aktualität: Wurde im Februar 2024 zuerst veröffentlicht
- Größe des Kontextfensters: 32.000 Tokens
- Geschwindigkeit: eher langsam
Codestral 22B
- Kosten: Aktuell keine
- Hersteller: Mistral AI
- Generelle Leistungsfähigkeit (Größe): Dieses Sprachmodell ist auf die Codegenerierung spezialisiert
- Aktualität: Wurde im Mai 2024 zuerst veröffentlicht
- Größe des Kontextfensters: 32.000 Tokens
- Geschwindigkeit: schnell
DeepSeek R1 Distill Llama 70B
- Kosten: Aktuell keine
- Hersteller: DeepSeek / Herstellerwebseite
- Generelle Leistungsfähigkeit (Größe): Dieses Sprachmodell ist ein sogenanntes reasoning model, welches 'Schlußfolgerungen' aus einem vorherigen 'Denkprozess' zieht. Weitere Information zu reasoning models und inhaltlichen Beschränkungen dieses Modells finden sich hier
- Aktualität: Wurde im Januar 2025 zuerst veröffentlicht, die Trainingsdaten reichen wie Juli 2024
- Größe des Kontextfensters: 128.000 Tokens
- Geschwindigkeit: langsam
Archivierte Sprachmodelle
Diese Modelle wurden früher in BIKI angeboten:
- Qwen2: Wurde am 28.10.2024 durch das 2.5 Modell abgelöst
- Llama 3.1 (70B): Wurde am 29.01.2025 durch das 3.3 Modell abgelöst
- Llama 3 (8B) und Llama 3 (70B): Wurden am 21.08.2024 durch die 3.1 Modelle abgelöst
Referenzen darauf können weiterhin in alten Konversationen auftauchen.
Eigenschaften von Sprachmodellen
Die Modelle unterscheiden sich in ihren Eigenschaften und je nach Einsatzzweck kann das eine oder das andere Sprachmodelle das am besten geeignete sein:
Datenschutz
Generell bieten wir natürlich nur Sprachmodelle an, mit denen eine datenschutzkonforme Nutzung möglich ist. In unserer Datenschutzerklärung finden Sie Hinweise dazu, wie genau die jeweilige Vertragsgestaltung mit den Anbietern der Sprachmodelle aussieht. Sie sind bei der Nutzung trotzdem verpflichtet bei der Nutzung von BIKI die generellen Regelungen zum Datenschutz und zur Vertraulichkeit zu beachten.
Da BIKI verschiedene Betreiber*innen von Sprachmodellen nutzt gibt es aber durchaus Unterschiede zum Beispiel bei der Frage, ob die eingegebenen Daten Deutschland bzw. die EU verlassen, oder nicht.
Generelle Leistungsfähigkeit (Größe)
Die Modelle unterscheiden sich darin, mit wie vielen Daten sie trainiert und wie stark diese Daten verdichtet wurden (welcher Anteil der Trainingsdaten also nicht 1-zu-1 gespeichert wurde). Es ist nicht einfach dafür einen direkt verständlichen Parameter zu benennen, hier muss man selbst einen Eindruck davon gewinnen, wie gut ein bestimmtes Modell auf Fragestellungen reagiert.
Eine grobe Einschätzung ist über die Größe bzw. die Anzahl der sogn. Parameter eines Sprachmodells möglich: Mehr Parameter bedeuten normalerweise auch eine größer Leistungsfähigkeit bzw. eine bessere Faktentreue. Diese wird aber auch meist durch geringere Geschwindigkeit und höhere Nutzungskosten erkauft.
Bitte beachten Sie aber, dass Sprachmodelle generell nicht zuverlässig sind bei der fehlerfreien Wiedergabe von Fakten. Lesen Sie dazu auch den Artikel 'Warum halluzinierst Du, BIKI?' im Frag BIKI Blog.
Trainingsdaten
Sprachmodelle werden auf großen Mengen von Trainingsdaten aufgebaut. Die Datengrundlage variiert dabei stark, zum Beispiel beim Umfang der zum Training verwendeten deutsch-sprachigen Texte. Manche Modelle, die im Englischen sehr gut funktionieren, können auf deutschsprachigen Anfragen deutlich schlechtere Ergebnisse zeigen.
Inhaltliche Zensur
Mit Erscheinen der Sprachmodelle von DeepSeek - siehe diese Meldung - entstand eine intensive, öffentliche Diskussion über die Frage, in wie weit der Hersteller oder in diesem Fall chinesische Behörden Einfluss auf die Trainingsdaten bzw. das Antwortverhalten der Sprachmodelle genommen haben.
Generell ist es durch die Intransparenz der Funktionsweise von Sprachmodellen nicht ohne weiteres möglich zu erkennen, in wie weit z. B. bei der Auswahl der zum Training eines Modells verwendeten Daten oder bei der Optimierung des Antwortverhaltens Einfluss in die eine oder andere Richtung genommen wurde.
Diesen Aspekt muss man zusätzlich zum Problem des Halluzinierens berücksichtigen, wenn man die Antworten von Sprachmodellen bewertet.
Aktualität / Reichweite des Wissensstands
Sprachmodelle werden einmal trainiert und lernen dann nichts mehr dazu. Sie können also kein Wissen enthalten, welches nach dem Ende des Trainings erst entstanden ist. Hierfür gibt es den Begriff des 'Knowledge Cutoff Dates', den man im Deutschen mit Wissensstichtag" oder "Wissensstand-Datum" übersetzen kann.
Kein Sprachmodell kann daher Wissen über Ereignisse der letzten Wochen und Monate enthalten bzw. generell über Ereignisse, die nach diesem Stichtag passiert sind. Trotzdem wird ein Sprachmodell auf Fragen nach solchen Ereignissen antworten, als ob es davon Kenntnisse hätte, also 'halluzinieren'.
Größe des Kontextfensters (das Gedächtnis)
Sprachmodelle können die Inhalte einer Konversation für folgende Fragen verwenden (sich diese Inhalte also 'merken') und bei der Generierung neuer Antworten nutzen. Allerdings ist dieses Gedächtnis nicht unbegrenzt. Die Größe des sogenannten Kontextfensters definiert, in welchem Umfang die vorherige Konversation berücksichtigt werden kann.
Alle Inhalte einer Konversation, die nicht mehr in das Kontextfenster passen, sind faktisch 'vergessen' für das Sprachmodell. Die Größe wird dabei in sogn. Tokens festgelegt. Es ist nicht ganz einfach Tokens in Buchstaben oder Worte umzurechnen, als Faustformel kann von ca. 2 Tokens für ein Wort ausgehen. Von OpenAI gibt es hier eine Seite, in der man sich für einen gegebenen Text anzeigen lassen kann, wie dieser in Tokens unterteilt wird.
Kosten
Die Modelle werden von den Sprachmodellanbietern mit unterschiedlichen Kosten versehen. Zusätzlich fallen immer Kosten an für die Tokens, die zur Fortführung einer Konversation erneut an das Sprachmodell geschickt werden. Sprachmodelle mit einem großen Kontextfenster können hier also deutlich höhere Kosten pro Frage verursachen, da jedes Mal der gesamte Kontext mitgeschickt wird.
Eine genauere Behandlung des individuellen Nutzungskontingents und wie die Kosten der Modelle hier berechnet werden finden Sie in diesem Artikel.
Geschwindigkeit
Sprachmodelle haben immer eine gewisse Wartezeit bzw. Generierungsgeschwindigkeit, da die Ergebnisse bei jeder Anfrage neu erzeugt werden. Je nach Größe, Anbieter und Komplexität kann es hier zu unterschiedlichen Wartezeiten / Geschwindigkeiten kommen.
Bei den reasoning models - zu denen das DeepSeek R1 Modell gehört - kommt noch die 'Nachdenkphase' hinzu, die das Antwortverhalten weiter verlangsamt.
Berücksichtigung der Temperatur
In den Einstellungen kann die sogn. Temperatur gesetzt werden, die die 'Kreativität' der Antwortgenerierung beeinflusst. Es gibt aber Modelle, bei denen die Einstellung keine Rolle spielt.