BIKI: Sprachmodelle

Das Ziel von BIKI ist es verschiedene Sprachmodelle verfügbar zu machen. Sprachmodelle haben unterschiedliche Stärken, Schwächen und Kosten und durch die Wahl des Modells können Sie das Verhalten von BIKI beeinflussen. Angeboten werden dabei die ChatGPT Modelle von OpenAI und von der GWDG betriebene Open Weight-Modelle. Am Ende dieser Seite finden Sie eine Beschreibung dazu, worin sich Sprachmodelle unterscheiden können.

Dieser Modellkatalog ergänzt die direkt in BIKI enthaltenen Modellübersicht insbesondere im inhaltliche Hinweise. Die Kostenfaktoren der einzelnen Modelle finden Sie in der Modellübersicht direkt in BIKI, ebenso die Angaben zu Reasoningfähigkeit und Größe der Kontextfenster.

Verfügbare Sprachmodelle

Hier sehen Sie alle Modelle, die aktuell in BIKI angeboten werden. Einige Modelle sind nur für bestimmte Gruppen zugänglich, Fragen dazu beantwortet der BIS Support:

Sprachmodelle von OpenAI

Die ChatGPT Sprachmodelle werden von dem US Unternehmen OpenAI angeboten und betrieben und sind generell kostenpflichtig. In Hinblick auf den Datenschutz bedeutet dies, dass die in BIKI eingegebenen Daten an Server in den USA übertragen werden. Siehe dazu auch den Abschnitt 'Datenschutz' weiter unten.

Modellname	Maximale Antwortgröße (Tokens)	Aktualität	Geschwindigkeit	Anmerkungen zum Modell	Einschränkungen beim Zugang
ChatGPT 5.4	128.000	31. August 2025	Langsam	Beschreibung des Modells von OpenAI	-
ChatGPT 5.4 mini	128.000	31. August 2025	Mittel	Beschreibung des Modells von OpenAI	-
ChatGPT 5.4 nano	128.000	31. August 2025	Schnell	Beschreibung des Modells von OpenAI	-
ChatGPT 5.2 Chat	16.384	31. August 2025	Mittel	Beschreibung des Modells von OpenAI (englisch)	-
ChatGPT 5.2	128.000	31. August 2025	Langsam, soll aber den Denkaufwand und damit die Geschwindigkeit dynamisch anpassen. Über die Einstellung zum Denkaufwand kann dies beeinflusst werden	Beschreibung des Modells von OpenAI (englisch)	-
ChatGPT 5	128.000	30. September 2024	Langsam	Beschreibung des Modells von OpenAI (englisch)	-
ChatGPT 4o	-	Oktober 2023	Mittel	Beschreibung des Modells von OpenAI (englisch)	-
ChatGPT 4o mini	-	Oktober 2023	Hoch	Beschreibung des Modells von OpenAI (englisch)	-
ChatGPT 5.5 PRO	128,000	Dezember 2025	Potentiell sehr langsam, Antwortzeiten können viele Minuten betragen. ACHTUNG: Die Kosten sind SEHR hoch!	Beschreibung der 5.5er Modelle von OpenAI	Auf Grund der hohen Kosten seit dem 25.06.2026 auf Mitarbeitende beschränkt.

Von der GWDG betriebene Sprachmodelle

Die Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) betreibt für wissenschaftliche Einrichtungen eine Reihe von Sprachmodellen. In Hinblick auf den Datenschutz bedeutet dies, dass die in BIKI eingegebenen Daten an Server in Deutschland übertragen und dort verarbeitet werden. Siehe auch die Nutzungsbedingungen (PDF) und die Datenschutzerklärung (PDF).

Die Sprachmodelle kommen dabei von unterschiedlichen Herstellern, aber auch wenn ein Sprachmodell ursprünglich zum Beispiel von Meta (Facebook) entwickelt wurde, so findet bei der Nutzung in BIKI über die GWDG keinerlei Datenübertragung an diese Hersteller statt.

Modellname	Maximale Antwortgröße	Aktualität	Geschwindigkeit	Anmerkungen zum Modell	Besondere Hinweise	Einschränkungen beim Zugang
Apertus 70B	-	September 2025	schnell	Modellseite der ETH Zürich	-	-
Llama 3.1 (8B)	-	Juli 2024	schnell	Modellseite von Meta	-	-
Qwen 3 Coder Next	-	Juni 2025	schnell	Modellseite von Alibaba	-	-
Qwen 3.6 35B A3B	-	Frühjahr 2026	mittel	Modellseite von QwenAI	Diese Modell soll sich besonders gut Aufgaben in der Softwareentwicklung eignen	-
DeepSeek V4 Flash	-	April 2026	mittel	Informationen zur Previewversion von DeepSeek	Dieses Modell hat ein sehr großes Kontextfenster	-
OpenAI GPT OSS 120B	131.072	Januar 2024	schnell	Modellseite bei OpenAI	Auch wenn das Modell von OpenAI stammt wird es von der GWDG betrieben	-
Mistral Medium 3.5 128B	-	Unklar, Veröffentlichung war im Mai 2026	langsam	Meldung von Mistral zum Medium 3.5 Modell		-

Von der Technischen Fakultät betriebene Sprachmodelle

HINWEIS: Die Anbindung des Inferenzservers der AG Wissensrepräsentation und Maschinelles Lernen der Technischen Fakultät unter Leitung von Prof. Dr. Benjamin Paaßen befindet sich aktuell in der Experimentalphase und der Zugriff auf die Modelle ist aktuell nur für bestimmte Gruppen möglich:

Modellname	Maximale Antwortgröße	Aktualität	Geschwindigkeit	Anmerkungen zum Modell	Besondere Hinweise	Einschränkungen beim Zugang
Qwen 3.6 35B (UniBi)		Frühjahr 2026	Schnell	Modellseite von Alibaba	-	JA
Gemma 4 26B (UniBi)		Januar 2025	Schnell	Modellseite von Google	Das Modell hat ein vergleichsweise kleines Kontextfenster	JA

Archivierte Sprachmodelle

Diese Modelle wurden früher in BIKI angeboten:

Mistral Large 3 675B, DeepSeek R1 Distill Llama 70B und Qwen 3 Coder 30B: Wurden im Juli 2026 aus BIKI entfernt
Llama 3.3 (70B) und Gemma 3 27B: Wurden am 8. juni 2026 entfernt
ChatGPT o3-mini, ChatGPT 4.1, ChatGPT 4.1 mini, ChatGPT 4.1 nano, ChatGPT 5 Chat, ChatGPT 5.1, ChatGPT 5.1 Chat, ChatGPT 5 mini, ChatGPT 5 nano, Qwen3 (32B): Wurden im April 2026 aus BIKI entfernt
Qwen2.5 (72B): Wurde im März 2026 aus BIKI entfernt
Qwen2: Wurde am 28.10.2024 durch das 2.5 Modell abgelöst
Llama 3.1 (70B): Wurde am 29.01.2025 durch das 3.3 Modell abgelöst
Llama 3 (8B) und Llama 3 (70B): Wurden am 21.08.2024 durch die 3.1 Modelle abgelöst
Mistral Large: Wurde im August 2025 aus BIKI entfernt
Codestral 22B: Wurde im Oktober 2025 aus BIKI entfernt

Referenzen darauf können weiterhin in alten Konversationen auftauchen.

Eigenschaften von Sprachmodellen

Die Modelle unterscheiden sich in ihren Eigenschaften und je nach Einsatzzweck kann das eine oder das andere Sprachmodelle das am besten geeignete sein:

Datenschutz

Generell bieten wir natürlich nur Sprachmodelle an, mit denen eine datenschutzkonforme Nutzung möglich ist. In unserer Datenschutzerklärung finden Sie Hinweise dazu, wie genau die jeweilige Vertragsgestaltung mit den Anbietern der Sprachmodelle aussieht. Sie sind bei der Nutzung trotzdem verpflichtet bei der Nutzung von BIKI die generellen Regelungen zum Datenschutz und zur Vertraulichkeit zu beachten.

Da BIKI verschiedene Betreiber*innen von Sprachmodellen nutzt gibt es aber durchaus Unterschiede zum Beispiel bei der Frage, ob die eingegebenen Daten Deutschland bzw. die EU verlassen, oder nicht.

Generelle Leistungsfähigkeit (Größe)

Die Modelle unterscheiden sich darin, mit wie vielen Daten sie trainiert und wie stark diese Daten verdichtet wurden (welcher Anteil der Trainingsdaten also nicht 1-zu-1 gespeichert wurde). Es ist nicht einfach dafür einen direkt verständlichen Parameter zu benennen, hier muss man selbst einen Eindruck davon gewinnen, wie gut ein bestimmtes Modell auf Fragestellungen reagiert.

Eine grobe Einschätzung ist über die Größe bzw. die Anzahl der sogn. Parameter eines Sprachmodells möglich: Mehr Parameter bedeuten normalerweise auch eine größer Leistungsfähigkeit bzw. eine bessere Faktentreue. Diese wird aber auch meist durch geringere Geschwindigkeit und höhere Nutzungskosten erkauft.

Bitte beachten Sie aber, dass Sprachmodelle generell nicht zuverlässig sind bei der fehlerfreien Wiedergabe von Fakten. Lesen Sie dazu auch den Artikel 'Warum halluzinierst Du, BIKI?' im Frag BIKI Blog.

Reasoning Fähigkeit

In BIKI gibt es verschiedene Modell mit der sogn. Reasoning Fähigkeit. Im Blog haben wir hier eine Beschreibung dazu. Kurz gesagt legen Reasoning Modelle eine 'Nachdenkphase' ein, bevor sie ihre Antwort geben. Bei einigen Modellen kann man zuschauen, wie dieses Nachdenken aussieht. Durch die Nachdenkphase verbessert sich in einigen Fällen die Qualität der Antworten, dafür werden die Antworten langsamer generiert.

Reasoningmodelle ignorieren generell die Temperatureinstellung.

Trainingsdaten

Sprachmodelle werden auf großen Mengen von Trainingsdaten aufgebaut. Die Datengrundlage variiert dabei stark, zum Beispiel beim Umfang der zum Training verwendeten deutsch-sprachigen Texte. Manche Modelle, die im Englischen sehr gut funktionieren, können auf deutschsprachigen Anfragen deutlich schlechtere Ergebnisse zeigen.

Inhaltliche Zensur

Mit Erscheinen der Sprachmodelle von DeepSeek - siehe diese Meldung - entstand eine intensive, öffentliche Diskussion über die Frage, in wie weit der Hersteller oder in diesem Fall chinesische Behörden Einfluss auf die Trainingsdaten bzw. das Antwortverhalten der Sprachmodelle genommen haben.

Generell ist es durch die Intransparenz der Funktionsweise von Sprachmodellen nicht ohne weiteres möglich zu erkennen, in wie weit z. B. bei der Auswahl der zum Training eines Modells verwendeten Daten oder bei der Optimierung des Antwortverhaltens Einfluss in die eine oder andere Richtung genommen wurde.

Diesen Aspekt muss man zusätzlich zum Problem des Halluzinierens berücksichtigen, wenn man die Antworten von Sprachmodellen bewertet.

Aktualität / Reichweite des Wissensstands

Sprachmodelle werden einmal trainiert und lernen dann nichts mehr dazu. Sie können also kein Wissen enthalten, welches nach dem Ende des Trainings erst entstanden ist. Hierfür gibt es den Begriff des 'Knowledge Cutoff Dates', den man im Deutschen mit Wissensstichtag" oder "Wissensstand-Datum" übersetzen kann.

Kein Sprachmodell kann daher Wissen über Ereignisse der letzten Wochen und Monate enthalten bzw. generell über Ereignisse, die nach diesem Stichtag passiert sind. Trotzdem wird ein Sprachmodell auf Fragen nach solchen Ereignissen antworten, als ob es davon Kenntnisse hätte, also 'halluzinieren'.

Größe des Kontextfensters (das Gedächtnis)

Sprachmodelle können die Inhalte einer Konversation für folgende Fragen verwenden (sich diese Inhalte also 'merken') und bei der Generierung neuer Antworten nutzen. Allerdings ist dieses Gedächtnis nicht unbegrenzt. Die Größe des sogenannten Kontextfensters definiert, in welchem Umfang die vorherige Konversation berücksichtigt werden kann.

Alle Inhalte einer Konversation, die nicht mehr in das Kontextfenster passen, sind faktisch 'vergessen' für das Sprachmodell. Die Größe wird dabei in sogn. Tokens festgelegt. Es ist nicht ganz einfach Tokens in Buchstaben oder Worte umzurechnen, als Faustformel kann von ca. 2 Tokens für ein Wort ausgehen. Von OpenAI gibt es hier eine Seite, in der man sich für einen gegebenen Text anzeigen lassen kann, wie dieser in Tokens unterteilt wird.

Kosten

Die Modelle werden von den Sprachmodellanbietern mit unterschiedlichen Kosten versehen. Zusätzlich fallen immer Kosten an für die Tokens, die zur Fortführung einer Konversation erneut an das Sprachmodell geschickt werden. Sprachmodelle mit einem großen Kontextfenster können hier also deutlich höhere Kosten pro Frage verursachen, da jedes Mal der gesamte Kontext mitgeschickt wird.

Eine genauere Behandlung des individuellen Nutzungskontingents und wie die Kosten der Modelle hier berechnet werden finden Sie in diesem Artikel.

Geschwindigkeit

Sprachmodelle haben immer eine gewisse Wartezeit bzw. Generierungsgeschwindigkeit, da die Ergebnisse bei jeder Anfrage neu erzeugt werden. Je nach Größe, Anbieter und Komplexität kann es hier zu unterschiedlichen Wartezeiten / Geschwindigkeiten kommen.

Bei den reasoning models - zu denen das DeepSeek R1 Modell gehört - kommt noch die 'Nachdenkphase' hinzu, die das Antwortverhalten weiter verlangsamt.

Berücksichtigung der Temperatur

In den Einstellungen kann die sogn. Temperatur gesetzt werden, die die 'Kreativität' der Antwortgenerierung beeinflusst. Es gibt aber Modelle, bei denen die Einstellung keine Rolle spielt.

Fussnoten