Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Share on:

02/09/2026 17:26

Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Andrea Knierriem Presse- und Öffentlichkeitsarbeit
Ernst Strüngmann Institute (ESI) gGmbH of the Max Planck Society

- Chatbots wie ChatGPT basieren auf Machine Learning-gesteuerten Sequenzmodellen
- Für die Qualität der Anwendungen ist die Art des Modells entscheidend
- Forschende belegen: bei der Verarbeitung kontextbezogener Zusammenhänge übertrafen Modelle mit dosierter Nichtlinearität rein lineare und vollständig nichtlineare Modelle
- Die Integration dosierter Nichtlinearität wird als allgemein nützliches Designprinzip für daten-effiziente Sequenzmodelle angesehen
- Für die Analyse neuronaler Aufzeichnungen sind die Ergebnisse ebenfalls relevant: hier können kombinierte Modelle nicht nur Verhalten vorhersagen, sondern auch grundlegende Berechnungsprinzipien des Gehirns aufzeigen

Frankfurt am Main, 09. Februar 2026

Regenschirm oder Sonnenhut? Aktien kaufen oder verkaufen? In Fragen wie diese vertrauen weite Personenkreise heute auf KI-gestützte Empfehlungen. Chatbots wie ChatGPT, KI-gesteuerte Wettervorhersagen oder Finanzmarktprognosen basieren auf Machine Learning-gesteuerten Sequenzmodellen. Für die Qualität dieser Anwendungen ist es daher entscheidend, welche Art von Sequenzmodell zum Einsatz kommt und wie sich solche Modelle weiter optimieren lassen.

Lineare Sequenzmodelle können kontextbezogene Zusammenhänge nicht verarbeiten

Eine zentrale Rolle spielt dabei die Linearität und Nichtlinearität der Modelle. Lineare Sequenzmodelle verarbeiten Informationen nach dem Prinzip der Proportionalität: Die Reaktion auf einen Input ist immer direkt proportional zu seiner Stärke, ähnlich dem Prinzip "Wie der Wind, so die Welle". Nichtlineare Modelle hingegen können komplexere, kontextabhängige Zusammenhänge abbilden: Sie können dieselbe Information je nach Situation völlig unterschiedlich verarbeiten. Ein einfaches Beispiel: Ob das Wort "Bank" als Geldinstitut oder Sitzgelegenheit interpretiert wird, hängt vom Kontext ab, und solch eine bedingte Unterscheidung können lineare Modelle nicht leisten.

Neben der Ergebnis-Qualität spielt die Trainingseffizienz eine maßgebliche Rolle

Diese Fähigkeit zur kontextabhängigen Verarbeitung macht nichtlineare Modelle so mächtig für komplexe Aufgaben wie Sprachverständnis oder Mustererkennung. Aber braucht man wirklich überall im Modell Nichtlinearität, oder reicht diese vielleicht an gezielten Stellen aus? Denn neben der Qualität der Ergebnisse spielt auch die Trainingseffizienz eine maßgebliche Rolle. Sowohl lineare Modelle als auch Transformer (die Architektur hinter dem "T" in ChatGPT) erlauben paralleles Training, bei dem viele Informationen gleichzeitig verarbeitet werden können, was die Skalierung auf riesige Datenmengen erst möglich gemacht hat. Doch während lineare Modelle sich günstig trainieren lassen, ist das Training großer Transformer-Modelle extrem kosten- und energieintensiv: Weltweit werden riesige Serverfarmen für KI-Training gebaut, mit gigantischem Energieverbrauch als Folge. Das Optimum wäre ein smarter Mittelweg: Ein Modell, das die Vorteile des parallelen Trainings nutzt, aber ohne die enormen Kosten vollständig nichtlinearer Architekturen.

Wieviel Nichtlinearität ist zielführend?

Zentral ist also die Frage, wie Nichtlinearität innerhalb von Sequenzmodellen zielführend eingesetzt werden kann. Das haben Wissenschaftler:innen des Ernst Strüngmann Instituts in Frankfurt sowie am Interdisziplinären Zentrum für Wissenschaftliches Rechnen an der Universität Heidelberg herausgefunden.

Die Frage ist stark aufgabenabhängig: Manche Probleme erfordern mehr, andere weniger Komplexität. Die zentrale Erkenntnis der Forschung: Es lohnt sich, eine sinnvolle Balance zu finden. Um dies systematisch zu untersuchen, testeten die Forschenden ihre Modelle an einer breiten Palette von Aufgaben: von Textklassifizierung über Bilderkennung bis hin zu kognitiven Benchmarks aus der computergestützten Neurowissenschaft. Diese Vielfalt ermöglichte es, zu unterscheiden, welche Aufgaben Nichtlinearität wirklich funktional benötigen und welche sich bereits durch weitgehend lineare Prozesse lösen lassen.

Das überraschende Ergebnis: Modelle mit dosierter Nichtlinearität, bei denen nur ein Teil des Modells (der „Neuronen“ im neuronalen Netzwerk) nichtlinear arbeitet, übertrafen sowohl rein lineare als auch vollständig nichtlineare Modelle in vielen Szenarien. Besonders deutlich zeigte sich dieser Vorteil bei begrenzten Datenmengen: Hier waren die spärlich-nichtlinearen Modelle klar überlegen. Aber auch bei größeren Datenmengen blieben sie wettbewerbsfähig. Der Grund: Die nichtlinearen Einheiten fungieren als flexible Schalter, die kontextabhängig zwischen verschiedenen linearen Verarbeitungsmodi umschalten.

Wertvolle Erkenntnisse auch für die Neurowissenschaft

Ein entscheidender Vorteil dosierter nichtlinearer Modelle liegt in ihrer Interpretierbarkeit. Weil die Nichtlinearität auf wenige Einheiten beschränkt ist, konnten die Forschenden nachvollziehen, wo und wie das Modell diese einsetzt. Das macht die Architektur besonders wertvoll für die Neurowissenschaft: Bei der Analyse neuronaler Aufzeichnungen können die Modelle nicht nur Verhalten vorhersagen, sondern auch offenlegen, welche Berechnungsprinzipien dem Gehirn zugrunde liegen. Die Ergebnisse zeigen in diesem Zusammenhang ein konsistentes Muster: Gedächtnis wird oft über langsame lineare Dynamiken implementiert, während rechnerische Operationen durch gezielte nichtlineare Mechanismen realisiert werden.
Damit legen die Forschenden einerseits einen Ansatz zur Erklärung neurowissenschaftlicher Messung vor. Andererseits schlagen sie darüber hinaus bezüglich der Optimierung von Sequenzmodellen im Rahmen des Machine Learning vor, die Integration dosierter Nichtlinearität als allgemein nützliches Designprinzip für moderne, dateneffiziente Sequenzmodelle anzusehen.

Original publication:

Brenner, M., Koppe, G. (2026). Uncovering the Computational Roles of Nonlinearity in
Sequence Modeling Using Almost-Linear RNNs. Transactions on Machine Learning Research (01/2026), https://openreview.net/forum?id=qI2Vt9P9rl

Images

Machine Learning: Dosierte Nichtlinearität in Sequenzmodellen verbessert die Ergebnisqualität und Tr ...

Copyright: Ernst Strüngmann Institute, Frankfurt

Criteria of this press release:
Journalists, Scientists and scholars
Biology, Information technology, Media and communication sciences, Psychology, Social studies
transregional, national
Research results, Transfer of Science or Research
German

idw – Informationsdienst Wissenschaft

idw-News App:

Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Andrea Knierriem Presse- und Öffentlichkeitsarbeit
Ernst Strüngmann Institute (ESI) gGmbH of the Max Planck Society

Original publication:

idw-News App:

Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Andrea Knierriem Presse- und Öffentlichkeitsarbeit Ernst Strüngmann Institute (ESI) gGmbH of the Max Planck Society

Original publication:

Advanced Search

Extent of search

Date of publication

Help

Search / advanced search of the idw archives

Combination of search terms

Brackets

Phrases

Selection criteria

Andrea Knierriem Presse- und Öffentlichkeitsarbeit
Ernst Strüngmann Institute (ESI) gGmbH of the Max Planck Society