idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
02/09/2026 17:26

Effiziente „Horizonterweiterung“ für Chatbots: Sequenzmodelle profitieren von dosierter Nichtlinearität

Andrea Knierriem Presse- und Öffentlichkeitsarbeit
Ernst Strüngmann Institute (ESI) gGmbH of the Max Planck Society

    - Chatbots wie ChatGPT basieren auf Machine Learning-gesteuerten Sequenzmodellen
    - Für die Qualität der Anwendungen ist die Art des Modells entscheidend
    - Forschende belegen: bei der Verarbeitung kontextbezogener Zusammenhänge übertrafen Modelle mit dosierter Nichtlinearität rein lineare und vollständig nichtlineare Modelle
    - Die Integration dosierter Nichtlinearität wird als allgemein nützliches Designprinzip für daten-effiziente Sequenzmodelle angesehen
    - Für die Analyse neuronaler Aufzeichnungen sind die Ergebnisse ebenfalls relevant: hier können kombinierte Modelle nicht nur Verhalten vorhersagen, sondern auch grundlegende Berechnungsprinzipien des Gehirns aufzeigen

    Frankfurt am Main, 09. Februar 2026

    Regenschirm oder Sonnenhut? Aktien kaufen oder verkaufen? In Fragen wie diese vertrauen weite Personenkreise heute auf KI-gestützte Empfehlungen. Chatbots wie ChatGPT, KI-gesteuerte Wettervorhersagen oder Finanzmarktprognosen basieren auf Machine Learning-gesteuerten Sequenzmodellen. Für die Qualität dieser Anwendungen ist es daher entscheidend, welche Art von Sequenzmodell zum Einsatz kommt und wie sich solche Modelle weiter optimieren lassen.

    Lineare Sequenzmodelle können kontextbezogene Zusammenhänge nicht verarbeiten

    Eine zentrale Rolle spielt dabei die Linearität und Nichtlinearität der Modelle. Lineare Sequenzmodelle verarbeiten Informationen nach dem Prinzip der Proportionalität: Die Reaktion auf einen Input ist immer direkt proportional zu seiner Stärke, ähnlich dem Prinzip "Wie der Wind, so die Welle". Nichtlineare Modelle hingegen können komplexere, kontextabhängige Zusammenhänge abbilden: Sie können dieselbe Information je nach Situation völlig unterschiedlich verarbeiten. Ein einfaches Beispiel: Ob das Wort "Bank" als Geldinstitut oder Sitzgelegenheit interpretiert wird, hängt vom Kontext ab, und solch eine bedingte Unterscheidung können lineare Modelle nicht leisten.

    Neben der Ergebnis-Qualität spielt die Trainingseffizienz eine maßgebliche Rolle

    Diese Fähigkeit zur kontextabhängigen Verarbeitung macht nichtlineare Modelle so mächtig für komplexe Aufgaben wie Sprachverständnis oder Mustererkennung. Aber braucht man wirklich überall im Modell Nichtlinearität, oder reicht diese vielleicht an gezielten Stellen aus? Denn neben der Qualität der Ergebnisse spielt auch die Trainingseffizienz eine maßgebliche Rolle. Sowohl lineare Modelle als auch Transformer (die Architektur hinter dem "T" in ChatGPT) erlauben paralleles Training, bei dem viele Informationen gleichzeitig verarbeitet werden können, was die Skalierung auf riesige Datenmengen erst möglich gemacht hat. Doch während lineare Modelle sich günstig trainieren lassen, ist das Training großer Transformer-Modelle extrem kosten- und energieintensiv: Weltweit werden riesige Serverfarmen für KI-Training gebaut, mit gigantischem Energieverbrauch als Folge. Das Optimum wäre ein smarter Mittelweg: Ein Modell, das die Vorteile des parallelen Trainings nutzt, aber ohne die enormen Kosten vollständig nichtlinearer Architekturen.

    Wieviel Nichtlinearität ist zielführend?

    Zentral ist also die Frage, wie Nichtlinearität innerhalb von Sequenzmodellen zielführend eingesetzt werden kann. Das haben Wissenschaftler:innen des Ernst Strüngmann Instituts in Frankfurt sowie am Interdisziplinären Zentrum für Wissenschaftliches Rechnen an der Universität Heidelberg herausgefunden.

    Die Frage ist stark aufgabenabhängig: Manche Probleme erfordern mehr, andere weniger Komplexität. Die zentrale Erkenntnis der Forschung: Es lohnt sich, eine sinnvolle Balance zu finden. Um dies systematisch zu untersuchen, testeten die Forschenden ihre Modelle an einer breiten Palette von Aufgaben: von Textklassifizierung über Bilderkennung bis hin zu kognitiven Benchmarks aus der computergestützten Neurowissenschaft. Diese Vielfalt ermöglichte es, zu unterscheiden, welche Aufgaben Nichtlinearität wirklich funktional benötigen und welche sich bereits durch weitgehend lineare Prozesse lösen lassen.

    Das überraschende Ergebnis: Modelle mit dosierter Nichtlinearität, bei denen nur ein Teil des Modells (der „Neuronen“ im neuronalen Netzwerk) nichtlinear arbeitet, übertrafen sowohl rein lineare als auch vollständig nichtlineare Modelle in vielen Szenarien. Besonders deutlich zeigte sich dieser Vorteil bei begrenzten Datenmengen: Hier waren die spärlich-nichtlinearen Modelle klar überlegen. Aber auch bei größeren Datenmengen blieben sie wettbewerbsfähig. Der Grund: Die nichtlinearen Einheiten fungieren als flexible Schalter, die kontextabhängig zwischen verschiedenen linearen Verarbeitungsmodi umschalten.

    Wertvolle Erkenntnisse auch für die Neurowissenschaft

    Ein entscheidender Vorteil dosierter nichtlinearer Modelle liegt in ihrer Interpretierbarkeit. Weil die Nichtlinearität auf wenige Einheiten beschränkt ist, konnten die Forschenden nachvollziehen, wo und wie das Modell diese einsetzt. Das macht die Architektur besonders wertvoll für die Neurowissenschaft: Bei der Analyse neuronaler Aufzeichnungen können die Modelle nicht nur Verhalten vorhersagen, sondern auch offenlegen, welche Berechnungsprinzipien dem Gehirn zugrunde liegen. Die Ergebnisse zeigen in diesem Zusammenhang ein konsistentes Muster: Gedächtnis wird oft über langsame lineare Dynamiken implementiert, während rechnerische Operationen durch gezielte nichtlineare Mechanismen realisiert werden.
    Damit legen die Forschenden einerseits einen Ansatz zur Erklärung neurowissenschaftlicher Messung vor. Andererseits schlagen sie darüber hinaus bezüglich der Optimierung von Sequenzmodellen im Rahmen des Machine Learning vor, die Integration dosierter Nichtlinearität als allgemein nützliches Designprinzip für moderne, dateneffiziente Sequenzmodelle anzusehen.


    Original publication:

    Brenner, M., Koppe, G. (2026). Uncovering the Computational Roles of Nonlinearity in
    Sequence Modeling Using Almost-Linear RNNs. Transactions on Machine Learning Research (01/2026), https://openreview.net/forum?id=qI2Vt9P9rl


    Images

    Machine Learning: Dosierte Nichtlinearität in Sequenzmodellen verbessert die Ergebnisqualität und Trainingseffizienz
    Machine Learning: Dosierte Nichtlinearität in Sequenzmodellen verbessert die Ergebnisqualität und Tr ...

    Copyright: Ernst Strüngmann Institute, Frankfurt


    Criteria of this press release:
    Journalists, Scientists and scholars
    Biology, Information technology, Media and communication sciences, Psychology, Social studies
    transregional, national
    Research results, Transfer of Science or Research
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).