idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
24.04.2025 09:46

Weniger Rechenaufwand für zuverlässige KI-Antworten

Franziska Schmid Hochschulkommunikation
Eidgenössische Technische Hochschule Zürich (ETH Zürich)

    ETH-Forschende haben eine Methode entwickelt, die die Antworten einer KI laufend zuverlässiger macht. Ihr Algorithmus wählt dafür sehr gezielt die Daten aus. Zudem erreichen auch bis zu 40-mal kleinere KI die gleiche Output-Leistung wie die besten grossen KI.

    ChatGPT und Konsorten bringen uns mit der Treffsicherheit ihrer Antworten häufig zum Staunen, aber leider auch immer wieder zum Zweifeln. Das grosse Problem der mächtigen KI-Antwortmaschinen (künstliche Intelligenz): Sie servieren uns mit der gleichen Selbstverständlichkeit perfekte Antworten und offensichtlichen Nonsens. Eine der grossen Herausforderungen liegt darin, wie die den KI zugrundeliegenden grossen Sprachmodelle (LLM) mit Unsicherheit umgehen. Es war bis danhin sehr schwierig zu beurteilen, ob die auf Textverarbeitung und -erzeugung ausgerichteten LLMs ihre Antworten auf einem soliden Datenfundament generieren oder ob sie sich auf unsicherem Daten-Boden bewegen.

    Forschende vom Institut für maschinelles Lernen am Department für Informatik der ETH Zürich haben nun eine Methode entwickelt, mit der sich die Unsicherheit einer KI gezielt verringern lässt. «Unser Algorithmus kann das generelle Sprachmodell der KI gezielt mit zusätzlichen Daten aus dem jeweiligen Themenbereich einer Fragestellung anreichern. In Kombination mit der konkreten Frage können wir dann spezifisch jene Zusammenhänge aus den Tiefen des Modells und aus den Anreicherungsdaten hervorholen, aus denen sich mit grosser Wahrscheinlichkeit eine korrekte Antwort generieren lässt», erklärt Jonas Hübotter von der Learning & Adaptive Systems Group, der die neue Methode im Rahmen seines PhD-Studiums entwickelt hat.

    KI mit spezifischen Daten anreichern

    «Die Methode eignet sich besonders für Unternehmen, Wissenschaftlerinnen oder andere Anwender, die eine generelle KI in einem Spezialgebiet nutzen wollen, das von den Trainingsdaten der KI nur teilweise oder gar nicht abgedeckt wurde.» ergänzt Andreas Krause, der Leiter der Forschungsgruppe und Vorsteher des ETH AI Center.

    Die Anwender können dafür zum Beispiel ihre lokal gespeicherten Daten in ein grosses Sprachmodell (LLM) wie Llama einfliessen lassen. Der sogenannte SIFT-Algorithmus (Selecting Informative data for Fine-Tuning) der ETH-Informatiker kann dann aus den zusätzlich zur Verfügung gestellten Daten gezielt diejenigen Informationen heraussuchen, die einen möglichst engen Zusammenhang mit der Fragestellung aufweisen.

    Beziehungsvektoren im multidimensionalen Raum

    Um zusammenhängende Informationen zu finden, nutzt der Algorithmus die Struktur anhand der die Sprachinformationen im Large Language Model (LLM) der KI angeordnet sind. Die Modelle teilen die Sprachinformationen ihrer Trainingsdaten in Wortteile auf. Die Bedeutungs- und die Verwendungsbeziehungen zwischen den Wortteilen werden dann als Verbindungspfeile – fachsprachlich Vektoren - in einem vieldimensionalen Raum angeordnet. Die bis zu mehreren tausend Dimensionen des Raums entstehen dabei aus den Beziehungsparametern, die das LLM während dem Training mit den generellen Daten selbständig identifiziert.

    Winkel als Mass des Zusammenhangs

    Beziehungs-Pfeile, die in diesem Vektorraum in die gleiche Richtung zeigen, weisen einen grossen Zusammenhang auf. Je grösser der Winkel zwischen zwei Vektoren ist, desto weniger haben zwei Informationseinheiten miteinander zu tun.

    Der SIFT-Algorithmus der ETH-Forschenden nutzt nun die Richtung des Beziehungsvektors der Input-Anfrage (Prompt), um diejenigen Informationsbeziehungen zu identifizieren, die einen engen Zusammenhang mit der Frage aufweisen aber sich gleichzeitig inhaltlich ergänzen. «Der Winkel zwischen den Vektoren entspricht der inhaltlichen Relevanz und wir können anhand der Winkel gezielt diejenigen Daten auswählen, welche die Unsicherheit verringern», führt Hübotter aus.

    Weniger Überlagerungen durch Redundanz

    Das bisher gebräuchlichste Vorgehen zur Auswahl der für die Antwort geeigneten Informationen, das sogenannte Nearest-Neighbor-Verfahren, tendiert demgegenüber dazu, vor allem vielfach vorhandene redundante Informationen anzusammeln. Der Unterschied zwischen den zwei Methoden wird am Beispiel eines Anfrage-Prompts deutlich, der aus mehreren Informationsteilen zusammengesetzt ist.

    Für die Beantwortung der zweiteiligen Frage «Wie alt ist Roger Federer und wie viele Kinder hat er?» sieht das Nearest-Neighbor-Verfahren ähnliche Informationen wie «Roger Federer ist 43 Jahre alt» und «Roger Federers Geburtstag ist der 8. August 1981» als gleichermassen relevant an. Informationen zu seinen Kindern, relevant für den zweiten Teil der Frage, fehlen mitunter. Sie werden von den in den Trainingsdaten der KI viel häufiger vorkommenden Geburtsdatumsinformationen überlagert. Der SIFT-Algorithmus berücksichtigt hingegen, inwieweit sich die einbezogenen Informationen ergänzen, deren Informationsvektoren also in unterschiedliche Richtung zeigen. Dadurch lassen sich relevante Informationen für beide Teilaspekte der Frage identifizieren.

    Zuverlässigere Antworten mit viel kleineren Modellen

    Die gezielte Informationsauswahl verbessert aber nicht nur die Antwortwortqualität. Sie lässt sich auch zur Verringerung des immer grösser werdenden Rechenaufwands von KI-Anwendungen nutzen. Durch die indirekte Messung der Unsicherheit kann beispielsweise das Modell selbst entscheiden, wie viele Daten noch nötig sind, um eine hinreichend zuverlässige Antwort geben zu können. Der Rechenaufwand einer LLM lässt sich so systematisch an die Komplexität der Frage und die Verfügbarkeit relevanter Informationen anpassen

    Da SIFT die Gewichtung der Pfeilrichtungen während der Datenauslese laufend dynamisch an seine Berechnungen adaptiert, wird zudem das angereicherte Modell im Verlauf der Nutzung immer zuverlässiger. Dieses sogenannte Training im Betrieb kann dazu genutzt werden, um mit kleineren Modellen die gleiche Output-Leistung zu erreichen. «In Tests mit Standard-Datensätzen haben wir mit einem SIFT-Tuning die besten aktuellen KI selbst mit bis zu 40-mal kleineren Modellen übertroffen», unterstreicht Hübotter.

    Zusatznutzen relevanter Daten identifizieren

    Zusätzliche Anwendungsmöglichkeiten des SIFT-Algorithmus eröffnen sich für die Bewertung von Daten, wie Krause ausführt: «Wir können nachverfolgen, welche der Anreicherungsdaten durch SIFT ausgewählt werden. Sie stehen in einem engen Zusammenhang mit der Fragestellung und sind darum in diesem Themenbereich überdurchschnittlich relevant. Dies könnte unter anderem in der Medizin genutzt werden, um beispielsweise zu untersuchen, welche Laboranalysen oder welche Messergebnisse bei einer spezifischen Diagnose bedeutsam sind, und welche weniger.»

    Seinen Ansatz stellt Hübotter derzeit an der «International Conference on Learning Representations» (ICLR) in Singapur vor. Bereits im Dezember gewannen die ETH-Forschenden für ihre Methode den Preis für den besten wissenschaftlichen Artikel an der «NeurIPS Annual Conference on Neural Information Processing Systems» (NeurIPS) am Workshop “Finetuning in Modern Machine Learning”.


    Wissenschaftliche Ansprechpartner:

    Jonas Hübotter, ETH Zürich, jonas.huebotter(at)inf.ethz.ch


    Originalpublikation:

    Hübotter, J, Bongni, S, Hakimi, I, Krause, A. Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs. In: Proc. International Conference on Learning Representations (ICLR), 2025. DOI: https://doi.org/10.48550/arXiv.2410.08020 (Preprint-Publikation auf ArXive)


    Weitere Informationen:

    https://ethz.ch/de/news-und-veranstaltungen/eth-news/news/2025/04/dank-training-...


    Bilder

    Merkmale dieser Pressemitteilung:
    Journalisten, Studierende, Wissenschaftler, jedermann
    Elektrotechnik, Informationstechnik
    überregional
    Forschungsergebnisse, Forschungsprojekte
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).