idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
05/27/2024 09:53

Online-Suche 2.0: KI macht komplexe Seiteninhalte für die Web-Suche zugänglich

Jeremy Gob DFKI Kaiserslautern | Darmstadt
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, DFKI

    Ein Team von Forschenden am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) hat es sich zur Aufgabe gemacht, die Welt der Online-Recherche auf ein neues Level zu heben. Gemeinsam mit Google arbeitet Sven Schmeier vom Bereich Speech and Language Technology am DFKI aktuell daran, die individuellen Strukturen und Informationsnetze von Unternehmens-Webseiten für Suchmaschinen erschließbar zu machen. Große Sprachmodelle (LLMs) sollen dafür eine robuste textuelle Repräsentation der Websites erstellen – welche die Antwort auf nahezu jede erdenkliche Frage liefern kann.

    “Sovereign Cloud: Secure integration of business expert knowledge into large language models”, heißt das ambitionierte Projekt der Forschenden um Sven Schmeier. „Das Ziel ist zu erforschen, inwieweit es möglich ist, Webseiten so zu erschließen und in ein RAG (Retrieval Augmented Generation) System einzubetten, dass es möglich ist, komplexe Fragen über diese Webseiten zu stellen“, erklärt der Experte für KI-Sprachtechnologien.

    KI ermittelt Seiteninhalt und bereitet Informationen auf

    Mittels RAG soll ein Sprachmodell so optimiert werden, dass es auf Informationen außerhalb der eigenen Trainingsdaten referieren, und diese in eine Beantwortung mit einfließen lassen kann. Im Fall des Projekts sollen dafür die entsprechenden Webseiten als Wissensquellen fungieren.

    Wenn das Projekt den Vorstellungen entsprechend gelingt, sind Antworten auf Fragen wie „Aus welchen Ländern kommen die MA, die Computerlinguistik studiert haben und an Speech Recognition arbeiten?“ nur noch eine Fingerübung für die DFKI-Technologie. Sie eröffnet also unter anderem die Möglichkeiten auf Basis der website-spezifischen RAGs Dinge zu erfahren, die ansonsten kaum ersichtlich oder kombinierbar sind.

    Ein weiterer Vorteil: „Die Websites werden so automatisch barrierefrei, denn sie können in sehr vielen Sprachen, per Text, Sprache, Bild etc. und in vereinfachter Sprache präsentiert werden“, meint Schmeier. Gleichzeitig würde die Pflege von Webseiten um ein Vielfaches unkomplizierter werden.

    Echte Antworten

    Herkömmliche Suchmaschinen geben Dokumente als Ergebnisse an die suchende Person zurück. RAGs wiederum geben wirkliche Antworten – allerdings sind viele Probleme, die bei RAGs aus Websites auftauchen, bislang ungelöst.

    Der Lösungsansatz der Forschenden am DFKI: „Durch die Art der Indizierung, also die Verwandlung der Website-Inhalte in die Inhalte des RAGs, können wir allgemeine Lösungen für die RAGs finden, die sich auch auf andere Quellen anwenden lassen“, erklärt Schmeier. Ermöglicht würde dies beispielsweise durch die explizite Berücksichtigung von Verweisen innerhalb von Dokumenten auf andere Dokumente.

    Schwierigkeiten innerhalb des Projekts

    Alle Informationen für entsprechende Suchanfragen erschließbar zu machen, scheint eine Mammutaufgabe, die so manche Hürden mit sich bringt. Selbst wenn seitens der AI-Anwendung alles glattläuft, so liegt die Schwierigkeit in der Individualität der Websites.

    „Beim Parsen der Websites, um eine robuste textuelle Repräsentation der Websites zu erstellen, gab es bisher anwendungsspezifische Herausforderungen“, berichten die Forschenden. Während der Arbeit im Projekt muss sich das Team um Sven Schmeier mit immer neuen Ausnahmen im Design und Layout von Websites auseinandersetzen.

    Auf dem Weg zur Lösung

    Geforscht wird aktuell an zwei Fronten. Einerseits an der Erstellung eines Benchmark-Datensatzes für Multi-Hop-Informationen Retrieval über Webinhalte – das heißt Rohwebsites. Andererseits werden Reasoning-Fähigkeiten der Open-Source LLMs zur Navigation von Webinhalten unter Verwendung eigener textueller Webrepräsentationen erprobt.

    Die aktuellen Zero-Shot-Tests zeigen jedoch, dass die genutzten Sprach-Modelle nicht die optimalen Aktionen basierend auf der Fragestellung/Webinhalt wählen. Darüber hinaus haben die Forschenden bereits wesentliche Unterschiede zwischen den Open-Source-LLMs Llama2 70b und GPT4 festgestellt.

    Die Suche nach einem passenden Sprachmodell geht also weiter. In einer nächsten Testreihe soll Gemini ultra 1.5 getestet werden – in der Hoffnung eine noch bessere, Performanz zu erreichen. Das von den Forschenden eigens erstellte Datenset sowie die verbesserten Reasoning-Fähigkeiten der Gemini-Modelle sollen im Tandem zu diesem Effekt beitragen.


    Contact for scientific information:

    Dr. Sven Schmeier, Mitarbeiter im Bereich Speech and Language Technology (DFKI),

    Sven.Schmeier@dfki.de
    +49 30 23895 1815


    More information:

    https://www.dfki.de/web/news/ki-fuer-die-cloud-dfki-und-google-erweitern-partner...


    Images

    Forscher sitzt an einem Schreibtisch mit mehreren Monitoren.
    Forscher sitzt an einem Schreibtisch mit mehreren Monitoren.

    DFKI


    Criteria of this press release:
    Journalists
    Economics / business administration, Information technology, Media and communication sciences
    transregional, national
    Cooperation agreements, Transfer of Science or Research
    German


     

    Forscher sitzt an einem Schreibtisch mit mehreren Monitoren.


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).