Eine verblüffende mathematische Idee könnte zwei Hardware-Probleme der Künstlichen Intelligenz (KI) lösen
Forschenden der Technischen Universität (TU) Berlin ist es gelungen, ein „neuronales Netz“ aus Tausenden von Nervenzellen in einem Computer zu simulieren – und zwar erstmals mit nur einem einzigen, im Softwarecode programmierten Neuron. Dieses wird zeitlich versetzt angesteuert und ausgelesen und kann so innerhalb von Sekundenbruchteilen die Rollen aller virtuellen Neuronen einnehmen. Auf diese Weise entsteht eine völlig neue Klasse von neuronalen Netzen, deren Neuronen nicht im Raum verteilt sind, sondern in der Zeit. Damit wären in Zukunft völlig neue Lösungen denkbar, um künstliche Neuronen direkt in Hardware-Komponenten zu integrieren, etwa mit Hilfe optoelektronischer Bauelemente. Zudem könnte mit dieser Methode KI-Hardware klimaschonender rechnen, weil sie nicht so viel Strom verbraucht. Die Ergebnisse wurden nun als „Editors’ Highlight“ in der Zeitschrift Nature Communications veröffentlicht.
In unseren Gehirnen sorgen etwa 86 Milliarden Nervenzellen dafür, dass wir verglichen mit dem übrigen Tierreich außergewöhnliche geistige Leistungen vollbringen können. Diese Neuronen sind durch Synapsen miteinander verbunden und kommunizieren durch elektrische und chemische Signalübertragung in einem riesigen Netzwerk miteinander. Schon seit Jahrzehnten entwerfen Forschende künstliche neuronale Netze, die wie das menschliche Vorbild „lernen“ können, indem sich die Verbindungen zwischen einzelnen Neuronen unterschiedlich stark ausbilden. Welche Neuronen mit welchen besonders gut kommunizieren, hängt von der jeweiligen Aufgabenstellung ab, für die das neuronale Netz trainiert wurde. Es kann nach dem Training zum Beispiel Objekte erkennen, Bilder in bestimmte Klassen einteilen oder selbstständig Texte erstellen.
Ein Training, so klimaschädlich wie 700.000 Kilometer mit dem Auto
„Unsere Forschung adressiert zwei Beschränkungen, mit denen die heutigen neuronalen Netze konfrontiert sind“, sagt PD Dr. Serhiy Yanchuk, Leiter der Arbeitsgruppe Angewandte Dynamische Systeme an der TU Berlin. Das sei zum einen der hohe Stromverbrauch von neuronalen Netzen, die in Supercomputern simuliert werden. So zeigte eine Studie der Universität von Kopenhagen, dass nur ein einziger Trainingszyklus für eines der aktuell besten KI-Programme zur Spracherzeugung so viel Strom verbraucht, wie dem CO2-Äquivalent von 700.000 mit dem Auto gefahrenen Kilometern entspricht [1]. Wird solch ein KI-Programm nach dem Training industriell – also sehr oft – eingesetzt, kann der Gesamt-Stromverbrauch hierfür noch höher liegen [2]. „Auf der anderen Seite gibt es auch neuronale Netze, deren Neuronen als reale physikalische Systeme aufgebaut werden“, erklärt Yanchuk. „Diese können als rein elektrische Halbleiter-Bauelemente oder auch mit Hilfe von optischen Technologien auf der Basis von Lasern realisiert werden. Und da gibt es natürlich Grenzen in Bezug auf die Anzahl dieser Hardware-Neuronen und die Verbindungen zwischen ihnen.“ Während es in Supercomputern bereits möglich ist, Milliarden von Neuronen zu programmieren, erreichen die jüngsten Hardware-Implementierungen bisher nur eine Anzahl von einigen Tausend künstlichen Nervenzellen.
Ein einzelner Gast bewerkstelligt alle Tischgespräche
Die Lösung für diese beiden Herausforderungen könnte nach der Idee der TU-Forscher darin liegen, nur ein einzelnes Neuron zu verwenden, das durch zeitverzögertes Ansteuern und Auslesen (In- und Output) nacheinander die Rollen aller Neuronen im neuronalen Netz einnimmt. So wie ein einzelner Gast die Konversation einer großen Tischgesellschaft simulieren könnte, in dem er oder sie sich blitzschnell von einem Stuhl auf den anderen setzt und alle Gesprächsbeiträge einfach selber spricht. Spezielle Verzögerungsleitungen nehmen dafür den Zustand des Neurons auf, modulieren ihn in geeigneter Weise und senden das daraus resultierende verzögerte Signal zurück. „Dass das prinzipiell möglich ist, haben wir jetzt im Computer gezeigt. Für eine Realisierung in Hardware kämen vor allem laserbasierte Schaltungen in Frage, weil diese so schnell sind, dass die Zeitverzögerungen besonders kurz ausfallen“, erklärt Florian Stelzer, der Erstautor der Studie. Die normalerweise räumliche Distanz zwischen zwei Neuronen im Netzwerk würde bei diesem Konzept also durch eine zeitliche Verschiebung ersetzt. „Die für das Training erforderliche Möglichkeit, die Stärke der einzelnen neuronalen Verbindungen zu beeinflussen, kann man hier durch eine zusätzliche Manipulation der Zeitverzögerungen erreichen“, erläutert Stelzer.
Weniger Aufwand und geringerer Energieverbrauch
Dass es die Hardware-Implementierung erleichtert, wenn nur noch ein Neuron wirklich physikalisch gefertigt werden muss, liegt auf der Hand. Dass ihre Methode auch den Energieverbrauch von künstlichen neuronalen Netzen senken könnte, schließen die Forscher aus Ergebnissen anderer Wissenschaftler*innen, die auf dem Gebiet des sogenannten Time-Delay Reservoir Computing arbeiten. Dabei wird irgendein physikalisches System (das „Reservoir“) mit einem Eingangssignal belegt und das Ausgangssignal über eine Feedback-Schleife wieder als Eingangssignal eingespielt. Nutzt man diese Methode für Berechnungen, so erreicht man häufig eine gute Performance und einen geringeren Energieverbrauch als mit herkömmlichen Software-Lösungen.
Aufgabe: Kleidungsstücke erkennen
„Unser System ist quasi eine Erweiterung des Reservoir-Computing mit einer künstlichen Nervenzelle als Herzstück“, sagt Stelzer. „Sie ist letztlich nichts anderes als eine mathematische, sogenannte nicht-lineare Funktion, die wir genau definieren können.“ Neu sei, dass durch die veränderbaren Zeitverzögerungen Lernen möglich werde. „Zudem können wir in unserer Konfiguration erstmals die verschiedenen Netzebenen eines tiefen neuronalen Netzes simulieren.“ Das Ergebnis nennen die Forschenden ein „Folded-in-time Deep Neural Network“ (Fit-DNN). Im Computer hat es bereits eine für neuronale Netze typische Aufgabe bewältigt: Es konnte Bilder von Kleidungsstücken, die durch überlagertes Rauschen unkenntlich gemacht wurden, wieder rekonstruieren.
Auch völlig neue Einsichten wären möglich
Ihren Erfolg schreiben die Forschenden auch der Tatsache zu, dass Sie in einem interdisziplinären Team aus Mathematiker*innen, Physiker*innen und Informatiker*innen gearbeitet haben. Beteiligt waren dabei Forschende von der Universität von Tartu in Estland sowie der Universität von Palma de Mallorca, Spanien. Neben den konkreten praktischen Verbesserungen von KI-Systemen könnte die weitere Untersuchung der neuen „zeitgefalteten“ neuronalen Netzwerke auch noch zusätzliche Einsichten bringen. Mache man nämlich die Zeitverzögerung, die zwischen zwei zeitlich direkt „benachbarten“ Neuronen liegt, immer kleiner, könne man theoretisch unendlich viele Neuronen erzeugen, erklärt Serhiy Yanchuk. „Das ist eine ganz neue Eigenschaft der zeitgefalteten Netze, die im Prinzip einen Übergang von diskreten, einzelnen Knoten in den Netzen zu einer Art Kontinuum möglich macht. Was sich daraus ergibt, ist allerdings noch völlig offen.“ Mehrere internationale Arbeitsgruppen aus Physik und Computerwissenschaft haben bereits angekündigt, die neuen neuronalen Netze so schnell wie möglich auch als Hardware-Schaltung umsetzen zu wollen.
Link zur aktuellen Veröffentlichung von Stelzer et al. in der Fachzeitschrift Nature Communications, „Deep neural networks using a single neuron: folded-in-time architecture using feedback-modulated delay loops“:
https://doi.org/10.1038/s41467-021-25427-4
Quellen:
[1] „Carbontracker: Tracking and Predicting the Carbon Footprint of Training Deep Learning Models“: https://arxiv.org/abs/2007.03051
[2] „Accounting for the Neglected Dimensions of AI Progress“: https://arxiv.org/abs/1806.00610
Weitere Informationen erteilen Ihnen gern:
Florian Stelzer
Technische Universität Berlin
Fachgebiet Angewandte Dynamische Systeme
Tel.: +49 (30) 314-25104 (Sekretariat MA 4-5)
E-Mail: stelzer@math.tu-berlin.de
PD Dr. Serhiy Yanchuk
Technische Universität Berlin
Arbeitsgruppe Angewandte Dynamische Systeme
E-Mail: yanchuk@math.tu-berlin.de
Merkmale dieser Pressemitteilung:
Journalisten, Wirtschaftsvertreter, Wissenschaftler
Energie, Informationstechnik, Mathematik, Meer / Klima, Physik / Astronomie
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).