idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Thema Corona

Imagefilm
Science Video Project
idw-News App:

AppStore



Teilen: 
07.04.2021 18:00

Schnellerer Sequenzabgleich für den gesamten Baum des Lebens

Sophia Jahns Presse- und Öffentlichkeitsarbeit
Max-Planck-Institut für Entwicklungsbiologie

    Eine Sequenzierungs-Suchmaschine für eine neue Ära von Conservation Genomics

    Ein Forscherteam vom Max-Planck-Institut für Entwicklungsbiologie in Tübingen und der Max Planck Computing and Data Facility in Garching entwickelt neue Suchmöglichkeiten, die Vergleiche des biochemischen Aufbaus verschiedener Arten in unterschiedlichen Zweigen des Baums des Lebens ermöglichen werden. Die Kombination von Präzision und Geschwindigkeit dieser Techniken war bislang unerreicht. Die Ergebnisse der Forscher erscheinen am 7. April in Nature Methods.

    Menschen haben viele Nukleotidsequenzen in ihren Genen mit anderen Arten gemeinsam; mit Schweinen ganz besonders viele, aber auch mit Mäusen und sogar Bananen. Dementsprechend können manche körpereigenen Proteine – Ketten von Aminosäuren, die gemäß dem Bauplan der Gene zusammengesetzt werden – ebenfalls mit Proteinen anderer Arten übereinstimmen oder ihnen ähneln. Diese Ähnlichkeiten können manchmal auf eine gemeinsame Abstammung hinweisen oder aber einfach dadurch entstanden sein, dass ein Merkmal oder eine molekulare Funktion zufällig für zwei Arten evolutionär nötig wurde.

    Den Goldstandard der vergleichenden Genomik übertreffen

    Doch herauszufinden, was man mit einem Schwein oder einer Banane gemeinsam hat, kann natürlich eine monumentale Aufgabe sein; das Durchsuchen einer Datenbank mit allen Informationen über den Menschen, das Schwein und die Banane ist sehr rechenintensiv. Forschende erwarten, dass die Genome von mehr als 1,5 Millionen Eukaryoten – und das beinhaltet alle Tiere, Pflanzen und Pilze – innerhalb des nächsten Jahrzehnts sequenziert werden. „Bereits jetzt, wo wir nur ein paar Hunderttausend Genome genau kennen (von denen die meisten klein sind und zu Bakterien oder Viren gehören), geht es um Datenbanken mit bis zu 270 Millionen Sequenzen. Die meisten derzeit verwendeten Suchmechanismen wären einfach impraktikabel, weil sie zu lange brauchten, um Daten von dem in naher Zukunft erwarteten Ausmaß zu analysieren,“ erklärt Hajk-Georg Drost, Leiter der Gruppe Computational Biology in der Abteilung Molekularbiologie des Max-Planck-Instituts für Entwicklungsbiologie in Tübingen. „Lange war der Goldstandard für derartige Analysen ein Werkzeug namens BLAST,“ erläutert Drost. „Wenn man nachvollziehen wollte, wie ein Protein dank natürlicher Auslese erhalten wurde oder wie es sich in unterschiedlichen phylogenetischen Linien entwickelt hat, gab BLAST die besten Treffer für Anfragen dieser Größenordnung. Es ist aber absehbar, dass die Datenbanken für umfassende BLAST-Suchen zu groß werden.“

    Die Nadel im Heuhaufen finden – aber schnell!

    Im Kern geht es um das Problem, einen Kompromiss zwischen Geschwindigkeit und Sensitivität finden zu müssen: Genau wie man bei der Ostereiersuche die kleineren oder besser versteckten Eier übersieht, wenn man nur schnell sucht, bringt eine beschleunigte Suche nach Ähnlichkeiten von Proteinsequenzen üblicherweise den Nachteil mit sich, dass einem manche der weniger offensichtlichen Treffer entgehen.
    „Deswegen haben wir vor einiger Zeit angefangen, den DIAMOND-Algorithmus zu entwickeln, in der Hoffnung, dass wir dadurch mit großen Datenmengen in überschaubarer Zeit umgehen können,“ erinnert sich Benjamin Buchfink, der in Drosts Forschergruppe als Doktorand mitarbeitet und seit 2013 mit der Entwicklung von DIAMOND befasst ist. „Das war auch der Fall; aber die Kehrseite war, dass uns manche entferntere evolutionäre Beziehungen entgingen.“ Anders gesagt: Während das ursprüngliche DIAMOND vielleicht sensitiv genug ist, um eine gegebene menschliche Aminosäuresequenz bei einem Affen aufzuspüren, ist es gegebenenfalls blind für eine ähnliche Sequenz in einer evolutionär weiter entfernten Art.

    Ein leistungsstarkes Werkzeug für künftige Forschung

    Während der alte DIAMOND-Suchalgorithmus nützlich für die Untersuchung von direkt aus Umweltproben extrahiertem genetischem Material war, benötigen andere Forschungsziele sensitivere Werkzeuge. Das Forscherteam aus Tübingen und Garching konnte nun DIAMOND so abändern und erweitern, dass es unter Beibehaltung der überlegenen Geschwindigkeit die Sensitivität von BLAST erreicht: mit dem verbesserten DIAMOND werden vergleichende Genomikuntersuchungen mit der Genauigkeit von BLAST, aber 80- bis 360-facher Geschwindigkeit möglich sein. „Außerdem ermöglicht DIAMOND nun, Sequenzabgleiche mit der Sensitivität von BLAST auf einem Supercomputer, einem Hochleistungs-Computercluster oder in der Cloud wirklich massivparallel durchzuführen,“ ergänzt Klaus Reuter von der Max Planck Computing and Data Facility. „Damit sind Sequenzabgleiche in extrem großem Maßstab in überschaubarer Zeit möglich.“
    Manche Suchanfragen, für die andere Werkzeuge zwei Monate auf einem Supercomputer brauchen würden, sind mit der neuen DIAMOND-Infrastruktur nun in einigen Stunden möglich. „In Hinblick auf das exponentielle Wachstum der Anzahl verfügbarer Genome ist die Geschwindigkeit und Genauigkeit von DIAMOND genau das, was die moderne Genomik braucht: Damit können wir von der Gesamtheit aller Genome lernen, statt uns durch den Mangel an sensitiven Suchkapazitäten auf nur eine kleine Zahl von Arten beschränken zu lassen,“ prognostiziert Drost. Das Team ist daher überzeugt, dass die Vorteile von DIAMOND sich in den nächsten Jahren vollumfänglich zeigen werden.


    Wissenschaftliche Ansprechpartner:

    Dr. Hajk-Georg Drost
    Max-Planck-Institut für Entwicklungsbiologie
    Abteilung Molekularbiologie
    Max-Planck-Ring 5
    72076 Tübingen
    Deutschland

    hajk-georg.drost@tuebingen.mpg.de
    +49 7071 601-444


    Originalpublikation:

    Sensitive tree-of-life scale protein alignments using DIAMOND. Nature Methods, Apr. 7 2021, DOI: 10.1038/s41592-021-01101-x


    Weitere Informationen:

    https://dx.doi.org/10.1038/s41592-021-01101-x


    Merkmale dieser Pressemitteilung:
    Journalisten, jedermann
    Biologie, Informationstechnik
    überregional
    Forschungsergebnisse, Wissenschaftliche Publikationen
    Deutsch


    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).