idw - Informationsdienst
Wissenschaft
Eine Sequenzierungs-Suchmaschine für eine neue Ära von Conservation Genomics
Ein Forscherteam vom Max-Planck-Institut für Entwicklungsbiologie in Tübingen und der Max Planck Computing and Data Facility in Garching entwickelt neue Suchmöglichkeiten, die Vergleiche des biochemischen Aufbaus verschiedener Arten in unterschiedlichen Zweigen des Baums des Lebens ermöglichen werden. Die Kombination von Präzision und Geschwindigkeit dieser Techniken war bislang unerreicht. Die Ergebnisse der Forscher erscheinen am 7. April in Nature Methods.
Menschen haben viele Nukleotidsequenzen in ihren Genen mit anderen Arten gemeinsam; mit Schweinen ganz besonders viele, aber auch mit Mäusen und sogar Bananen. Dementsprechend können manche körpereigenen Proteine – Ketten von Aminosäuren, die gemäß dem Bauplan der Gene zusammengesetzt werden – ebenfalls mit Proteinen anderer Arten übereinstimmen oder ihnen ähneln. Diese Ähnlichkeiten können manchmal auf eine gemeinsame Abstammung hinweisen oder aber einfach dadurch entstanden sein, dass ein Merkmal oder eine molekulare Funktion zufällig für zwei Arten evolutionär nötig wurde.
Den Goldstandard der vergleichenden Genomik übertreffen
Doch herauszufinden, was man mit einem Schwein oder einer Banane gemeinsam hat, kann natürlich eine monumentale Aufgabe sein; das Durchsuchen einer Datenbank mit allen Informationen über den Menschen, das Schwein und die Banane ist sehr rechenintensiv. Forschende erwarten, dass die Genome von mehr als 1,5 Millionen Eukaryoten – und das beinhaltet alle Tiere, Pflanzen und Pilze – innerhalb des nächsten Jahrzehnts sequenziert werden. „Bereits jetzt, wo wir nur ein paar Hunderttausend Genome genau kennen (von denen die meisten klein sind und zu Bakterien oder Viren gehören), geht es um Datenbanken mit bis zu 270 Millionen Sequenzen. Die meisten derzeit verwendeten Suchmechanismen wären einfach impraktikabel, weil sie zu lange brauchten, um Daten von dem in naher Zukunft erwarteten Ausmaß zu analysieren,“ erklärt Hajk-Georg Drost, Leiter der Gruppe Computational Biology in der Abteilung Molekularbiologie des Max-Planck-Instituts für Entwicklungsbiologie in Tübingen. „Lange war der Goldstandard für derartige Analysen ein Werkzeug namens BLAST,“ erläutert Drost. „Wenn man nachvollziehen wollte, wie ein Protein dank natürlicher Auslese erhalten wurde oder wie es sich in unterschiedlichen phylogenetischen Linien entwickelt hat, gab BLAST die besten Treffer für Anfragen dieser Größenordnung. Es ist aber absehbar, dass die Datenbanken für umfassende BLAST-Suchen zu groß werden.“
Die Nadel im Heuhaufen finden – aber schnell!
Im Kern geht es um das Problem, einen Kompromiss zwischen Geschwindigkeit und Sensitivität finden zu müssen: Genau wie man bei der Ostereiersuche die kleineren oder besser versteckten Eier übersieht, wenn man nur schnell sucht, bringt eine beschleunigte Suche nach Ähnlichkeiten von Proteinsequenzen üblicherweise den Nachteil mit sich, dass einem manche der weniger offensichtlichen Treffer entgehen.
„Deswegen haben wir vor einiger Zeit angefangen, den DIAMOND-Algorithmus zu entwickeln, in der Hoffnung, dass wir dadurch mit großen Datenmengen in überschaubarer Zeit umgehen können,“ erinnert sich Benjamin Buchfink, der in Drosts Forschergruppe als Doktorand mitarbeitet und seit 2013 mit der Entwicklung von DIAMOND befasst ist. „Das war auch der Fall; aber die Kehrseite war, dass uns manche entferntere evolutionäre Beziehungen entgingen.“ Anders gesagt: Während das ursprüngliche DIAMOND vielleicht sensitiv genug ist, um eine gegebene menschliche Aminosäuresequenz bei einem Affen aufzuspüren, ist es gegebenenfalls blind für eine ähnliche Sequenz in einer evolutionär weiter entfernten Art.
Ein leistungsstarkes Werkzeug für künftige Forschung
Während der alte DIAMOND-Suchalgorithmus nützlich für die Untersuchung von direkt aus Umweltproben extrahiertem genetischem Material war, benötigen andere Forschungsziele sensitivere Werkzeuge. Das Forscherteam aus Tübingen und Garching konnte nun DIAMOND so abändern und erweitern, dass es unter Beibehaltung der überlegenen Geschwindigkeit die Sensitivität von BLAST erreicht: mit dem verbesserten DIAMOND werden vergleichende Genomikuntersuchungen mit der Genauigkeit von BLAST, aber 80- bis 360-facher Geschwindigkeit möglich sein. „Außerdem ermöglicht DIAMOND nun, Sequenzabgleiche mit der Sensitivität von BLAST auf einem Supercomputer, einem Hochleistungs-Computercluster oder in der Cloud wirklich massivparallel durchzuführen,“ ergänzt Klaus Reuter von der Max Planck Computing and Data Facility. „Damit sind Sequenzabgleiche in extrem großem Maßstab in überschaubarer Zeit möglich.“
Manche Suchanfragen, für die andere Werkzeuge zwei Monate auf einem Supercomputer brauchen würden, sind mit der neuen DIAMOND-Infrastruktur nun in einigen Stunden möglich. „In Hinblick auf das exponentielle Wachstum der Anzahl verfügbarer Genome ist die Geschwindigkeit und Genauigkeit von DIAMOND genau das, was die moderne Genomik braucht: Damit können wir von der Gesamtheit aller Genome lernen, statt uns durch den Mangel an sensitiven Suchkapazitäten auf nur eine kleine Zahl von Arten beschränken zu lassen,“ prognostiziert Drost. Das Team ist daher überzeugt, dass die Vorteile von DIAMOND sich in den nächsten Jahren vollumfänglich zeigen werden.
Dr. Hajk-Georg Drost
Max-Planck-Institut für Entwicklungsbiologie
Abteilung Molekularbiologie
Max-Planck-Ring 5
72076 Tübingen
Deutschland
hajk-georg.drost@tuebingen.mpg.de
+49 7071 601-444
Sensitive tree-of-life scale protein alignments using DIAMOND. Nature Methods, Apr. 7 2021, DOI: 10.1038/s41592-021-01101-x
https://dx.doi.org/10.1038/s41592-021-01101-x
Criteria of this press release:
Journalists, all interested persons
Biology, Information technology
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).