Offenes KI-Modell macht Milliarden Proteine durchsuchbar
Biohub stellt mit ESMFold2 ein offenes KI-Werkzeug für Proteinstrukturen vor. Der Atlas umfasst 1,1 Milliarden Vorhersagen und kann die Suche nach neuen Enzymen erleichtern.
Proteine sind die Arbeitsmaschinen der Zelle. Viele von ihnen wirken als Enzyme, also als Biokatalysatoren. Sie zerlegen Biomasse, knüpfen chemische Bindungen oder helfen Mikroorganismen, aus nachwachsenden Rohstoffen neue Produkte herzustellen. Wer solche Proteine gezielt verbessern will, braucht häufig ein räumliches Modell ihrer Struktur. Genau hier setzt ESMFold2 an. Das Chan Zuckerberg Biohub hat am 27. Mai 2026 ein offenes KI-Paket vorgestellt, das Proteinstrukturen vorhersagen, Protein-Wechselwirkungen modellieren und bislang wenig bekannte Proteine besser durchsuchbar machen soll.
Ein Atlas für unbekannte Proteine
Zu dem Paket gehören drei Bausteine. ESMC ist ein Protein-Sprachmodell, ESMFold2 ein Strukturmodell und der ESM Atlas eine große Suchkarte. ESMC wurde nach Angaben von Biohub mit rund 2,8 Milliarden Proteinsequenzen aus vielen Bereichen des Lebens trainiert. Aus solchen Daten lernt das Modell Muster in Aminosäureketten, ähnlich wie Sprachmodelle Muster in Texten erkennen. ESMFold2 nutzt diese gelernten Muster, um daraus hoch aufgelöste 3D-Modelle von Proteinen und Proteinkomplexen abzuleiten.
Der ESM Atlas macht Informationen zu 6,8 Milliarden Proteinsequenzen und 1,1 Milliarden vorhergesagten Strukturen zugänglich. Damit erweitert er den Raum der computergestützt erschlossenen Proteinstrukturen deutlich. Der Nature-Bericht, den Spektrum in deutscher Übersetzung veröffentlicht hat, ordnet ein, dass der neue Atlas mehr als 800 Millionen zusätzliche Strukturvorhersagen gegenüber der bekannten AlphaFold-Datenbank enthält. Zugleich gilt er eher als Ergänzung zu bestehenden Ressourcen und nicht als Ersatz für experimentelle Strukturaufklärung.
Ein wichtiger Punkt für die breite Nutzung: Code, Modellgewichte und Atlas sind offen zugänglich. Das Projekt-Repository nennt für die Modelle eine MIT-Lizenz, die auch kommerzielle Nutzung grundsätzlich erleichtert.
Enzyme bleiben der nächste Praxistest
Besonders weit entwickelt ist ESMFold2 nach Biohub-Angaben bei der Modellierung von Protein-Protein-Wechselwirkungen und Antikörper-Antigen-Bindungen. Das Team nutzte das Modell, um neue Proteinbinder gegen fünf Zielstrukturen aus Krebs- und Immunforschung zu entwerfen. Proteinbinder sind Moleküle, die gezielt an eine andere biologische Struktur andocken. Ein Teil der am Computer entworfenen Binder bestätigte sich anschließend im Labor.
Für die Bioökonomie ist vor allem die zugrunde liegende Such- und Designlogik interessant. Industrielle Biotechnologie arbeitet mit Enzymen, die etwa Pflanzenbestandteile abbauen, Zucker umbauen oder biobasierte Chemikalien herstellen. Beim rationalen Protein-Design werden solche Eiweißmoleküle gezielt verändert, wenn ihre Struktur und Funktion ausreichend bekannt sind. Ein durchsuchbarer Atlas bisher kaum beschriebener Proteine kann deshalb helfen, neue Kandidaten für Biokatalysatoren zu finden, zum Beispiel aus Mikroorganismen in Böden, Ozeanen oder Extremstandorten.
Der Weg von der Vorhersage in die Anwendung bleibt allerdings experimentell. Eine berechnete Struktur ist ein wichtiger Ausgangspunkt, zeigt aber noch nicht, ob ein Protein in einem Bioprozess stabil, aktiv und wirtschaftlich nutzbar ist. Dafür muss es im Labor hergestellt, gereinigt und getestet werden. Danach folgen meist Prozessentwicklung und weitere Optimierungsschritte. ESMFold2 kann diese Suche breiter, schneller und gezielter machen. Ob daraus neue Enzyme für die industrielle Biotechnologie entstehen, entscheiden am Ende die Tests im Labor und später im Prozess.
ag