By

Ein Team von Computerwissenschaftlern am Oak Ridge National Laboratory (ORNL) hat umfangreiche Datensätze erstellt und veröffentlicht, die die ultraviolett-sichtbaren Spektraleigenschaften von über 10 Millionen organischen Molekülen enthalten. Dieses bahnbrechende Unterfangen zielt darauf ab, unser Verständnis darüber zu verbessern, wie Moleküle mit Licht interagieren, was für die Aufdeckung ihrer elektronischen und optischen Eigenschaften von entscheidender Bedeutung ist. Diese Eigenschaften finden bedeutende Anwendungen in verschiedenen Bereichen, einschließlich der Entwicklung von Solarzellen und medizinischen Bildgebungssystemen.

Mithilfe der Hochleistungsrechnerressourcen der Oak Ridge Leadership Computing Facility führten die Forscher quantenchemische Berechnungen durch, um diese umfangreichen Datensätze zu generieren. Für jedes organische Molekül wurden mehrere atomistische Materialmodellierungsberechnungen durchgeführt, um verschiedene interessierende Eigenschaften des angeregten Zustands zu berechnen. Die Ergebnisse dieser Studie wurden in Scientific Data veröffentlicht.

Das Hauptziel bei der Erstellung dieser Open-Source-Datensätze besteht darin, ein Deep-Learning-Modell zu trainieren, das in der Lage ist, Moleküle mit spezifischen optoelektronischen und photoreaktiven Eigenschaften zu identifizieren. Dieser Ansatz bietet eine schnellere und effizientere Alternative zu aktuellen Methoden für das molekulare Design.

Hauptautor Massimiliano Lupo Pasini, Datenwissenschaftler in der Computational Sciences and Engineering Division des ORNL, erläuterte die Bedeutung der Verwendung von Deep-Learning-Modellen im molekularen Design. Er erklärte: „Die Verwendung von DL-Modellen für das Moleküldesign ist unerlässlich, da der chemische Raum, der für die Suche nach diesen Molekülen erkundet werden muss, extrem groß ist.“ Herkömmliche Experimente und First-Principles-Berechnungen sind aufgrund ihres arbeitsintensiven Charakters oder ihres überwältigenden Rechenaufwands einfach unerschwinglich. Deep-Learning-Modelle bieten eine vielversprechende Lösung, um diese Einschränkungen zu überwinden.

Um die Herausforderungen zu bewältigen, die mit der Verwaltung großer Datenmengen verbunden sind, entwickelten die Forscher in Zusammenarbeit mit dem ORNL-Informatiker Kshitij Mehta eine skalierbare Workflow-Software. Diese Software gewährleistet die ordnungsgemäße Verarbeitung von Dateien, die durch den Quantenmechanik-Code generiert werden, ohne das Dateisystem zu überlasten.

Als Proof-of-Concept hat das Team erfolgreich den GDB-9-Ex-Datensatz erstellt, der etwa 96,766 Moleküle umfasst. Sie zeigten, dass der entworfene Arbeitsablauf die Position und Intensität von Peaks im ultraviolett-sichtbaren Spektrum effektiv vorhersagt. Ermutigt durch dieses Ergebnis weiteten die Forscher ihre Bemühungen aus und erstellten den ORNL_AISD-Ex-Datensatz, der über 10.5 Millionen Moleküle umfasst. Dieser Datensatz liefert wertvolle Informationen über die Anregungsmodi jedes Moleküls und die HOMO-LUMO-Lücke, die die Stabilität misst. Mit diesen Daten kann ein Deep-Learning-Modell wie HydraGNN potenziell vielversprechende Moleküle für verschiedene Anwendungen effizient identifizieren.

Das kommende Papier wird die Ergebnisse des HydraGNN-Trainings zu diesen Datensätzen und die gemachten molekularen Entdeckungen detailliert beschreiben. Dieser innovative Ansatz des molekularen Designs hat das Potenzial, das Gebiet zu revolutionieren und die Entwicklung neuer Materialien mit maßgeschneiderten Eigenschaften voranzutreiben.