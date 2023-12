Une équipe de scientifiques informaticiens du Laboratoire national d'Oak Ridge (ORNL) a créé et publié des ensembles de données massifs contenant les propriétés spectrales ultraviolettes visibles de plus de 10 millions de molécules organiques. Cette initiative révolutionnaire vise à améliorer notre compréhension de la façon dont les molécules interagissent avec la lumière, ce qui est crucial pour découvrir leurs propriétés électroniques et optiques. Ces propriétés ont des applications importantes dans divers domaines, notamment le développement de cellules solaires et de systèmes d’imagerie médicale.

À l’aide des ressources informatiques hautes performances disponibles au Oak Ridge Leadership Computing Facility, les chercheurs ont effectué des calculs de chimie quantique pour générer ces nombreux ensembles de données. Plusieurs calculs de modélisation atomistique de matériaux ont été effectués pour chaque molécule organique afin de calculer différentes propriétés d’intérêt à l’état excité. Les résultats de cette étude ont été publiés dans Scientific Data.

L’objectif principal de la création de ces ensembles de données open source est de former un modèle d’apprentissage profond capable d’identifier des molécules dotées de propriétés optoélectroniques et de photoréactivité spécifiques. Cette approche offre une alternative plus rapide et plus efficace aux méthodes actuelles utilisées pour la conception moléculaire.

L'auteur principal, Massimiliano Lupo Pasini, scientifique des données à la division des sciences informatiques et de l'ingénierie de l'ORNL, a expliqué l'importance de l'utilisation de modèles d'apprentissage profond dans la conception moléculaire. Il a déclaré : « L’utilisation de modèles DL pour la conception moléculaire est essentielle car l’espace chimique qui doit être exploré pour la recherche de ces molécules est extrêmement vaste. » Les expériences traditionnelles et les calculs fondés sur les principes premiers sont tout simplement inabordables en raison de leur nature exigeante en main-d'œuvre ou de leurs exigences informatiques écrasantes. Les modèles d’apprentissage profond offrent une solution prometteuse pour surmonter ces limitations.

Pour relever les défis associés à la gestion de grands volumes de données, les chercheurs ont développé un logiciel de flux de travail évolutif en collaboration avec l'informaticien Kshitij Mehta de l'ORNL. Ce logiciel assure le bon traitement des fichiers générés par le code de la mécanique quantique sans surcharger le système de fichiers.

L’équipe a généré avec succès l’ensemble de données GDB-9-Ex, comprenant environ 96,766 10.5 molécules, comme preuve de concept. Ils ont démontré que le flux de travail conçu prédit efficacement la position et l'intensité des pics dans le spectre ultraviolet-visible. Encouragés par ce résultat, les chercheurs ont étendu leurs efforts et créé l’ensemble de données ORNL_AISD-Ex, qui comprend plus de XNUMX millions de molécules. Cet ensemble de données fournit des informations précieuses sur les modes d'excitation de chaque molécule et sur l'écart HOMO-LUMO, qui mesure la stabilité. Grâce à ces données, un modèle d’apprentissage profond comme HydraGNN peut identifier efficacement des molécules potentiellement prometteuses pour différentes applications.

Le prochain article détaillera les résultats de la formation d'HydraGNN sur ces ensembles de données et les découvertes moléculaires réalisées. Cette approche innovante de la conception moléculaire a le potentiel de révolutionner le domaine et d’accélérer le développement de nouveaux matériaux dotés de propriétés adaptées.