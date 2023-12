Un team di scienziati computazionali dell’Oak Ridge National Laboratory (ORNL) ha creato e pubblicato enormi set di dati contenenti le proprietà spettrali visibili nell’ultravioletto di oltre 10 milioni di molecole organiche. Questo sforzo innovativo mira a migliorare la nostra comprensione di come le molecole interagiscono con la luce, il che è fondamentale per scoprire le loro proprietà elettroniche e ottiche. Queste proprietà hanno applicazioni significative in vari campi, compreso lo sviluppo di celle solari e sistemi di imaging medico.

Utilizzando le risorse informatiche ad alte prestazioni disponibili presso l’Oak Ridge Leadership Computing Facility, i ricercatori hanno eseguito calcoli di chimica quantistica per generare questi estesi set di dati. Sono stati condotti molteplici calcoli di modellazione del materiale atomistico per ciascuna molecola organica per calcolare diverse proprietà di interesse dello stato eccitato. I risultati di questo studio sono stati pubblicati su Scientific Data.

L'obiettivo principale alla base della creazione di questi set di dati open source è quello di addestrare un modello di deep learning in grado di identificare molecole con specifiche proprietà optoelettroniche e fotoreattività. Questo approccio offre un'alternativa più rapida ed efficiente agli attuali metodi utilizzati per la progettazione molecolare.

L'autore principale Massimiliano Lupo Pasini, data scientist presso la Divisione di Scienze e Ingegneria Computazionali dell'ORNL, ha spiegato l'importanza dell'utilizzo di modelli di deep learning nella progettazione molecolare. Ha affermato: “L’uso dei modelli DL per la progettazione molecolare è essenziale perché lo spazio chimico che deve essere esplorato per la ricerca di queste molecole è estremamente ampio”. Gli esperimenti tradizionali e i calcoli basati sui principi primi sono semplicemente inaccessibili a causa della loro natura ad alta intensità di lavoro o delle loro enormi esigenze computazionali. I modelli di deep learning forniscono una soluzione promettente per superare queste limitazioni.

Per affrontare le sfide associate alla gestione di grandi volumi di dati, i ricercatori hanno sviluppato un software di flusso di lavoro scalabile in collaborazione con l'informatico dell'ORNL Kshitij Mehta. Questo software garantisce la corretta gestione dei file generati dal codice della meccanica quantistica senza sovraccaricare il file system.

Il team ha generato con successo il set di dati GDB-9-Ex, comprendente circa 96,766 molecole, come prova di concetto. Hanno dimostrato che il flusso di lavoro progettato prevede in modo efficace la posizione e l'intensità dei picchi nello spettro ultravioletto-visibile. Incoraggiati da questo risultato, i ricercatori hanno ampliato i propri sforzi e creato il set di dati ORNL_AISD-Ex, che comprende oltre 10.5 milioni di molecole. Questo set di dati fornisce informazioni preziose sulle modalità di eccitazione di ciascuna molecola e sul gap HOMO-LUMO, che misura la stabilità. Con questi dati, un modello di deep learning come HydraGNN può identificare in modo efficiente molecole potenzialmente promettenti per diverse applicazioni.

Il prossimo articolo descriverà in dettaglio i risultati della formazione di HydraGNN su questi set di dati e le scoperte molecolari fatte. Questo approccio innovativo alla progettazione molecolare ha il potenziale per rivoluzionare il campo e accelerare lo sviluppo di nuovi materiali con proprietà su misura.