Il Pozzo: una vasta raccolta di diverse simulazioni fisiche per l'apprendimento automatico
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning
November 30, 2024
Autori: Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
cs.AI
Abstract
I modelli surrogati basati sull'apprendimento automatico offrono ai ricercatori potenti strumenti per accelerare i flussi di lavoro basati sulla simulazione. Tuttavia, poiché i dataset standard in questo ambito spesso coprono piccole classi di comportamenti fisici, può essere difficile valutare l'efficacia di nuovi approcci. Per affrontare questa lacuna, presentiamo il Well: una vasta raccolta di dataset contenenti simulazioni numeriche di una vasta gamma di sistemi fisici spazio-temporali. Il Well attinge da esperti del settore e sviluppatori di software numerico per fornire 15TB di dati distribuiti su 16 dataset che coprono diversi ambiti come sistemi biologici, dinamica dei fluidi, scattering acustico, nonché simulazioni magneto-idrodinamiche di fluidi extragalattici o esplosioni di supernove. Questi dataset possono essere utilizzati singolarmente o come parte di un ampio insieme di benchmark. Per agevolare l'uso del Well, forniamo un'interfaccia unificata PyTorch per addestrare e valutare modelli. Dimostriamo la funzionalità di questa libreria presentando esempi di baselines che mettono in evidenza le nuove sfide poste dalla complessa dinamica del Well. Il codice e i dati sono disponibili su https://github.com/PolymathicAI/the_well.
English
Machine learning based surrogate models offer researchers powerful tools for
accelerating simulation-based workflows. However, as standard datasets in this
space often cover small classes of physical behavior, it can be difficult to
evaluate the efficacy of new approaches. To address this gap, we introduce the
Well: a large-scale collection of datasets containing numerical simulations of
a wide variety of spatiotemporal physical systems. The Well draws from domain
experts and numerical software developers to provide 15TB of data across 16
datasets covering diverse domains such as biological systems, fluid dynamics,
acoustic scattering, as well as magneto-hydrodynamic simulations of
extra-galactic fluids or supernova explosions. These datasets can be used
individually or as part of a broader benchmark suite. To facilitate usage of
the Well, we provide a unified PyTorch interface for training and evaluating
models. We demonstrate the function of this library by introducing example
baselines that highlight the new challenges posed by the complex dynamics of
the Well. The code and data is available at
https://github.com/PolymathicAI/the_well.Summary
AI-Generated Summary