分享信息,整合伙源
互换学术,偶尔风月

近年来机器学习算法在包括自然措辞处理,图像识别等诸多领域大放异彩。得益于如Materials Project1, QM92,3等材料数据库的不断完善和发展,机器学习正在被越来越多的运用在材料学领域的研究中。然而,由于研究目标的单一性,多数事情仍旧局限于办理特定的晶体构造以及特定的材料性子预测问题。一种泛化的,普适性的机器学习模型仍旧是材料学领域研究的重点目标。此研究是基于

基于DeepMind建立的图神经网络框架。
在材料学领域,对分子或晶体构造的特色描述须要知足平移,迁徙改变,镜面不变性,以及对整体构造特异信息的表征。常见的构造特色描述由于其局域性,缺少对整体构造信息的表达,因而不具有普适性。图网络模型(graph-network)是一种基于图论的构造化模型,从理论上完美办理了这一问题。在图论中,图(graph)由多少给定的顶点(node)及连接顶点的边(edge)构成。利用到分子(或晶体)构造中,原子(atom)可以由顶点(node)描述,连接原子之间的化学键(bond)可以由边(edge)描述,从而可以把一个个分子或晶体构造看作一个个独立的“图”。基于此类模型的构造描述方法,科研事情者可以开拓出针对任何材料构造或任何物理化学性子的普适性模型。只管具有理论可行性,此类模型由于模型繁芜度,材料数据量的限定,仍很少被运用在材料学领域中4,5。近日,UC San Diego 的 Shyue Ping Ong 课题组基于DeepMind建立的图神经网络框架6,开拓了一套分子和晶体通用性子预测模型(MEGNet),在各项性子预测测试中达到了领先水平7。
图 1. MEGNet 概述。每个分子/晶体构造由化学键信息,原子信息,和状态信息描述。每个构造描述输入模型后,依次更新,直到总的构造输出性子与DFT打算值靠近。
图1中描述了该模型的事情模式: 每个构造可用三个向量表征,分别包含原子信息,化学键信息,和状态函数信息。在每一次模型演习迭代中,依次更新化学键向量,原子向量,和状态函数向量,得到新的构造表征向量,直到通过该表征输出的性子与DFT打算结果趋于同等。作者首先用QM9 分子数据集中超过130k数据作为演习集演习模型,并用得到的模型预测分子中的13项物理化学性子,在个中的11项中达到同类模型中的最优结果(表1)。更为前辈的是,之前的工为难刁难由状态参数关联的状态函数,如内能(U0, U),焓(H),和吉布斯自由能(G),采取的是分别演习模型进行预测的方法。
然而本事情中,作者采取加入状态参数作为输入的方法,可由单一模型同时预测U0, U, H和G,并保持与分别模型演习类似的准确度,大大提高了演习效率[YZ1] 。在针对晶体构造的运用中,作者用Materials Project数据库中超过69k数据作为演习集,针对天生能,能带带隙,体积模量和剪切模量进行了回归(Regression)剖析,并用带隙值作为金属和非金属的判据进行分类(classification)剖析。回归剖析中的均匀绝对偏差(MAE)低于同类型模型SchNet4和CGCNN5(表2),金属和非金属分类剖析中综合准确率达86.9%,ROC中AUC达到0.926,与此前最优模型CGCNN类似。
表1. 不同模型在QM9上预测13项性子的均匀绝对偏差(MAE)比拟
表2. MEGNet和其他基于图像模型
在Materials Project数据集的预测准确度比拟
在对模型的深入剖析中,作者创造,从最优模型中提取出的元素映射(embedding)与化学知识吻合。例如,将元素映射投影二维空间可创造,Eu和Yb与其他镧系元素间隔较远,而与碱土金属更靠近,这与化学履历符合。这样的剖析一方面佐证了模型可以学习到可靠的化学信息,另一方面可将学习到的化学信息用于迁移学习,以大大降落演习新模型演习所需数据量。例如,在此例中,作者通过用~69k天生热的数据演习的模型提取的元素映射,用于预测带隙和弹性性子的模型演习,后者的数据量只有天生热的一半乃至十分之一。通过迁移学习的方法作者得到比直接演习更低的MAE和提高两倍的收敛速率。这为小数据量的性子的高效准确模型演习供应了可行的方案。
在模型的利用方面,用户可上岸http://megnet.crystals.ai,根据提示输入晶体构造编码或cif文件即可得到模型预测的性子。其余,文章所涉及的Python代码均已开源(https://github.com/materialsvirtuallab/megnet.git)。下面示例如何利用已有模型和演习新的模型。
1示例一: 利用分子模型
2示例二:利用晶体模型预测剪切模量
3示例三:演习新模型
参考文献
(1) Jain, A.; Ong, S. P.; Hautier, G.; Chen, W.; Richards, W. D.; Dacek, S.; Cholia, S.; Gunter, D.; Skinner, D.; Ceder, G.; et al. Commentary: The Materials Project: A Materials Genome Approach to Accelerating Materials Innovation. APL Mater. 2013, 1 (1), 011002. https://doi.org/10.1063/1.4812323.
(2) Ruddigkeit, L.; van Deursen, R.; Blum, L. C.; Reymond, J.-L. Enumeration of 166 Billion Organic Small Molecules in the Chemical Universe Database GDB-17. J. Chem. Inf. Model.2012, 52 (11), 2864–2875. https://doi.org/10.1021/ci300415d.
(3) Ramakrishnan, R.; Dral, P. O.; Rupp, M.; von Lilienfeld, O. A. Quantum Chemistry Structures and Properties of 134 Kilo Molecules. Sci. Data2014, 1, 140022. https://doi.org/10.1038/sdata.2014.22.
(4) Schütt, K. T.; Sauceda, H. E.; Kindermans, P.-J.; Tkatchenko, A.; Müller, K.-R. SchNet – A Deep Learning Architecture for Molecules and Materials. J. Chem. Phys. 2018, 148 (24), 241722. https://doi.org/10.1063/1.5019779.
(5) Xie, T.; Grossman, J. C. Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties. Phys. Rev. Lett.2018, 120 (14), 145301. https://doi.org/10.1103/PhysRevLett.120.145301.
(6) Battaglia, P. W.; Hamrick, J. B.; Bapst, V.; Sanchez-Gonzalez, A.; Zambaldi, V.; Malinowski, M.; Tacchetti, A.; Raposo, D.; Santoro, A.; Faulkner, R.; et al. Relational Inductive Biases, Deep Learning, and Graph Networks. ArXiv180601261 Cs Stat 2018.
(7) Chen, C.; Ye, W.; Zuo, Y.; Zheng, C.; Ong, S. P. Graph Networks as a Universal Machine Learning Framework for Molecules and Crystals. Chem. Mater. 2019. https://doi.org/10.1021/acs.chemmater.9b01294.
扩展阅读
npj: 机器学习—快速精确预测电子构造问题
npj: 深度学习预测—杂化石墨烯-氮化硼对构型的带隙
npj: 高熵合金—基于第一性事理的屈从强度预测
npj: 机器学习—神经网络方法打算多组分晶体的形成能
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方









