中山大学李华山、王彪课题组开发 SEN 机器学习模型,高精度预测材料性能
内容一览:了解全局晶体对称性并分析等变信息,对于预测材料性能至关重要,但现有的、基于卷积网络的算法尚且无法完全实现这些需求。针对于此,中山大学的李华山、王彪课题组,开发了一款名为 SEN 的机器学习模型,准确感知了固有晶体对称性和材料结构团簇之间的相互作用。
关键词:材料性能预测 深度学习 MP 数据库
作者 | 李宝珠
编辑 | 三羊
晶体对称性对于研究材料的物理性质、理解晶体结构、设计新材料以及进行 X 射线衍射等实验具有关键作用。了解晶体对称性有助于简化分析,更好地理解材料属性,并提高材料性能的计算效率。更重要的是,晶体对称性还可以直接影响材料的电荷分布、光学性质、磁性质等物理特性。
近年来,基于统计机制的机器学习已经得到了广泛应用,而从机器学习的角度来看,晶体对称性可以看作是材料的不变性与等变形,但目前现有的、基于高级图网络的晶体材料机器学习算法很难编码复杂的材料不变性和等变性。
此外,堆叠式胶囊自编码器 (Stacked Capsule Autoencoder,SCAE) 虽然也可以直接从原始数据中提取空间对称性特征,但传统的胶囊模型仍无法分析复杂材料系统结构-性能之间的关系。
针对以上挑战,中山大学李华山、王彪课题组开发了一套名为 SEN(symmetry-enhanced equivariance network,对称增强等变网络 )的机器学习模型,克服了基于卷积的算法在高对称空间群中性能不佳的问题,并在所有空间群中实现了高精度的材料性能预测。目前,相关成果已经发表于「Nature Communications」。

相关成果已经发表于「Nature Communications」
获取论文:
https://www.nature.com/articles/s41467-023-40756-2
01 数据集:MP 数据库中的 6,027 个晶体材料
研究人员基于化学环境的概念和图模型的表示方法提取了晶体材料的特征,以目标原子截断半径内的周围原子和键来定义其化学环境,并从用于材料分析的开源 Python 数据库——Materials Project 中提取了每个原子周围的原子类型、原子连接性和键长。
据悉,本研究中用于预测带隙和形成能的数据集来自 Materials Project 数据库,带隙和形成能的数据集分别包含 6,027 (按 8:1:1 的比例分为训练集、验证集和测试集)和 30,000 种材料。这两个数据集由 64 个元素组成,涵盖了周期表内除惰性气体组、镧系元素、锕系元素和放射性元素外的元素。
研究人员通过密度泛函理论(DFT)计算,对 Materials Project 数据库中的 6,027 个晶体材料组成的数据集进行了预测,并基于预测结论对 SEN 模型的性能进行了检验。
本研究中使用的晶体对称性和化学环境数据可从 Zenodo 数据库中获取。
访问链接:
https://doi.org/10.5281/zenodo.8142678
02 模型架构:3 个模块统一训练
如下图所示,SEN 模型采用了复杂的深度学习架构,包含特征提取 (FE)、对称性感知 (SP) 和属性预测 (PP) 模块。

SEN 架构由特征提取、对称感知和属性预测模块组成
在本次研究中,研究团队通过对 3 个模块的统一训练,实现了对多种材料特性的准确预测,并通过 SEN 模型描述了原子之间的相互作用。
首先,特征提取模块感知输入的原子和化学键数据,输入数据包括了靶材料原始单元中 N 原子和 M 键的信息。最后,通过高通量筛选过程,构建了包括化学计量、晶体结构、原子信息和键信息的材料数据集。
以材料数据集作为 SEN 模型的唯一输入数据,研究人员基于结构数据和化学计量数据,同时计算出了原子化学环境向量 VmA,以及元素权重向量 VmE。


经多层感知器激活后,元素权重向量被转换为相应原子的概率向量。研究人员进而通过原子化学环境向量和元素权重向量之间的 element-wise operation,更新了所有原子级别的相关性,从而能通过 LSTM-attention 层获得了材料的化学环境矩阵。
其次,该研究创新性地将胶囊机制 (capsule mechanism) 应用于材料属性预测,通过基于胶囊机制设计的对称性感知模块,将材料化学环境转换为由对称算子、卷积材料化学环境和存在值组成的材料胶囊,以感知并保留晶体对称性。进而,通过在材料的化学环境矩阵上进行对称运算,可以将不同的对称图案推广到晶体胶囊中。
最后,在属性预测方面,SEN 模型通过基于 MLP 的映射函数预测目标材料性质。
03 SEN 模型高精度预测材料属性
结论一:SEN 模型准确感知原子相互作用信息
为了验证特征提取模块的有效性,研究人员训练了 SEN 预测晶体材料带隙的能力,直到平均绝对误差 (MAE) 低于 0.15 eV,然后分析了特征提取模块产生的化学环境中间数据。

基于原子的化学环境相关性分析
具体而言,研究人员提取了 Y4Cu2O7 的原胞中每个原子的化学环境矩阵。计算了原子矩阵之间的 Pearson 系数,生成了上图所示的相关性分析图。与不同元素组的原子相比,同一元素组内的原子之间的 Pearson 系数要大得多,因此可以清楚地区分出 Y4Cu2O7 中的 3 个元素组。

通过 SEN 模型学习了六种材料的原子相关性
如上图所示,SEN 模型已经学习并编码了原子相互作用信息,并成功地检测到了杂化现象,这对于电子性质的预测具有重要意义。
结论二:SEN 模型预测性能优于 MegNet
为了研究在 SEN 模型中从化学环境到材料性质的映射,研究人员从 MP 数据库中选择了五种材料——Be(6)Ni(2)、 Sr(4)Ge(2)S(8)、 Li(2)V(2)F(12)、 CsAsF(6)、 BaB(2)F(8),其带隙分别为 0 eV、 3.25 eV、 4.86 eV、 7.24 eV 及 10.12 eV。
观察得知,带隙与材料化学环境的 PDF(概率密度函数)之间存在强相关性,即随着带隙的增大,PDF 逐渐扩散。整个数据集从材料化学环境到带隙的投影如下图所示,6,027 个晶体材料均匀分布在主特征空间,而带隙的变化在整个空间上是连续、单调的。

6027 种材料的 2D t-SNE 图,圆的颜色表示带隙值
为了验证机器学习模型所学习的特征-属性关系符合基本物理原理,研究人员生成了 Ca-O-X 材料的化学环境 2D t-SNE 图,并调查了各种材料特征(成分、点群、自旋极化等),最终发现,材料带隙取决于复杂的材料特征,不能简单地由任一关键因素来预测。
尽管如此,SEN 模型在带隙预测方面还是取得了显著的提升。在对测试数据集中的材料带隙进行预测时,SEN 模型的均方误差 (MAE) 为 0.25 eV,与具有 MLP、DenseNet、TFN、SE(3) 和 EGNN 模块的模型在测试数据集上获得的 MAE 相比,有显著改进。

不同对称度晶体材料性能的预测
如上图 d 所示,研究人员对比检验了 SEN 模型和 MegNet21 模型(通用材料网络模型)对不同晶体系统的预测质量,进一步揭示了对称感知对材料性能预测的显著影响。从误差分布图来看,SEN 模型的预测性能在所有晶体系统中均优于 MegNet。
此外,SEN 模型通过感知全晶体对称性,大幅降低了有效特征维数。这一特征清除过程减轻了过拟合问题,并加强了从材料特征到属性的映射。
论文显示,SEN 模型预测带隙和形成能的平均绝对误差分别比常见机器学习模型低约 22.9% 和 38.3%。
04 AI 推动材料产业变革发展
长久以来,新材料的设计、研发以及材料性能的改革是牵引科技进步的拉力之一,在电子、能源、医疗、航空航天等诸多领域发挥着重要作用。但传统的材料研发过程往往需要大量实验来不断修正性能,提高可行性,这一过程漫长且需要耗费极大的人力、财力。
而随着 AI 的加速应用,AI for Science 得到了越来越多的关注,其与材料的结合也成为了越来越多学者、企业的探索新方向。一方面,AI 可以分析大量数据,并进行模拟预测,从而加速新材料的发现与性能优化;另一方面,材料学科也成为了机器学习、自然语言处理、高性能计算等 AI 关键技术的重要落脚点。
可以说,AI 正在润物细无声地改变着新材料的设计与应用。未来,随着更强大的 AI 模型持续迭代,加之数据共享之下材料数据库的更新扩充,AI 势必将进一步推动新材料的诞生。
相关文章:
中山大学李华山、王彪课题组开发 SEN 机器学习模型,高精度预测材料性能
内容一览:了解全局晶体对称性并分析等变信息,对于预测材料性能至关重要,但现有的、基于卷积网络的算法尚且无法完全实现这些需求。针对于此,中山大学的李华山、王彪课题组,开发了一款名为 SEN 的机器学习模型ÿ…...
二百一十、Hive——Flume采集的JSON数据文件写入Hive的ODS层表后字段的数据残缺
一、目的 在用Flume把Kafka的数据采集写入Hive的ODS层表的HDFS文件路径后,发现HDFS文件中没问题,但是ODS层表中字段的数据却有问题,字段中的JSON数据不全 二、Hive处理JSON数据方式 (一)将Flume采集Kafka的JSON数据…...
【开放集检测OSR】开放集检测和闭集检测的区别和联系:从模型角度进行理解
定义一个分类器: D t r a i n { ( x i , y i ) } i 1 N ⊂ X C D_{train} \{(x_i, y_i)\}^N _{i1} ⊂ X C Dtrain{(xi,yi)}i1N⊂XC X:输入空间 ( x i , y i ) (x_i, y_i) (xi,yi): 输入的图像x以及其对象的类别标签yC :已知…...
【Flink】Flink核心概念简述
目录 一、Flink 简介二、Flink 组件栈1. API & Libraries 层2. runtime层3. 物理部署层 三、Flink 集群架构四、Flink基本编程模型五、Flink 的部署模式六、Flink 任务的执行模式五、Flink 的优点 一、Flink 简介 Apache Flink 的前身是柏林理工大学一个研究性项目&#x…...
linux-tar命令、解压、压缩
压缩 文件夹 命令:tar -zcvf ~/test/tar_t.tar.gz /target/ 将/target/文件夹及其子文件夹和文件压缩成tar_t.tar.gz文件,并放于~/test/路径下 文件 命令:tar -zcvf ~/test/tar_t.tar.gz /target/file 将/target/file文件压缩成tar_t.tar…...
Kafka Connect :构建强大分布式数据集成方案
Kafka Connect 是 Apache Kafka 生态系统中的关键组件,专为构建可靠、高效的分布式数据集成解决方案而设计。本文将深入探讨 Kafka Connect 的核心架构、使用方法以及如何通过丰富的示例代码解决实际的数据集成挑战。 Kafka Connect 的核心架构 Kafka Connect 的核…...
基于 Flink CDC 构建 MySQL 的 Streaming ETL to MySQL
简介 CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛…...
创建vue项目:node.js下载安装、配置环境变量,下载安装cnpm,配置npm的目录、镜像,安装vue、搭建vue项目开发环境(保姆级教程一)
今天讲解 Windows 如何创建 vue 项目,搭建 vue 开发环境,这是这个系列的第一章,有什么问题请留言,请点赞收藏!!! 文章目录 一、Vue简单介绍二、开始搭建1、安装node.js环境2、配置npm下载时的默…...
uni-app 微信小程序之好看的ui登录页面(一)
文章目录 1. 页面效果2. 页面样式代码 更多登录ui页面 uni-app 微信小程序之好看的ui登录页面(一) uni-app 微信小程序之好看的ui登录页面(二) uni-app 微信小程序之好看的ui登录页面(三) uni-app 微信小程…...
[ES]ElasticSearch强转日期的时区问题
问题 由于ES不能修改时区,且默认时区始终为UTC。 当才查询数据时,通过强转获得的日期并不是想要的,通过分析发现,正是由于默认时区导致结果相差了8个小时。 查询语句: POST http://localhost:9200/_sql?formattext {&…...
YOLOv5结合BiFPN,如何替换YOLOv5的Neck实现更强的检测能力?
一、BiFPN是什么? 1、什么是BiFPN BiFPN是一种基于特征金字塔网络(FPN)和双向特征金字塔网络(BiFPN)的对象检测神经网络结构,它被用于提高目标检测的准确度和速度。在目标检测领域,FPN用于将不同…...
3.PyTorch——常用神经网络层
import numpy as np import pandas as pd import torch as t from PIL import Image from torchvision.transforms import ToTensor, ToPILImaget.__version__2.1.13.1 图像相关层 图像相关层主要包括卷积层(Conv)、池化层(Pool)…...
状态机的练习:按键控制led灯
设计思路: 三个按键控制led输出。 三个按键经过滤波(消抖),产生三个按键标志信号。 三个led数据的产生模块(流水,跑马,闪烁模块),分别产生led信号。 这六路信号(三路按键信号&am…...
看图学源码之 CopyOnWriteArraySet源码分析
基本介绍 使用内部CopyOnWriteArrayList进行所有操作的Set 特点 它最适合以下应用程序:集合大小通常较小、只读操作的数量远远多于可变操作,并且您需要在遍历期间防止线程之间的干扰。它是线程安全的。突变操作( add 、 set 、 remove等&…...
almaLinux centos8 下载ffmpeg离线安装包、离线安装
脚本 # 添加RPMfusion仓库 sudo yum install https://download1.rpmfusion.org/free/el/rpmfusion-free-release-8.noarch.rpm wget -ymkdir -p /root/ffmpeg cd /root/ffmpegwget http://rpmfind.net/linux/epel/7/x86_64/Packages/s/SDL2-2.0.14-2.el7.x86_64.rpmyum instal…...
CSS3 属性: transition过渡 与 transform动画
CSS3 提供了很多强大的功能,使开发人员可以创建更加吸引人的视觉效果,而不需要依赖于 JavaScript 或 Flash。其中,transition 和 transform 是两个常用的属性,它们分别用于创建平滑的过渡效果和元素的变形效果。下面我们将详细介绍…...
TCP通讯
第二十一章 网络通信 本章节主要讲解的是TCP和UDP两种通信方式它们都有着自己的优点和缺点 这两种通讯方式不通的地方就是TCP是一对一通信 UDP是一对多的通信方式 接下来会一一讲解 TCP通信 TCP通信方式呢 主要的通讯方式是一对一的通讯方式,也有着优点和缺点 …...
(NeRF学习)3D Gaussian Splatting Instant-NGP
学习参考: 3D Gaussian Splatting入门指南【五分钟学会渲染自己的NeRF模型,有手就行!】 三维重建instant-ngp环境部署与colmap、ffmpeg的脚本参数使用 一、3D Gaussian Splatting (一)3D Gaussian Splatting环境配置…...
uni-app 微信小程序之好看的ui登录页面(三)
文章目录 1. 页面效果2. 页面样式代码 更多登录ui页面 uni-app 微信小程序之好看的ui登录页面(一) uni-app 微信小程序之好看的ui登录页面(二) uni-app 微信小程序之好看的ui登录页面(三) uni-app 微信小程…...
Android 默认打开应用的权限
有项目需要客户要安装第三方软件,但是要手动点击打开权限,就想不动手就打开。 //安装第三方软件,修改方式 frameworks\base\services\core\java\com\android\server\pm\PackageManagerService.java //找到如下源码: //有三种方…...
利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
条件运算符
C中的三目运算符(也称条件运算符,英文:ternary operator)是一种简洁的条件选择语句,语法如下: 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true,则整个表达式的结果为“表达式1”…...
Mac软件卸载指南,简单易懂!
刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"࿰…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
【HTTP三个基础问题】
面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...
C++:多态机制详解
目录 一. 多态的概念 1.静态多态(编译时多态) 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1).协变 2).析构函数的重写 5.override 和 final关键字 1&#…...
七、数据库的完整性
七、数据库的完整性 主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述 数据库完整性的含义 正确性 指数据的合法性 有效性 指数据是否属于所定…...
uniapp 小程序 学习(一)
利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 :开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置,将微信开发者工具放入到Hbuilder中, 打开后出现 如下 bug 解…...
客户案例 | 短视频点播企业海外视频加速与成本优化:MediaPackage+Cloudfront 技术重构实践
01技术背景与业务挑战 某短视频点播企业深耕国内用户市场,但其后台应用系统部署于东南亚印尼 IDC 机房。 随着业务规模扩大,传统架构已较难满足当前企业发展的需求,企业面临着三重挑战: ① 业务:国内用户访问海外服…...
