Meeting Notes
1. 九月份规划:
- 内容:
1.1 经典论文模型复现:
- 1.1.1 MetaAI-3D蛋白质结构对比学习 github
- 1.1.2 DrugDAGT github !!! orbnet qm9的graph based的feature github
- 1.1.3 GCL & GCFORMER 经典对比学习论文 !! Graph contrastive learning former - NIPS2024 github
- GCL Graph Contrastive Learning with Augmentations - NIPS github
1.2 数据集:
quantum-machine-QM9 中科大实验课做了个QM9数据集的demo
闭壳层分子数据集
分子规模:含 13.4 万个稳定的小分子有机物
元素组成:仅包含 H(氢)、C(碳)、N(氮)、O(氧)、F(氟)5 种元素
计算理论水平:所有分子属性基于DFT(密度泛函理论)/B3LYP 泛函 / 6-31G (2df,p) 基组计算
包含属性:偶极矩、HOMO(最高占据分子轨道)能量、LUMO(最低未占据分子轨道)能量、0K 内能、298.15K 内能等,是闭壳层分子性质预测的基准数据集
训练输入:闭壳层下的量子化学矩阵,即 Fock 矩阵(F)、密度矩阵(P)、哈密顿矩阵(H)、重叠矩阵(S),构成向量 T 的闭壳层形式(因闭壳层自旋对称,无需区分 α、β 自旋,故 T=[F,P,H,S])
特征本质:这些矩阵编码了分子的电子结构信息(如轨道间相互作用、电子密度分布),是 OrbNet-Equi 学习 “分子结构 - 能量” 映射的核心依据
训练输出:QM9 中的0K 内能作为核心训练目标输出,0K 内能是分子势能面(PES)计算的核心属性,直接关联分子稳定性与反应能垒预测,相比其他属性(如偶极矩),能量是闭壳层与开壳层系统共有的关键指标,便于后续扩展到开壳层能量预测。
1.3 复现方式:
数据小型化复现: setp1: 5k bonds and edges
setp2: 10k bonds and edges
setp3: 20k bonds and edges
1.4 两种数据空间一个待理解的概念Open-shell:
- AO (Atomic Orbital):原子轨道。
- MO (Molecular Orbital):分子轨道。
- Open-shell:开壳层组态。
1. AO (Atomic Orbital) - 原子轨道层面 / 以原子为中心的模型
将分子看作是原子(节点)和化学键(边)构成的图。模型学习每个原子以及其周围局部环境的representation,预测整个分子的性质。
key: 分子的性质是由其组成原子以及原子间的相互作用决定的。
输入: 原子的坐标、原子类型、以及原子间的距离或键合关系。
方式: 消息传递图神经网络 (Message Passing Neural Network, MPNN) 。每个原子(节点)从其邻居原子那里接收“消息”(信息),更新自己的状态(特征向量)。过程会重复多次(对应图神经网络的多个GCL层),信息可以在整个分子中传播。
- EGNN (E(n) Equivariant Graph Neural Network): 典型的以原子为中心的模型。等变性 (Equivariance),旋转或移动整个分子时,模型内部学习到的原子表示也会相应地旋转或移动,最终预测的能量等标量属性保持不变。符合物理规律,性能出色。它直接在原子的3D坐标上进行操作。
- OrbNet:
数据来源采用半经验方法(GFN1-xTB)生成量子化学矩阵,显著降低了计算成本,同时保留了关键物理信息,支持数千原子规模的分子模拟。
闭壳层(Closed-shell)与开壳层(Open-shell)系统的区别:闭壳层电子自旋全配对(仅需考虑空间自由度),开壳层含未配对电子(需同时考虑空间和自旋自由度),开壳层在自由基、反应中间体等场景的关键意义。
- key: 基于原子轨道(AO)特征(自洽场(SCF)收敛过程中的量子化学矩阵)预测分子能量。
- 特征表示: 采用对称适配原子轨道(SAAO)基组,将 AO 特征编码为图结构数据。
- 模型架构: 基于图神经网络(GNN),解码输出张量并求和得到分子能量。
2. MO (Molecular Orbital) - 分子轨道层面 / 以分子为整体的模型
直接学习或预测整个分子的全局属性,分子整体电子结构相关的属性。分子轨道本身就是由所有原子轨道线性组合而成的,描述了电子在整个分子中的运动状态。
- key: 直接对分子的全局特征或其电子结构的宏观表现(如轨道能级)进行建模。
- 典型输入: 整个分子的描述符(例如分子指纹 fingerprint),或者直接将分子结构作为输入来预测分子轨道的性质。
- 工作方式: 这类模型可能不完全依赖于原子间的消息传递,而是旨在直接构建一个从分子到其全局属性的映射。例如,预测分子的最高占据分子轨道 (HOMO) 和最低未占据分子轨道 (LUMO) 的能量。
3. Open-shell - 开壳层组态
随便看看的一篇ICML-2024 ICML-WORKSHOP-2024
PNAS-2022 OrbNet-Equi !!! orbnet qm9的graph based的feature
2. 十月份规划:
2.1 What we need to do?
我们需要分析AO 和 MO 的表现。
我们不确定MO和AO的variability的差异,是由EGNN还是GPR带来的 他们的information不一样。
Learning curve - learnability图
我们需要通过对比学习找到 AO 和 MO 的 similarity。
理想化结果: 我们希望AO通过对比学习达到MO的程度,我们希望对比学习对AO更有用。
我们希望达到GCL + AO
AO从物理意义上更本质,MO的性质更好。
Final goal Inverse design 需要生成 AO
2.2 (Linear Combination of Atomic Orbitals)
LCAO 原子轨道线性组合 (Linear Combination of Atomic Orbitals)。
key: 分子的复杂行为(由分子轨道MO描述)可以近似地通过其组成原子的更简单的行为(由原子轨道AO描述)来构建。一个分子轨道 (MO) 可以表示为多个原子轨道 (AO) 的加权和。
数学形式: 一个分子轨道 \(\Psi_{MO}\),它可以表示为: \[\Psi_{MO} = c_1\phi_1 + c_2\phi_2 + \dots + c_n\phi_n = \sum_{i=1}^{n} c_i\phi_i\] 其中:
- \(\Psi_{MO}\) 是一个分子轨道波函数。
- \(\phi_i\) 是第 \(i\) 个原子的原子轨道波函数。
- \(c_i\) 是每个原子轨道的组合系数 (coefficient),它是一个权重值,表示该原子轨道对这个分子轨道的贡献大小。系数通过求解薛定谔方程(通常使用Hartree-Fock等近似方法)得到的。
ex: 氢分子(H₂)。有两个氢原子,每个氢原子有一个1s原子轨道(\(\phi_A\) 和 \(\phi_B\))。这两个原子轨道可以通过两种方式线性组合,形成两个分子轨道:
- 成键轨道 (Bonding MO): \(\Psi_{\sigma} = c_A\phi_A + c_B\phi_B\)。电子处于这个轨道时,会主要分布在两个原子核之间,形成稳定的化学键。能量比原来的AO更低。
- 反键轨道 (Antibonding MO): \(\Psi_{\sigma^*} = c'_A\phi_A - c'_B\phi_B\)。电子处于这个轨道时,会主要分布在原子核的外侧,排斥两个原子核,不利于成键。能量比原来的AO更高。
2.3 Localization (分子轨道局域化)
分子轨道(MOs),尤其是通过标准计算方法(如Hartree-Fock)直接求解出来的,通常是离域的 (delocalized)。这意味着每个MO都可能扩展到整个分子,由分子中几乎所有原子的AOs贡献构成。例如,在苯环中,计算出的π电子MO会均匀地分布在六个碳原子上。
分子轨道局域化 (Localization of Molecular Orbitals) 就是一个数学变换过程,它将这些离域的MOs转化为一组新的局域化分子轨道 (Localized Molecular Orbitals, LMOs)。
- 核心目标: 在不改变分子整体波函数和总能量的前提下,将分子轨道尽可能地限制在空间中的一小块区域内。
- 变换结果:
- 离域的成键轨道 \(\rightarrow\) 对应于特定 化学键 的局域轨道(例如C-H键,C=C双键)。
- 离域的非键轨道 \(\rightarrow\) 对应于特定原子上的 孤对电子 (lone pair) 或 内层电子。
- 局域化:
- 化学直观性: LMOs提供了清晰的化学图像,便于理解和分析化学成键情况。
3. LCAO 和 MO 的关系
- LCAO是构建MO的方法: LCAO是用于近似计算和表示分子轨道(MO)的数学框架。我们假设MO可以由一组已知的基函数(即原子轨道AO)线性组合而成。
- MO是LCAO方法的结果: 通过LCAO方法,结合量子力学变分原理求解薛定谔方程,我们最终得到了一系列分子轨道(MOs)的具体形式(即每个AO的贡献系数\(c_i\))以及它们的能量。
原子轨道 (AO) [输入] \(\xrightarrow{\text{LCAO方法 [过程/框架]}}\) 分子轨道 (MO) [输出/结果]
4. 高斯过程回归 (Gaussian Process Regression, GPR)
高斯过程回归 (GPR) 是一种基于贝叶斯思想的非参数回归方法。它在处理小样本、高维度、需要不确定性估计的复杂回归问题时特别有效。
key
GPR的核心是直接对函数本身进行建模。它假设我们想要建模的目标函数 \(f(x)\) 是一个服从高斯过程 (Gaussian Process, GP) 的随机函数。
- 高斯过程 (GP) 一个高斯过程是无穷多个随机变量的集合,其中任意有限个随机变量的组合都服从一个联合高斯分布。 一个GP定义了一个关于函数的分布 (a distribution over functions)。当我们从这个GP中“采样”时,我们得到的不是一个数值,而是一整个函数。
一个高斯过程完全由两部分定义: 1. 均值函数 (Mean Function) \(m(x)\): 定义了函数分布的“期望”或“中心趋势”。通常为了简化,会假设均值为零。 2. 协方差函数 (Covariance Function) 或 核函数 (Kernel) \(k(x, x')\): 定义了函数在不同输入点 \(x\) 和 \(x'\) 处的值之间的“相关性”或“相似性”。如果 \(x\) 和 \(x'\) 很接近,核函数的值就很大,意味着 \(f(x)\) 和 \(f(x')\) 的值会很相似。这编码了我们对函数平滑性的先验信念。
GPR 工作
GPR的工作流程:
第一步:定义先验分布 (Prior Distribution) 在看到任何训练数据之前,我们首先根据先验知识选择一个均值函数(通常为0)和一个核函数(例如常用的径向基函数核/RBF核)。这个GP定义了一个函数的先验分布,包含了我们能想到的所有“可能”的函数。
第二步:计算后验分布 (Posterior Distribution) 当我们得到一组训练数据 \((X_{train}, Y_{train})\) 后,我们利用贝叶斯定理来更新我们的函数分布。我们从先验分布中“筛选”掉那些与训练数据不符的函数,得到一个后验分布 (Posterior Distribution)。
这个后验分布仍然是一个高斯过程,其均值和协方差有解析解(可以直接计算出来),不需要复杂的迭代优化。
进行预测
对于一个新的测试点 \(x_{test}\),我们想预测对应的 \(y_{test}\)。在后验分布下,\(y_{test}\) 的预测值服从一个一维高斯分布,这个分布有: 1. 预测均值 (Predicted Mean): 这就是我们对 \(y_{test}\) 的最佳点估计。它是由训练数据点的加权平均计算得出的,权重由核函数决定。 2. 预测方差 (Predicted Variance): 这衡量了我们对预测结果的不确定性。在靠近训练数据点的地方,方差会很小(预测很自信);在远离训练数据点的未知区域,方差会很大(预测很不确定)。
3. 后续规划:
IF AO 的学习表现比 MO 要好 我们将会聚焦于 AO (Atomic representation vs atomic orbital)
- AO one body decomposition
- MO two body decomposition