Meeting Notes

1. 九月份规划：

内容:

1.1 经典论文模型复现：

1.1.1 MetaAI-3D蛋白质结构对比学习 github
1.1.2 DrugDAGT github !!! orbnet qm9的graph based的feature github
1.1.3 GCL & GCFORMER 经典对比学习论文 !! Graph contrastive learning former - NIPS2024 github
GCL Graph Contrastive Learning with Augmentations - NIPS github

1.2 数据集：

quantum-machine-QM9 中科大实验课做了个QM9数据集的demo

闭壳层分子数据集
分子规模：含 13.4 万个稳定的小分子有机物
元素组成：仅包含 H（氢）、C（碳）、N（氮）、O（氧）、F（氟）5 种元素
计算理论水平：所有分子属性基于DFT（密度泛函理论）/B3LYP 泛函 / 6-31G (2df,p) 基组计算
包含属性：偶极矩、HOMO（最高占据分子轨道）能量、LUMO（最低未占据分子轨道）能量、0K 内能、298.15K 内能等，是闭壳层分子性质预测的基准数据集
训练输入：闭壳层下的量子化学矩阵，即 Fock 矩阵（F）、密度矩阵（P）、哈密顿矩阵（H）、重叠矩阵（S），构成向量 T 的闭壳层形式（因闭壳层自旋对称，无需区分 α、β 自旋，故 T=[F,P,H,S]）
特征本质：这些矩阵编码了分子的电子结构信息（如轨道间相互作用、电子密度分布），是 OrbNet-Equi 学习 “分子结构 - 能量” 映射的核心依据
训练输出：QM9 中的0K 内能作为核心训练目标输出，0K 内能是分子势能面（PES）计算的核心属性，直接关联分子稳定性与反应能垒预测，相比其他属性（如偶极矩），能量是闭壳层与开壳层系统共有的关键指标，便于后续扩展到开壳层能量预测。

1.3 复现方式：

数据小型化复现： setp1: 5k bonds and edges

setp2: 10k bonds and edges

setp3: 20k bonds and edges

1.4 两种数据空间一个待理解的概念Open-shell：

AO (Atomic Orbital)：原子轨道。
MO (Molecular Orbital)：分子轨道。
Open-shell：开壳层组态。

1. AO (Atomic Orbital) - 原子轨道层面 / 以原子为中心的模型

将分子看作是原子（节点）和化学键（边）构成的图。模型学习每个原子以及其周围局部环境的representation，预测整个分子的性质。

key: 分子的性质是由其组成原子以及原子间的相互作用决定的。
输入: 原子的坐标、原子类型、以及原子间的距离或键合关系。
方式: 消息传递图神经网络 (Message Passing Neural Network, MPNN) 。每个原子（节点）从其邻居原子那里接收“消息”（信息），更新自己的状态（特征向量）。过程会重复多次（对应图神经网络的多个GCL层），信息可以在整个分子中传播。
- EGNN (E(n) Equivariant Graph Neural Network): 典型的以原子为中心的模型。等变性 (Equivariance)，旋转或移动整个分子时，模型内部学习到的原子表示也会相应地旋转或移动，最终预测的能量等标量属性保持不变。符合物理规律，性能出色。它直接在原子的3D坐标上进行操作。
- OrbNet: 数据来源采用半经验方法（GFN1-xTB）生成量子化学矩阵，显著降低了计算成本，同时保留了关键物理信息,支持数千原子规模的分子模拟。闭壳层（Closed-shell）与开壳层（Open-shell）系统的区别：闭壳层电子自旋全配对（仅需考虑空间自由度），开壳层含未配对电子（需同时考虑空间和自旋自由度），开壳层在自由基、反应中间体等场景的关键意义。
  - key: 基于原子轨道（AO）特征（自洽场（SCF）收敛过程中的量子化学矩阵）预测分子能量。
  - 特征表示: 采用对称适配原子轨道（SAAO）基组，将 AO 特征编码为图结构数据。
  - 模型架构: 基于图神经网络（GNN），解码输出张量并求和得到分子能量。

2. MO (Molecular Orbital) - 分子轨道层面 / 以分子为整体的模型

直接学习或预测整个分子的全局属性，分子整体电子结构相关的属性。分子轨道本身就是由所有原子轨道线性组合而成的，描述了电子在整个分子中的运动状态。

key: 直接对分子的全局特征或其电子结构的宏观表现（如轨道能级）进行建模。
典型输入: 整个分子的描述符（例如分子指纹 fingerprint），或者直接将分子结构作为输入来预测分子轨道的性质。
工作方式: 这类模型可能不完全依赖于原子间的消息传递，而是旨在直接构建一个从分子到其全局属性的映射。例如，预测分子的最高占据分子轨道 (HOMO) 和最低未占据分子轨道 (LUMO) 的能量。

3. Open-shell - 开壳层组态

Open-shell

随便看看的一篇ICML-2024 ICML-WORKSHOP-2024

NPJ-2022

PNAS-2022 OrbNet-Equi !!! orbnet qm9的graph based的feature

2. 十月份规划：

2.1 What we need to do?

我们需要分析AO 和 MO 的表现。

我们不确定MO和AO的variability的差异，是由EGNN还是GPR带来的他们的information不一样。

Learning curve - learnability图

我们需要通过对比学习找到 AO 和 MO 的 similarity。

理想化结果：我们希望AO通过对比学习达到MO的程度，我们希望对比学习对AO更有用。

我们希望达到GCL + AO

AO从物理意义上更本质，MO的性质更好。

Final goal Inverse design 需要生成 AO

2.2 (Linear Combination of Atomic Orbitals)

LCAO 原子轨道线性组合 (Linear Combination of Atomic Orbitals)。

key: 分子的复杂行为（由分子轨道MO描述）可以近似地通过其组成原子的更简单的行为（由原子轨道AO描述）来构建。一个分子轨道 (MO) 可以表示为多个原子轨道 (AO) 的加权和。
数学形式: 一个分子轨道 \(\Psi_{MO}\)，它可以表示为： \[\Psi_{MO} = c_1\phi_1 + c_2\phi_2 + \dots + c_n\phi_n = \sum_{i=1}^{n} c_i\phi_i\] 其中：
- \(\Psi_{MO}\) 是一个分子轨道波函数。
- \(\phi_i\) 是第 \(i\) 个原子的原子轨道波函数。
- \(c_i\) 是每个原子轨道的组合系数 (coefficient)，它是一个权重值，表示该原子轨道对这个分子轨道的贡献大小。系数通过求解薛定谔方程（通常使用Hartree-Fock等近似方法）得到的。
ex: 氢分子（H₂）。有两个氢原子，每个氢原子有一个1s原子轨道（\(\phi_A\) 和 \(\phi_B\)）。这两个原子轨道可以通过两种方式线性组合，形成两个分子轨道：
1. 成键轨道 (Bonding MO): \(\Psi_{\sigma} = c_A\phi_A + c_B\phi_B\)。电子处于这个轨道时，会主要分布在两个原子核之间，形成稳定的化学键。能量比原来的AO更低。
2. 反键轨道 (Antibonding MO): \(\Psi_{\sigma^*} = c'_A\phi_A - c'_B\phi_B\)。电子处于这个轨道时，会主要分布在原子核的外侧，排斥两个原子核，不利于成键。能量比原来的AO更高。

2.3 Localization (分子轨道局域化)

分子轨道（MOs），尤其是通过标准计算方法（如Hartree-Fock）直接求解出来的，通常是离域的 (delocalized)。这意味着每个MO都可能扩展到整个分子，由分子中几乎所有原子的AOs贡献构成。例如，在苯环中，计算出的π电子MO会均匀地分布在六个碳原子上。

分子轨道局域化 (Localization of Molecular Orbitals) 就是一个数学变换过程，它将这些离域的MOs转化为一组新的局域化分子轨道 (Localized Molecular Orbitals, LMOs)。

核心目标: 在不改变分子整体波函数和总能量的前提下，将分子轨道尽可能地限制在空间中的一小块区域内。
变换结果:
- 离域的成键轨道 \(\rightarrow\) 对应于特定 化学键 的局域轨道（例如C-H键，C=C双键）。
- 离域的非键轨道 \(\rightarrow\) 对应于特定原子上的 孤对电子 (lone pair) 或 内层电子。
局域化:
1. 化学直观性: LMOs提供了清晰的化学图像，便于理解和分析化学成键情况。

3. LCAO 和 MO 的关系

LCAO是构建MO的方法: LCAO是用于近似计算和表示分子轨道（MO）的数学框架。我们假设MO可以由一组已知的基函数（即原子轨道AO）线性组合而成。
MO是LCAO方法的结果: 通过LCAO方法，结合量子力学变分原理求解薛定谔方程，我们最终得到了一系列分子轨道（MOs）的具体形式（即每个AO的贡献系数\(c_i\)）以及它们的能量。

原子轨道 (AO) [输入] \(\xrightarrow{\text{LCAO方法 [过程/框架]}}\) 分子轨道 (MO) [输出/结果]

4. 高斯过程回归 (Gaussian Process Regression, GPR)

高斯过程回归 (GPR) 是一种基于贝叶斯思想的非参数回归方法。它在处理小样本、高维度、需要不确定性估计的复杂回归问题时特别有效。

key

GPR的核心是直接对函数本身进行建模。它假设我们想要建模的目标函数 \(f(x)\) 是一个服从高斯过程 (Gaussian Process, GP) 的随机函数。

高斯过程 (GP) 一个高斯过程是无穷多个随机变量的集合，其中任意有限个随机变量的组合都服从一个联合高斯分布。一个GP定义了一个关于函数的分布 (a distribution over functions)。当我们从这个GP中“采样”时，我们得到的不是一个数值，而是一整个函数。

一个高斯过程完全由两部分定义： 1. 均值函数 (Mean Function) \(m(x)\): 定义了函数分布的“期望”或“中心趋势”。通常为了简化，会假设均值为零。 2. 协方差函数 (Covariance Function) 或核函数 (Kernel) \(k(x, x')\): 定义了函数在不同输入点 \(x\) 和 \(x'\) 处的值之间的“相关性”或“相似性”。如果 \(x\) 和 \(x'\) 很接近，核函数的值就很大，意味着 \(f(x)\) 和 \(f(x')\) 的值会很相似。这编码了我们对函数平滑性的先验信念。

GPR 工作

GPR的工作流程：

第一步：定义先验分布 (Prior Distribution) 在看到任何训练数据之前，我们首先根据先验知识选择一个均值函数（通常为0）和一个核函数（例如常用的径向基函数核/RBF核）。这个GP定义了一个函数的先验分布，包含了我们能想到的所有“可能”的函数。

第二步：计算后验分布 (Posterior Distribution) 当我们得到一组训练数据 \((X_{train}, Y_{train})\) 后，我们利用贝叶斯定理来更新我们的函数分布。我们从先验分布中“筛选”掉那些与训练数据不符的函数，得到一个后验分布 (Posterior Distribution)。

这个后验分布仍然是一个高斯过程，其均值和协方差有解析解（可以直接计算出来），不需要复杂的迭代优化。

进行预测

对于一个新的测试点 \(x_{test}\)，我们想预测对应的 \(y_{test}\)。在后验分布下，\(y_{test}\) 的预测值服从一个一维高斯分布，这个分布有： 1. 预测均值 (Predicted Mean): 这就是我们对 \(y_{test}\) 的最佳点估计。它是由训练数据点的加权平均计算得出的，权重由核函数决定。 2. 预测方差 (Predicted Variance): 这衡量了我们对预测结果的不确定性。在靠近训练数据点的地方，方差会很小（预测很自信）；在远离训练数据点的未知区域，方差会很大（预测很不确定）。

3. 后续规划：

IF AO 的学习表现比 MO 要好我们将会聚焦于 AO （Atomic representation vs atomic orbital）

AO one body decomposition
MO two body decomposition

TianyaoBlogs

MEETING - AI4Chemistry conference notes