0%

QM9 Dataset

Uni-Mol2训练数据集详细参数表

数据集类别 数据集名称 规模/数量 数据来源 核心内容/性质 用途 对应文档段落标记
预训练数据集 Uni-Mol2 Dataset 约8.84亿个3D分子构象;含73,725,454个分子骨架(Scaffold) 1. Uni-Mol原有数据集(1900万分子);2. ZINC20数据库标准反应性子集 涵盖多样化分子结构,包含原子特征、键特征、3D坐标等信息 用于Uni-Mol2模型预训练,学习分子结构与性质的通用表征 、、、
预训练验证集 Uni-Mol2预训练验证集 52万个分子 从Uni-Mol2 Dataset中随机采样 与Uni-Mol2 Dataset结构一致,包含完整分子特征与3D构象 评估预训练模型效果,探究验证损失与模型规模、数据集规模、计算资源的缩放定律
下游任务数据集 QM9 Dataset 13.4万个稳定有机分子(每个分子最多含9个重原子) 量子化学公开数据集(文献[41,42]) 含几何、能量、电子、热力学性质,核心性质包括:HOMO、LUMO、能隙(GAP)、极化率(alpha)、热容(Cv)、偶极矩(mu)、电子空间范围(R²)、零点振动能(ZPVE) 评估模型在分子量子化学性质预测任务中的性能,验证模型缩放效果
下游任务数据集 QM9衍生子集(train50) QM9训练集的50%样本(按HOMO-LUMO GAP标签分位数分层采样) QM9 Dataset训练集 与QM9 Dataset核心性质一致,仅样本量为原训练集的50% 模拟“有限标注数据”场景,评估模型在数据稀缺时的预测能力
下游任务数据集 QM9衍生子集(train100) QM9训练集的100%样本(按HOMO-LUMO GAP标签分位数分层采样) QM9 Dataset训练集 与QM9 Dataset核心性质一致,样本量为原训练集的100% 模拟“有限标注数据”场景,评估模型在数据稀缺时的预测能力
下游任务数据集 QM9衍生子集(train200) QM9训练集的200%样本(按HOMO-LUMO GAP标签分位数分层采样) QM9 Dataset训练集 与QM9 Dataset核心性质一致,样本量为原训练集的200% 模拟“有限标注数据”场景,评估模型在数据稀缺时的预测能力
下游任务数据集 COMPAS-1D Dataset 8678个多环芳烃(PAHs)分子 COMPAS项目公开数据集(文献[43]) 含有机光电材料关键性质,核心性质包括:绝热电子亲和能(aEA)、绝热电离势(aIP)、色散力(dispersion)、偶极矩(Dipmom Debye) 验证模型在有机光电材料相关性质预测中的泛化能力

Uni-Mol2相关数据集及资源链接汇总表

类别 数据集/资源名称 链接 用途说明 来源摘要编号

一、预训练数据集相关

预训练基础数据 | Uni-Mol1 预训练配体数据(ligands.tar.gz) | https://bioos-hermite-beijing.tos-cn-beijing.volces.com/unimol_data/pre_train/ligands.tar.gz | Uni-Mol2 可复用的基础预训练数据,含分子3D构象信息 | 1 |
预训练扩展数据 | ZINC20 数据集文献参考(Uni-Mol2 用到) | https://pubs.acs.org/doi/10.1021/acs.jcim.0c00675 | Uni-Mol2 预训练数据的核心来源之一(约1TB规模),需通过文献指引获取数据集 | 1 |
数据加载代码 | Uni-Mol2 数据集加载代码(load_dataset) | https://github.com/deepmodeling/uni-mol/blob/main/unimol2/unimol2/tasks/unimol2.py | 适配Uni-Mol2数据集格式的核心代码,用于数据读取与预处理 | 1 |
项目基础代码 | Uni-Mol 项目主页(含基础数据入口) | https://github.com/deepmodeling/Uni-Mol | 获取Uni-Mol系列(含Uni-Mol2)基础数据、预训练权重的核心入口 | 1、4 |

二、下游任务数据集(QM9及衍生)

QM9 原始数据 | QM9 分子结构数据(gdb9.tar.gz) | https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/gdb9.tar.gz | 含13.4万有机分子3D结构,用于量子化学性质预测任务 | 3 |
QM9 性质数据 | QM9 性质表格(qm9.csv) | https://deepchemdata.s3-us-west-1.amazonaws.com/datasets/qm9.csv | 对应QM9分子的热力学、电子性质标签(如HOMO、LUMO、偶极矩等) | 3 |
QM9 加载代码 | deepchem QM9 数据集加载脚本 | https://github.com/deepchem/deepchem/blob/master/deepchem/molnet/load_function/qm9_datasets.py | 第三方(deepchem)实现的QM9数据加载代码,可辅助数据预处理 | 3 |
QM9 修正数据集 | curatedQM9 项目页(含13.3万修正分子) | https://moldis-group.github.io/curatedQM9/ | 修正QM9中“未表征”分子的3D构象,含133660个有效分子,提供XYZ格式文件 | 6 |

三、Uni-Mol Docking V2 相关(衍生任务)

对接任务训练数据 | Uni-Mol Docking V2 训练数据集 | https://zenodo.org/records/11191555 | 用于配体-蛋白结合构象预测任务的训练/验证/测试数据 | 4 |
对接模型权重 | Uni-Mol Docking V2 预训练权重 | https://www.dropbox.com/scl/fi/sfhrtx1tjprce18wbvmdr/unimol_docking_v2_240517.pt?rlkey=5zg7bh150kcinalrqdhzmyyoo&st=n6j0nt6c&dl=0 | 预训练完成的对接模型权重,可直接用于推理或微调 | 4 |
小分子预训练权重 | Uni-Mol 小分子基础预训练权重 | https://github.com/deepmodeling/Uni-Mol/releases/download/v0.1/mol_pre_no_h_220816.pt | Uni-Mol Docking V2 依赖的小分子编码器预训练权重 | 4 |
蛋白口袋预训练权重 | Uni-Mol 蛋白口袋基础预训练权重 | https://github.com/deepmodeling/Uni-Mol/releases/download/v0.1/pocket_pre_220816.pt | Uni-Mol Docking V2 依赖的蛋白口袋编码器预训练权重 | 4 |
对接微调数据集 | 蛋白-配体结合构象预测微调数据 | https://bioos-hermite-beijing.tos-cn-beijing.volces.com/unimol_data/finetune/protein_ligand_binding_pose_prediction.tar.gz | 用于微调对接模型的LMDB格式数据集(含训练/验证/测试集) | 4 |
对接模型项目页 | Uni-Mol Docking V2 代码与数据入口 | https://github.com/dptech-corp/uni-mol | 获取对接模型完整代码、数据集更新及技术文档 | 5 |
对接在线服务 | Uni-Mol Docking V2 在线推理工具 | https://bohrium.dptech.com/apps/unimol_docking_v2 | 无需本地部署,直接在线使用对接模型进行结合构象预测 | 5 |

四、论文及核心参考

Uni-Mol2 论文 | Uni-Mol2 官方论文(arXiv) | https://arxiv.org/abs/2406.14969v1 | Uni-Mol2 模型设计、数据集构建及实验结果的核心参考 | 2 |