原子、分子、复合物级性质预测均最佳,清华分子预训练框架登Nature子刊


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

编辑 | KX

AI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。

为了解决这个问题,来自清华大学的研究人员提出了一种称为分数去噪(Fractional denoising,Frad)的分子预训练框架,以学习有效的分子表示。通过这种方式,噪声变得可自定义,允许纳入化学先验,从而大大改善分子分布建模。

实验表明,Frad 始终优于现有方法,在力预测、量子化学特性和结合亲和力任务中,取得最先进的结果。改进的噪声设计提高了力准确性和采样覆盖范围,这有助于创建物理一致的分子表示,最终实现卓越的预测性能。

相关研究以「Pre-training with fractional denoising to enhance molecular property prediction」为题,于 9 月 18 日发布在《Nature Machine Intelligence》上。

论文链接:https://www.nature.com/articles/s42256-024-00900-z

AI 用于分子性质预测的挑战

分子性质预测是药物发现和材料设计等各个领域的一项关键任务。传统方法,包括第一性原理计算和湿实验室实验,需要巨大的成本,从而阻碍了具有所需特性的分子的高通量筛选。科学家认为深度学习方法可以降低成本和大幅加速筛选过程。

深度学习分子性质预测方法面临的主要困难是标记分子数据的稀缺性。为了缓解这一困难,已经提出了各种自监督分子预训练方法来利用未标记分子数据中的内在信息。

不幸的是,直接借用计算机视觉和自然语言处理中流行的预训练任务可能不适合分子,因为它们忽略了分子的基本物理原理。

相比之下,在预训练中应用去噪可以解释为等效的力学习,但有限的噪声分布会给分子分布带来偏差。这里的挑战在于有效地模拟全面的分子分布,同时保留力学习的基本物理解释。

Frad:分数去噪的分子预训练框架

鉴于模拟真实分子分布的难度,清华团队选择通过将有关分子分布的化学先验引入噪声设计来更全面地表征分布,由于噪声分布的限制,这在以前的方法中是被禁止的。

因此,研究人员提出了一种称为分数去噪(Frad)的分子预训练框架,证明其具有力学习解释。

具体而言,给定一个平衡分子构象,添加化学感知噪声(CAN)和坐标高斯噪声(CGN)的混合噪声并获得噪声构象。训练模型以从噪声构象中预测 CGN。「分数」(fractional)是指恢复引入的全部噪声的一小部分。特别是,CAN 是可定制的,使 Frad 能够结合化学先验来优化分子分布建模。

受描述分子构象变化的化学先验的启发,研究人员提出了两个版本的 CAN。具体来说,旋转噪声(RN)被用来捕捉单键的旋转,而振动和旋转噪声(VRN)被用来反映各向异性的振动。

Frad 框架的整个流程如下图所示。给定一个平衡分子构象 xeq,添加 CAN 和 CGN 的混合,其中平衡构象是指分子势能面局部最小值处的结构。

然后,训练模型从噪声构象(即 Frad)中预测 CGN,因为它恢复了一部分引入的噪声。具体来说,利用等变图神经网络 (GNN) 从噪声构象中提取特征,然后噪声预测头根据这些特征预测 CGN。

研究使用 TorchMD-NET 作为骨干模型,从 3D 分子输入中获得等变特征。具体来说,理论分析表明,无论 CAN 分布如何,该任务都具有力学习解释,而 CAN 分布会影响力目标和采样分布。因此,精心设计 CAN 以与真实的分子构象分布保持一致,与现有的去噪方法相比,可以实现更精确的力目标和更广泛的采样分布。

在微调过程中,研究人员从预训练权重初始化等变 GNN,随后为每个单独的下游任务量身定制不同的属性预测头。预训练的 GNN 权重以及预测头中的参数在下游标签的监督下继续更新。

图示:Frad 框架概述。(来源:论文)

Frad 提升了性质预测性能

为了评估 Frad 在预测分子性质方面的有效性,进行了一系列具有挑战性的下游任务,包括原子级力预测、分子级量子化学性质预测和蛋白质-配体复合物级结合亲和力预测。

Frad 模型与已建立的基线进行了系统比较,包括预训练方法以及未经预训练的性质预测模型。

原子级力预测

首先,评估了 Frad 在各种分子动力学数据集(即 MD17、ISO17 和 MD22)中预测力的表现。

Frad 在八种分子中的七种上的表现都优于基线。特别是与 Frad 方法具有相同主干的去噪预训练方法,即 3D-EMGP 和 Coord 相比,Frad 的优越性显而易见。这凸显了在去噪中引入化学先验以准确模拟分子分布的必要性。在训练集的大小有限的情况下,Frad 预训练始终能大幅度增强主干模型 TorchMD-NET,表明 Frad 有效地学习了分子的内在原理并具有出色的泛化能力。

对于大训练集设置中的苯,在 Frad 的微调过程中出现了过拟合现象,而这在其他分子中并没有观察到。这可能是由于苯的结构相对固定,导致低维特征容易出现过拟合。

ISO17 和 MD22 上的结果如表 1 所示。骨干模型 TorchMD-NET 的性能通过 Frad 预训练不断提高。

分子级量子化学性质预测

为了验证 Frad 是否能在不同性质上取得有竞争力的结果,研究人员在 QM9 数据集中的 12 个任务上评估了 Frad(RN) 和 Frad(VRN)。表 2 总结了 Frad 的结果以及预训练和监督基线。

总体而言,Frad 超越了监督和预训练方法,并在 12 个目标中的 9 个目标上取得了最先进的结果。此外,在 11 个目标上基于骨干模型 TorchMD-NET 取得了显著的改进,表明 Frad 预训练学到的知识对大多数下游任务都有帮助。

此外,在表格下半部分明显优于去噪预训练方法。特别是,Frad 在所有 12 个任务中都达到或超过了使用相同骨干 TorchMD-NET 的 Coord 方法的结果,表明引入的分布化学先验有助于多类性质。还注意到 VRN 和 VN 的性能相当。以此推测,对于 QM9 数据集中对输入构象不太敏感的任务(与力预测任务相比),各向异性振动噪声的建模可能并不重要。

复合物结合亲和力预测

蛋白质-配体结合亲和力 (LBA) 预测旨在预测蛋白质和配体之间的相互作用强度。研究人员在 ATOM3D 数据集中评估了 Frad 在 LBA 任务上的表现。

在 ATOM3D 预处理之后,Frad 从蛋白质中提取结合口袋,并利用口袋-配体复合物结构作为输入来预测结合亲和力值。结果显示在表 3 中。

Frad 击败了针对蛋白质表示量身定制的基于序列和基于结构的基线,表明 Frad 是一种适用于小分子和蛋白质的通用表示学习方法。预训练基线 SE(3)-DDM 不评估训练集和测试集之间涉及 60% 蛋白质序列同一性的分割设置,是一种等变 Coord 方法,可对成对原子距离上的高斯噪声进行去噪。同样,Frad 超越了传统的去噪方法,再次表明了引入化学先验的重要性。

未来工作

未来研究的几个探索方向如下:

  • 首先,增加预训练数据量有可能显著提高整体性能。由于获得精确的分子构象成本高昂,目前使用的预训练数据集仍然比二维和一维分子数据集小得多。将来会有更多 3D 分子数据可用。
  • 其次,目前的重点是使用 3D 输入进行属性预测。通过与其他预训练方法相结合,可以生成一个能够跨数据模态处理分子任务的模型。
  • 最后,如何为典型的分子类别设计 CAN 值得研究,例如核酸、蛋白质和材料,以便 Frad 可以有效地应用于更广泛的领域,并加快药物和材料的发现。

通过这些改进,Frad 有可能成为适用于各种分子任务的强大分子基础模型。从而催化药物发现和材料科学等领域的突破。


# 子类  # Property  # https  # 提出了  # 有效地  # 各向异性  # 是一种  # 有可能  # 是指  # 适用于  # 所示  # 这在  # 最先进 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】  构建卓越的AI驱动测试自动化框架:QA工程师指南  Tamilnad Mercantile Bank TMB:如何在线下载账户报表  快手本地生活AI如何预约景区火车票_快手AI本地生活抢票步骤【步骤】  Gemini怎么用新功能实时问答_Gemini实时问答使用【步骤】  AI破译古文字:重现失落文明之声,揭秘历史真相  AI电商网站搭建:CSV到WooCommerce全流程指南  AI威胁论:超人工智能ASI时代来临,人类如何应对?  AI时代设计师生存指南:职业发展、技能提升与未来趋势  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  怎么用AI帮你解读复杂的学术论文?快速抓住核心论点和证据  零成本AI营销机构:2025年自动化运营,颠覆传统营销模式  通义千问怎么用_通义千问使用方法详细指南【教程】  Vidu AI:使用Q1模型轻松创建电影级短片  AI 编码助手大比拼:Gemini、Tabnine 和 Cline 的深度测评  雷小兔ai智能写作如何优化语句_雷小兔ai智能写作语句润色技巧【攻略】  Google AI Studio文本转语音教程:零成本创作高质量音频  AI标语生成器:轻松打造品牌口号,提升品牌价值  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  教你用AI进行角色扮演对话,练习你的沟通和谈判技巧  播客成功的秘诀:打造高转化率的内容和社区  tofai入口官方网站 tofai网页版入口地址  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐  ChatGPT新手指南:大学生如何高效利用AI工具?  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  千问能否生成多语言年终总结_千问多语言翻译与本地化调整【攻略】  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  怎么用AI学习新知识?3步教你构建个人知识库  AI赋能营销:5分钟快速生成品牌营销素材全攻略  使用AI简化多机位播客视频编辑:Eddie AI全面指南  如何用文心一言写简历 快速生成高含金量求职简历方法  千问怎样调整回答语气_千问语气设置亲切专业等【指南】  微信AI数字人如何设置工作时间_微信AI数字人时段开关与值班安排【实操】  2025年最佳AI时间管理软件:Motion、Reclaim AI与Clockwise终极评测  探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙  怎么用AI帮你写一份客户感谢信?维系客户关系的利器  DesignGen: 5个AI模型革新服装设计,快速实现创意  如何配置 DeepSeek 以支持企业级私有化部署  Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图  Mootion AI视频生成器:一键创作动画故事!  千问如何生成预算执行总结_千问预算数据与执行对比分析【方法】  AI代码助手的崛起:软件工程的未来展望与实用指南  利用AI模板高效创建产品需求文档 (PRD)  ChatGPT 4o图像生成器:免费AI绘画技巧与应用  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  批改网ai检测工具能否检测引用格式_批改网ai检测工具引用格式检查与修正提示【攻略】  教你用AI快速制作思维导图,3步理清所有工作思路 

 2024-09-21

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.