通过机器学习加速开发仿生光合成共价有机框架
2026年3月25日,四川大学高分子科学与工程学院程冲教授(国家杰青)、李爽研究员、汪茂副研究员与德国柏林工业大学Arne Thomas教授合作在Nature Synthesis期刊上发表了题为“Machine learning-accelerated discovery of covalent organic frameworks for hydrogen peroxide photosynthesis”的研究成果。
该成果提出一种名为“信息共进化”的机器学习计算策略用于加速开发仿生光合成共价有机框架(COFs)高分子新材料。该机器学习计算策略通过数据增强与集合建模来有效解决数据稀缺问题,并引入跨层次特征融合策略,将片段描述符与机制驱动的物理描述符相结合,使验证均方根误差由4.70降至3.31。在超过一万种候选COF框架高分子结构中,该策略成功识别出如COF-343等高性能COFs新光合成材料,其H2O2光合作用速率达12,978.7 μmol h-1 g-1。通过模型解释进一步揭示了关键结构特征,为仿生光合成COFs新材料的理性设计提供了超越传统试错的新范式,并成功解决了相关研究领域的机器学习挑战。
论文通讯作者是李爽、汪茂、Arne Thomas、程冲;第一作者是贾晓珂、陈莉。
过氧化氢(H2O2)是一类环境友好型氧化剂及潜在能源载体,在化工制造与能源技术领域具有重要应用价值。当前工业生产主要依赖高能耗、伴随污染排放的蒽醌法,而基于水、氧气和太阳光的光催化合成路径,被认为是更具可持续性的替代方案。共价有机框架材料(COFs)因具备可调π共轭结构、给受体架构及良好化学稳定性,被视为光催化H2O2合成的理想平台。然而,现有研究整体性能仍受限制。统计显示,约77%的COFs光催化剂H2O2产率低于2000 μmol·h-1·g-1,仅约4%超过6000 μmol·h-1·g-1(图1a)。这一现状反映出材料设计范式的根本局限:一方面,传统实验“试错法”效率低下,仅能覆盖极小比例的化学空间;另一方面,机器学习方法在COFs体系中面临“双重技术瓶颈”,即多级结构特征难以高保真编码,以及小样本数据存在样本匮乏与性能噪声问题,严重制约模型预测精度与泛化能力(图1c-e)

图1:用于COF光催化剂设计的机器学习方法论构建与挑战分析。

图2:COF光催化H2O2产率预测模型与从头设计流程。
针对上述瓶颈,研究团队提出一种模型反馈驱动的“信息共进化”计算策略。该策略通过数据增强与特征优化的协同机制,系统解析多级构效关系。在数据层面,引入结构等价性扩增方法扩大样本规模,并结合集成学习降低实验噪声影响(图3a);在特征层面,采用低维片段表征替代高成本三维建模,并基于物理化学机理重构关键描述符,涵盖光吸收、电荷分离与表面反应过程(图3b–g)。这种数据与特征维度的协同优化直接反映在模型性能的提升上:在评估阶段,模型的预测误差(RMSE)实现阶梯式收敛,从4.70下降至3.85,最终稳定在3.31(图3h-i)。基准测试表明,该策略的预测精度优于深度神经网络、图神经网络和Transformer等算法。

图3:通过数据增强与特征优化协同提升模型性能。
为验证模型的应用能力,研究团队基于胺与醛单体组合构建了包含10,881种COF结构的预测数据集,并对光催化性能进行了系统评估。研究通过对单体预测性能的排序与SHAP定量分析,明确了核心结构单元及相关理化描述符对H2O2产率的影响权重,从而确立了该体系的初步构效关系指标(图4)。模型预测结果进一步显示,大多数COF的H2O2产率较低,仅少数结构具有较高潜力。作者选取了部分高性能结构进行实验验证,其中COF-343、COF-2835、COF-2449和COF-8484的H2O2产率分别达到了12978.7、11767.9、9058.5和6431.9 μmol·h-1·g-1,优于大多数文献报道材料。为进一步评估模型的稳健性,研究选取高性能与低性能材料进行对比实验,实验结果与模型预测排名保持一致,且随着算法迭代,不同模型的预测值逐步接近实验值(图5)。

图4:基于单体筛选与SHAP分析的构效关系研究。

图5:候选COF结构的性能预测、实验验证及构效关系分析。
作者提出了一种基于信息共进化机制的机器学习计算策略,用于仿生光合成H2O2的高性能COFs框架高分子结构筛选。该策略通过特征优化与数据增强的协同机制,解决了多级结构与小样本体系的表征难题,实现了对大规模未知化学空间的内插与外插发现,并揭示了关键构效关系。进一步改进可以通过集成高精度物理描述符并构建实验动态闭环,从而提高模型在未知空间中的预测精度与逆向设计能力。(来源:科学网)
相关论文信息:https://doi.org/10.1038/s44160-026-01037-0


