近日,机械电子工程学院刘平教授、生命科学学院李祥教授联合中国农业科学院果树研究所王海波研究员在《Plant Biotechnology Journal》上发表了题为“DNAwhisper: An Integrated Deep Learning Pyramidal Framework for Multi-Trait Genomic Prediction and Adaptive Marker Prioritisation”的研究论文,提出了可解释的深度学习全基因组选择计算方法,助力作物复杂表型的早期预测和复杂数量性状遗传效应挖掘。机电学院博士后马岳鑫为第一作者,刘平教授、李祥教授和王海波研究员为共同通讯作者。

图1. DNAwhisper模型的金字塔结构示意图
现有全基因组选择(genomic selection,GS)方法多以加性模型为主,上位性等非加性效应的建模能力相对不足,对复杂数量性状的遗传贡献刻画不够充分。深度模型虽然具备更强的非线性表达能力,但在多特征小样本条件下训练与泛化容易受限,难以支撑育种决策与生物学验证。团队创新性的提出一种金字塔式可解释育种工具(DNAwhisper模型,图1):该工具可将分子标记按遗传分块进行分层处理,借助模块参数共享机制降低模型规模;融合关系保持预训练,以自监督方式对齐样本间遗传距离,使模型在隐空间中保留群体亲缘结构,从而在小样本条件下获得更稳健的归纳偏置。借助深度监督技术,将性状相关的遗传关联信号逐层蒸馏,既强化预测所需的关键信息,也为后续机制解析提供可追溯的表征基础以提升可解释性。研究表明,DNAwhisper模型在多个农作物群体上相较基准模型预测精度提升3.0%至10.0%,并可通过注意力权重回溯识别赤霉素(GA)代谢通路等关键调控信号(图2)。该方法为作物复杂表型的早期预测和数量性状遗传位点的深度挖掘提供了新的途径,可用于辅助种质筛选从而加速育种进程。

图2. DNAwhisper 模型的复杂性状基因挖掘
研究工作得到了山东省重点研发计划项目、国家重点研发计划项目、山东省自然科学基金、山东省博士后基金和小麦育种全国重点实验室811项目的资助。
论文链接:https://onlinelibrary.wiley.com/doi/10.1111/pbi.70619
编 辑:万 千
审 核:贾 波








