基因组结构变异与丰富多彩的生物性状进化和严重疾病表型密切相关。多种遗传病和癌症的变异研究需要在多个样本之间进行基因组变异差异比较,进而获得真正与疾病进展相关的新生(de novo)和体细胞(Somatic)结构变异。目前,领域内常用的“先检测再求差”的分步式策略要求在基因组检测后有多个计算步骤,繁杂的多步骤会导致错误累计快、假阳性高,无法精确解析新生、体细胞结构变异。为了解决这一难点问题,近日MED-X研究院数字医学研究所叶凯教授团队在新生和体细胞结构变异鉴定方法方面取得突破性进展。相关研究成果以“De novo and somatic structural variant discovery with SVision-pro”为题,于2024年3月22日发表在《自然·生物技术》(Nature Biotechnology,IF=46.9)杂志上。
图1. 基于“序列-图像”转换策略的多样本差异比较算法SVision-pro。在信息编码模块中,多样本基因组精细比较信息从序列空间转换到图像空间;在差异识别模块中,通过深度学习分割图像空间元素,直接识别样本间结构变异精细差异。
叶凯教授团队长期致力于结构变异的精细解析研究,并于2022年在《自然·方法》(Nature Methods)杂志上发表SVision方法,首次把“序列-图像”转换策略引入到单样本结构变异检测领域,并解析了不同人种在神经发育基因上的复杂结构变异。然而,遗传病和癌症的分子机理探究需要精细比较多个样本之间的变异差异,进而获得与遗传病相关的新生(de novo)和与肿瘤发生发展相关的体细胞(Somatic)结构变异。为了解决基于传统多样本比较策略假阳性高、临床实践难实施的这一难点问题,叶凯教授团队提出了基于“序列-图像”转换策略的多样本差异比较算法SVision-pro,突破了传统“先检测再求差”的策略,将结构变异的检测和分型问题从序列问题统一转化为图像空间的变异实例分割问题,直接比较图像化的样本测序差异,实现了高精确性、低假阳性的新生、体细胞结构变异的精准识别,为后续从大规模专病队列数据和临床诊断数据中发现关键致病结构变异提供关键技术支撑,为基于“人工智能+” 的生物序列大数据计算框架提供了新思路。
文章第一完成单位为西安交通大学第一附属医院。电信学部自动化学院博士生王松渤为该论文第一作者,叶凯教授为唯一通讯作者。本项研究工作受益于西安交通大学信息与生物医学研究中心的交叉学科模式构架:一附院妇产科杨筱凤教授的临床问题牵引和资源保障、Med-X研究院的计算资源支撑、数学学院孟德宇教授机器学习团队的基础理论与算法技术牵引、生命学院许丹教授的实验验证支持协作。该研究工作得到了国家自然科学基金杰出青年基金、国家重点研发计划“前沿生物技术”重点专项等项目资助。