山西科技新闻网 > 要闻 > 正文

AI新工具探索“被忽视的 DNA 区域”

2025-08-01 科技日报

       美国索尔克研究所开发出一种名为 ShortStop 的机器学习框架,用于探索以往“被忽视的 DNA 区域”,寻找在疾病中发挥关键作用的微蛋白。相关研究发表在最新一期《BMC 方法学》上。这些微蛋白是蛋白质家族中的小型成员,其组成氨基酸通常少于 150个,因此难以通过传统蛋白质分析方法检测。长期以来,它们隐藏在基因组中被视为“非编码”或“垃圾 DNA”的 99%区域中,从未被充分研究。然而,越来越多证据表明,这些区域并非无用,其所编码的微蛋白在调节健康与疾病过程中扮演重要角色。传统研究方法主要关注编码大型蛋白质的 DNA 区域,而忽略了可能包含 微 蛋 白 编 码 指 令 的 小 开 放 阅 读 框(smORF)。尽管已有实验方法识别出了数千个 smORF,但这些方法成本高、耗时长,且无法有效区分具有生物学功能的微蛋白与无功能的序列,严重限制了相关研究的进展。ShortStop 的 出 现 改 变 了 这 一 局面。该 AI工具通过机器学习训练,不仅能够从大型基因数据库中识别出潜在的smORF,还能预测哪些微蛋白最有可能具备生物学相关性,从而显著提高研究效率。其核心创新在于采用双类别排序系统:通过将真实发现的smORF与计算机生成的随机“诱饵”序列进行比较,ShortStop 能 够 快 速 评 估 新 发 现 的smORF是否可能具有功能性,从而优先筛选出值得深入研究的候选者。团队将 ShortStop 应用于已发布的smORF 数据集后,发现约 8%的序列可能编码功能性微蛋白,并已将其列为优先验证目标。该工具还能识别出以往方法遗漏的微蛋白,包括在人体细胞和组织中实际表达的种类。尤为重要的是,它可直接利用广泛存在的 RNA 测序数据,这意味着许多实验室无需额外实验即可开展微蛋白研究。在 一 项 应 用 实 例 中 ,团 队 使 用ShortStop分析了肺癌相关的遗传数据,从肿瘤与正常肺组织的对比中识别出210种全新的微蛋白候选者。其中一种微蛋白在肿瘤组织中显著升高,显示出作为肺癌生物标志物或治疗靶点的巨大潜力,验证了该工具在疾病研究中的实用性。(记者张梦然)

责任编辑:张钰

热点新闻
  • 1 2021年中国五台山国际旅游文化节隆...
  • 2 忻州五台山机场 带您走近“世界的五...
  • 3 五台山精品景点寺庙
  • 4 史上最新最全的五台山旅游攻略
  • 5 康熙皇帝逸事
  • 6 五台山景区举行“光荣在党50年”纪...
  • 7 五台山开展建筑消防设施规范现场教...
  • 8 元宵节的由来与传说
  • 9 中国的传统节日“除夕夜”
  • 10 五台山10大遗产寺庙自助旅游攻略