2026年5月25日,由国家超级计算天津中心首席科学家孟祥飞与清华大学智能产业研究院兰艳艳教授联合牵头的AI生物医药研究团队,正式推出面向超大规模药物发现的人工智能虚拟筛选平台——GalaxyVS。
该平台基于新一代天河超算系统,在全球范围内首次实现对近千亿级可合成化合物空间的秒级虚拟筛选,将传统需耗时数月乃至数年的药物早期筛选过程大幅压缩至数十秒。
创新药物研发长期受困于“双十”难题:平均耗时超过十年,研发投入逾十亿美元。其中,从海量化学分子中精准识别出可靶向特定蛋白质的活性候选物,是整个流程的关键起点。传统实验筛选方式成本高昂、周期冗长;而常规分子对接方法则普遍存在计算效率低、假阳性率高等局限。随着可合成化合物库规模迅速扩展至千亿乃至万亿量级,现有虚拟筛选技术在算法设计、算力支撑、存储架构及工程实现等多方面均面临前所未有的压力。
项目核心成员、国家超级计算天津中心李培顺博士介绍,GalaxyVS以清华大学智能产业研究院此前发表于科学杂志的DrugCLIP模型为技术基底,通过将蛋白质结合口袋与小分子统一映射至高维向量空间,将传统依赖逐一对接的蛋白—配体匹配任务,重构为支持大规模并行处理的高维向量快速检索问题,从而在根本上突破了传统分子对接在处理速度与规模容量上的双重瓶颈。
在算力适配方面,GalaxyVS深度整合新一代天河超算的大规模并行计算能力。团队依托自主研发的YH-Torch智能计算框架,完成DrugCLIP模型在国产异构硬件平台上的全面适配与深度优化,摆脱对传统CUDA/GPU生态的依赖,使近千亿分子的高效编码从理论模型切实转化为稳定运行的超算级工程系统。
在检索架构层面,系统创新引入磁盘原生图索引框架,并辅以定制化内存预加载机制,有效分离共享存储系统的性能约束与计算执行流程,显著提升整体吞吐效能,为超大规模虚拟筛选提供了坚实支撑。
实测结果表明,系统可在千级数字信号处理器节点上,高效完成涵盖约四百万个生物靶点口袋的全模式编码;并在逾两万个计算节点上同步开展分子检索任务。单次针对千亿级分子库的完整检索可在数十秒内完成,平均每个靶点口袋的响应时间不足一秒;系统日均分子对接吞吐量达十六万亿次,相较当前国际公开报道的最高超算纪录,提升达六个数量级。
展望后续发展,GalaxyVS将进一步延伸应用边界,覆盖跨物种蛋白—配体互作图谱构建、大规模开放药物数据集建设,以及AI驱动的药物发现新型基础设施布局,推动新药研发范式由经验主导转向数据驱动,由局部探索升级为全局覆盖,由单一算法演进为系统化工程体系。

评论
更多评论