技术分享:HerbComb中药联合治疗数据库的构建与AI虚拟筛选落地
随着 AI 技术在制药领域的深入应用,高质量的结构化数据成为模型训练和药物发现的核心基础。在中药研发领域,由于数据的异构性和复杂性,一直缺乏一个全面、统一的整合数据库。本文将介绍最新上线的 HerbComb 中药组合疗法整合数据库的技术架构,并分享基于该数据库的 AI 化合物虚拟筛选技术实践。
一、HerbComb 数据库核心技术架构
数据整合与标准化HerbComb 整合了 15 个中药数据库、6 个方剂数据库以及 ChEMBL、UniProt 等国际权威靶点和蛋白数据库,同时手动标注了 2000-2023 年发表的 3900 余篇中药联合治疗相关文献。研究团队建立了统一的实体映射规则,对药材、成分、靶点、疾病等所有实体进行了标识符标准化处理,解决了跨数据库数据不一致的问题。
协同作用推断算法数据库采用基于网络邻近度的协同作用推断模型,通过构建人类蛋白互作网络,计算两个实体靶点集合之间的最短路径距离,量化其相互作用强度。为了保证结果的可靠性,所有推断结果均经过 1000 次随机置换检验,筛选出 P 值小于 0.05 的高置信度协同对,最终得到 2999 个药材 - 药材协同对和 7748 个成分 - 成分协同对。
多组学数据整合除了基础的实体关联数据,HerbComb 还整合了多维度的组学和性质数据:包括 49285 种成分的 119 项 ADMET 性质预测结果(基于 ADMETlab 2.0 模型),以及 693 种中药处理后的转录组基因表达特征数据,为多组学层面的作用机制研究提供了支持。
二、基于 HerbComb 的 AI 化合物虚拟筛选实践
HerbComb的高质量结构化数据,科晶生物搭建了端到端的中药活性成分虚拟筛选技术流程:
- 基于数据库的靶点 - 成分关联数据,快速构建针对特定靶点的中药化合物库;
- 采用分子对接技术(AutoDock Vina+Glide)进行初步筛选,结合 MD 动力学模拟验证结合稳定性;
- 整合 ADMET 性质数据,优先筛选成药性好的化合物;
- 结合转录组特征数据,进一步分析化合物的潜在作用通路。
该技术流程能够将传统实验筛选的周期从数月缩短至数周,大幅降低了早期研发成本。目前,该技术已应用于多个中药先导化合物发现项目,取得了良好的效果。
科晶生物化合物虚拟筛选技术流程
三、数据库访问与资源
HerbComb 数据库已开放免费访问,支持在线查询、自定义分析和数据批量下载,代码和相关数据集已托管至 GitHub相关研究论文:Wang et al., HerbComb: An Integrated Database for Herbal Combinational Therapies, CSBJ, 2025.
相关论文链接:https://doi.org/10.1016/j.csbj.2025.10.065.
