全球公共代谢组数据的全局图谱绘制
摘要
海量公共代谢组学数据整合了数千项研究成果,但长期难以实现高效检索与深度挖掘。本研究开发了网页端工具StructureMASST,可依托分子名称或化学结构式,在各大公共代谢组学数据库中开展规模化、以化学结构为核心的检索。该工具依托预构建知识库完成检索,库内包含21.9亿条谱图匹配结果与4.2亿条元数据关联信息;支持耐受化学修饰检索与质量偏移检索,可将化学结构与物种分类、生物学背景、环境条件进行关联解析,进而加快科研发现进程。
https://structure-masst.gnps2.org/
elabiead@gmail.com
mingxun.wang@cs.ucr.edu
pdorrestein@health.ucsd.edu
#代谢组学 #串联质谱 #基于结构检索 #谱图匹配 #元数据 #公共数据库 #代谢物修饰
StructureMASST设计思路与核心功能
图1FASSTrecords与StructureMASST整体架构
a. 传统单图谱MASST检索流程:需使用者掌握多种工具与专业知识、具备质谱分析能力,依靠专家筛选单张特征图谱,手动整合元数据,仅能检索目标分子对应的部分谱图。
b. StructureMASST优化后的检索流程:无需复杂专业背景,支持基于完整结构/子结构检索全部串联质谱图谱与配套元数据,实现生物背景关联分析;同时兼容耐受修饰检索,可完成多图谱联合检索。
c. FASSTrecords数据整合逻辑:整合全球公共代谢组学数据集,依托GNPS2、MassBank、MoNA等谱图库建立分子与化学结构的关联,通过整型索引键统一接入结构化查询语言(SQL)数据库。
d. 数据库核心表结构与数据规模:数据库包含4张关联数据表,累计完成12.04350873亿条谱图匹配;整合920,790个原始数据文件、4,990套数据集、18亿张串联质谱图谱;结合PanReDU完成原始文件元数据索引,实现分子分布、子结构分布、分子类似物分布的可视化检索。
e. StructureMASST网页交互界面:支持基于结构检索库谱、多图谱联合匹配、分子分布解析等功能。
Multi-MASST两大检索运行模式
多图谱联合检索分为探索式检索、预计算检索2种模式,2者在检索速度、适用范围上存在差异。
表1存储公共代谢组学数据注释信息的SQLite数据库表结构
典型应用案例(功能实测)
研究选取咖啡因、表面活性素、铁载体类化合物、抗抑郁药舍曲林、抗心律失常药胺碘酮等多类物质开展实例验证,覆盖全结构检索、子结构检索、类似物/代谢物检索3大场景。
图2 基于子结构与结构类似物的代谢物图谱解析
a. 水杨酸-噻唑啉子结构检索结果:基于该核心子结构检索得到9种化合物的串联质谱图谱(余弦阈值0.7,匹配峰数≥5),多图谱联合检索证实这类分子同时存在于细菌与人类样本中。
b. 舍曲林类似物检索结果:该抗抑郁药及其类似物仅在人体组织样本中检出(余弦阈值0.6,匹配峰数≥5),筛选条件为母体离子与类似物离子共存于同一原始文件。
c. 质量亏损分析:区分含氯/无氯、单氯/二氯代谢物,判定离子碎片的氯原子组成,标注结果可信度高低。
d. 保留时间共流出分析:质量偏移-31.04 Da的碎片与母体离子共流出,证实该碎片为源内碎片离子,并非真实体内代谢产物。
e. 舍曲林羧基化修饰(质量偏移+ 43.99 Da)位点解析:红色标注为修饰高概率发生位点。
f. 舍曲林戊糖结合修饰(质量偏移+ 148.04 Da)位点解析:红色标注为修饰高概率发生位点。
数据
本研究所用全部质谱原始数据均可在4大公共代谢组学数据库获取:
GNPS/MassIVE、MetaboLights、Metabolomics Workbench和NORMAN/DSFP
已完成元数据标准化的参考谱图库可访问链接
https://external.gnps2.org/gnpslibrary
预计算数据库FASSTrecords会定期更新,稳定版本与实时版本分别发布于
https://zenodo.org/records/18199544
https://masst-records.gnps2.org/masst_records
该数据库遵循ODC-ODbL开放数据库协议
代码
StructureMASST工具的完整源代码已托管至GitHub开源平台
https://github.com/Wang-Bioinformatics-Lab/Structure_MASST_App
详细总结
思维导图
存储公共代谢组学数据注释信息的SQLite数据库表结构
参考
Nat Biotechnol. 2026 Apr 15. doi: 10.1038/s41587-026-03082-8.
Structure-centric searching enables global mapping of the public metabolome
260415StructureMASST.pdf
注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。
