当前位置: 首页 > news >正文

全球公共代谢组数据的全局图谱绘制

摘要

海量公共代谢组学数据整合了数千项研究成果,但长期难以实现高效检索与深度挖掘。本研究开发了网页端工具StructureMASST,可依托分子名称或化学结构式,在各大公共代谢组学数据库中开展规模化、以化学结构为核心的检索。该工具依托预构建知识库完成检索,库内包含21.9亿条谱图匹配结果与4.2亿条元数据关联信息;支持耐受化学修饰检索与质量偏移检索,可将化学结构与物种分类、生物学背景、环境条件进行关联解析,进而加快科研发现进程。

https://structure-masst.gnps2.org/

elabiead@gmail.com

mingxun.wang@cs.ucr.edu

pdorrestein@health.ucsd.edu

#代谢组学 #串联质谱 #基于结构检索 #谱图匹配 #元数据 #公共数据库 #代谢物修饰

StructureMASST设计思路与核心功能

图1FASSTrecords与StructureMASST整体架构

a. 传统单图谱MASST检索流程:需使用者掌握多种工具与专业知识、具备质谱分析能力,依靠专家筛选单张特征图谱,手动整合元数据,仅能检索目标分子对应的部分谱图。

b. StructureMASST优化后的检索流程:无需复杂专业背景,支持基于完整结构/子结构检索全部串联质谱图谱与配套元数据,实现生物背景关联分析;同时兼容耐受修饰检索,可完成多图谱联合检索。

c. FASSTrecords数据整合逻辑:整合全球公共代谢组学数据集,依托GNPS2、MassBank、MoNA等谱图库建立分子与化学结构的关联,通过整型索引键统一接入结构化查询语言(SQL)数据库。

d. 数据库核心表结构与数据规模:数据库包含4张关联数据表,累计完成12.04350873亿条谱图匹配;整合920,790个原始数据文件、4,990套数据集、18亿张串联质谱图谱;结合PanReDU完成原始文件元数据索引,实现分子分布、子结构分布、分子类似物分布的可视化检索。

e. StructureMASST网页交互界面:支持基于结构检索库谱、多图谱联合匹配、分子分布解析等功能。

Multi-MASST两大检索运行模式

多图谱联合检索分为探索式检索、预计算检索2种模式,2者在检索速度、适用范围上存在差异。

表1存储公共代谢组学数据注释信息的SQLite数据库表结构

典型应用案例(功能实测)

研究选取咖啡因、表面活性素、铁载体类化合物、抗抑郁药舍曲林、抗心律失常药胺碘酮等多类物质开展实例验证,覆盖全结构检索、子结构检索、类似物/代谢物检索3大场景。

图2 基于子结构与结构类似物的代谢物图谱解析

a. 水杨酸-噻唑啉子结构检索结果:基于该核心子结构检索得到9种化合物的串联质谱图谱(余弦阈值0.7,匹配峰数≥5),多图谱联合检索证实这类分子同时存在于细菌与人类样本中。

b. 舍曲林类似物检索结果:该抗抑郁药及其类似物仅在人体组织样本中检出(余弦阈值0.6,匹配峰数≥5),筛选条件为母体离子与类似物离子共存于同一原始文件。

c. 质量亏损分析:区分含氯/无氯、单氯/二氯代谢物,判定离子碎片的氯原子组成,标注结果可信度高低。

d. 保留时间共流出分析:质量偏移-31.04 Da的碎片与母体离子共流出,证实该碎片为源内碎片离子,并非真实体内代谢产物。

e. 舍曲林羧基化修饰(质量偏移+ 43.99 Da)位点解析:红色标注为修饰高概率发生位点。

f. 舍曲林戊糖结合修饰(质量偏移+ 148.04 Da)位点解析:红色标注为修饰高概率发生位点。

数据

本研究所用全部质谱原始数据均可在4大公共代谢组学数据库获取:

GNPS/MassIVE、MetaboLights、Metabolomics Workbench和NORMAN/DSFP

已完成元数据标准化的参考谱图库可访问链接

https://external.gnps2.org/gnpslibrary

预计算数据库FASSTrecords会定期更新,稳定版本与实时版本分别发布于

https://zenodo.org/records/18199544

https://masst-records.gnps2.org/masst_records

该数据库遵循ODC-ODbL开放数据库协议

代码

StructureMASST工具的完整源代码已托管至GitHub开源平台

https://github.com/Wang-Bioinformatics-Lab/Structure_MASST_App

详细总结

思维导图

存储公共代谢组学数据注释信息的SQLite数据库表结构

参考

Nat Biotechnol. 2026 Apr 15. doi: 10.1038/s41587-026-03082-8.

Structure-centric searching enables global mapping of the public metabolome

260415StructureMASST.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.cnnetsun.cn/news/2884987.html

相关文章:

  • 3D模型格式转换终极指南:如何免费快速将STL转为STEP格式
  • 如何利用SUSI Firefox Bot提升浏览器智能助手体验?
  • 从云服务器到树莓派:手把手教你用torch.load的map_location实现PyTorch模型全平台部署
  • 3分钟快速上手N_m3u8DL-RE:终极流媒体下载器完整实用指南
  • 【动态规划】买卖股票的最佳时机Ⅲ
  • Python 爬虫项目:参数拼接与表单提交
  • SV2V:解决现代硬件设计工具链兼容性的关键技术方案
  • hot100 33.搜索旋转排序数组
  • 基于 Harmony 6.0 应用的校园表白墙应用首页实现
  • JSP+Servlet点餐系统工程包:含完整源码、MySQL建表脚本与Tomcat一键部署配置
  • dabl自动化数据科学:从EDA到基线建模的一站式实践
  • 分支限界法实战:从TSP到工业优化的可调试最优解实现
  • 生产级机器学习服务化:从模型部署到可观测性实战
  • 程序员必备技能:自定义Agent!
  • 不要再说“帮我润色”了:科研写作 Prompt 应该这样写
  • OpenCore Legacy Patcher终极指南:4步让老旧Mac重获新生的完整教程
  • 生产级模型部署全链路指南:从Flask到云原生MLOps
  • 微信读书笔记助手WeReader:一键导出高效笔记的完整解决方案
  • Python实战:手写一个LLM API统一网关,实现DeepSeek/通义千问/OpenAI多Provider自动容灾切换
  • 3分钟学会用手机识别电阻值:Resistor Scanner让电子设计更简单
  • 别再乱选采样器了!Stable Diffusion图生视频保姆级采样器选择指南(附腾讯云HAI 32G显存实测)
  • 超图增强知识图谱嵌入技术在酶预测中的应用
  • 机器学习生产化:可观测性、弹性伸缩与灰度发布的工程实践
  • t检验与F检验在机器学习模型评估中的实战应用
  • SolidWorks装配体文件批量重命名避坑指南:C# API RenameDocument的完整流程与常见错误
  • 字节、拼多多、腾讯面试大模型算法工程师全流程解析:从自我介绍到手撕代码,5大环节必杀技!
  • GAN器件CGH40010F的Doherty功放仿真笔记:如何用ADS快速验证阻抗调制与效率曲线
  • OpenCV图像处理流水线优化:从imread到imencode,一步到位搞定图片压缩与网络传输
  • 别再死记硬背了!用Python+Requests库5分钟自动获取超星学习通章节测试答案(附完整代码)
  • 自指动力学的哈密顿量与拉格朗日量形式(世毫九实验室原创理论)