当前位置：首页 > news >正文

生态学家必看：用R包SIMMR搞定稳定同位素混合模型，从数据导入到结果解读全流程

news 2026/6/5 16:42:54

生态学家实战指南：用SIMMR包实现稳定同位素混合模型全流程解析

在生态学研究中，稳定同位素技术已成为揭示食物网结构、营养级关系和污染物迁移路径的关键工具。然而，从原始同位素数据到可靠的食源贡献比例估算，需要经过复杂的统计建模过程。本文将带你深入掌握SIMMR（Stable Isotope Mixing Model in R）这一强大工具，从数据准备到结果解读，手把手完成全流程分析。

1. 环境准备与数据加载

1.1 安装与基础配置

SIMMR作为R语言生态位分析的重要工具，需要确保环境配置正确。首先安装必要的依赖包：

install.packages(c("R2jags", "ggplot2", "simmr"))

关键点注意：

JAGS（Just Another Gibbs Sampler）需单独下载安装
推荐R版本≥3.5.0以获得最佳兼容性
国内用户建议通过镜像源加速包安装

1.2 数据结构要求

SIMMR要求输入数据包含以下核心元素：

数据组件	格式要求	生态学意义
混合物数据	矩阵(n×m)	消费者组织的同位素测量值
食源均值	矩阵(k×m)	潜在食源的同位素基准值
食源标准差	矩阵(k×m)	食源的自然变异程度
校正因子(TEFs)	矩阵(k×m)	营养级富集效应
浓度依赖系数	矩阵(k×m)	元素含量差异校正

以包内示例数据集geese_data_day1为例，典型的数据加载方式如下：

data(geese_data_day1) simmr_in <- with( geese_data_day1, simmr_load( mixtures = mixtures, source_names = source_names, source_means = source_means, source_sds = source_sds, correction_means = correction_means, correction_sds = correction_sds, concentration_means = concentration_means ) )

2. 数据可视化与质量检查

2.1 同位素空间图解读

运行基础绘图函数可生成关键诊断图：

plot(simmr_in)

这张双同位素（δ13C vs δ15N）散点图能直观显示：

消费者数据点（黑色）是否位于食源（彩色椭圆）构成的凸包内
各食源之间的区分度是否足够
是否存在明显的离群值需要处理

常见问题处理：

若消费者点集中在某食源附近，可能暗示主导食源
消费者点超出凸包范围，需检查TEFs设置是否合理
食源高度重叠时，考虑合并相似源（后文详述）

2.2 多同位素系统处理

对于三同位素系统（如δ13C+δ15N+δ34S），需要绘制多组二维图全面评估：

plot(simmr_in, tracers = c(1,2)) # δ13C vs δ15N plot(simmr_in, tracers = c(1,3)) # δ13C vs δ34S plot(simmr_in, tracers = c(2,3)) # δ15N vs δ34S

3. 模型运行与诊断

3.1 MCMC参数设置

核心建模函数simmr_mcmc的关键参数：

simmr_out <- simmr_mcmc( simmr_in, mcmc_control = list( iter = 10000, # 迭代次数 burn = 1000, # 老化期 thin = 10, # 稀释间隔 n.chain = 4 # 马尔可夫链数 ) )

参数优化建议：

复杂模型需增加iter至50000+
收敛不佳时扩大burn-in比例
内存不足时增大thin值

3.2 收敛诊断

通过Gelman-Rubin统计量评估模型收敛：

summary(simmr_out, type = "diagnostics")

理想情况下所有参数的Rhat值应<1.05。若出现：

Rhat>1.1：增加迭代次数
特定链不稳定：检查先验设置
持续不收敛：考虑简化模型

4. 结果解读与可视化

4.1 贡献率统计摘要

获取各食源贡献的后验分布统计量：

summary(simmr_out, type = "quantiles") # 输出示例 # Zostera Grass U.lactuca Enteromorpha # 2.5% 0.421 0.035 0.019 0.022 # 50% 0.617 0.073 0.124 0.151 # 97.5% 0.817 0.116 0.322 0.427

解读要点：

中位数(50%)为最佳估计值
95%可信区间(2.5%-97.5%)反映估计不确定性
区间越宽表示该食源贡献越不确定

4.2 多维可视化技术

SIMMR提供丰富的可视化方案：

矩阵图（关键诊断工具）

plot(simmr_out, type = "matrix")

展示食源间的后验相关性：

强负相关（红色）表示食源难以区分
弱相关（浅色）表明模型识别良好

分组箱线图

plot(simmr_out, type = "boxplot", group = 1:3)

适用于多组比较研究，直观显示：

不同采样组间食源贡献差异
组内变异程度

4.3 食源合并策略

当同位素空间相近的食源出现高相关性时，可合并处理：

simmr_combined <- combine_sources( simmr_out, to_combine = c("U.lactuca", "Enteromorpha"), new_source_name = "Macroalgae" )

合并后重新绘图可验证：

相关性显著降低
估计精度提高
生态学解释更合理

5. 高级分析与应用

5.1 组间差异统计检验

比较不同采样组间特定食源的贡献差异：

compare_groups( simmr_out, source = "Zostera", groups = 1:3 )

输出示例：

Most popular orderings: Probability Group1 > Group2 > Group3 0.8019 Group1 > Group3 > Group2 0.1981

表示Group1的海草贡献显著高于其他组

5.2 先验信息整合

当有野外观察等先验知识时，可通过simmr_elicit整合：

prior <- simmr_elicit( n_sources = 4, proportion_means = c(0.5, 0.2, 0.2, 0.1), proportion_sds = c(0.08, 0.02, 0.01, 0.02) ) simmr_out_prior <- simmr_mcmc( simmr_in, prior_control = list( means = prior$mean, sd = prior$sd ) )

5.3 营养级富集因子估计

对于饲养实验数据，可反向估计TEFs：

simmr_tdf_out <- simmr_mcmc_tdf( simmr_in, p = matrix(rep(1/4, 4), nrow = 9, ncol = 4) )

获取的TEFs估计值可用于后续野外研究

6. 实战案例：河口鸟类食性分析

以经典数据集geese_data为例，完整流程如下：

# 加载多组数据 data(geese_data) simmr_in <- with( geese_data, simmr_load( mixtures = mixtures, source_names = source_names, source_means = source_means, source_sds = source_sds, correction_means = correction_means, correction_sds = correction_sds, concentration_means = concentration_means, group = groups ) ) # 分组可视化 plot(simmr_in, group = 1:8) # 分组建模 simmr_out <- simmr_mcmc(simmr_in) # 关键结果提取 summary(simmr_out, type = "quantiles", group = 1) compare_groups(simmr_out, source = "Zostera", groups = c(1,3,5))

分析发现：