微生物组研究是解析宿主 - 微生物互作、环境微生物生态功能的核心手段,而 16S rRNA 基因测序是微生物群落结构分析的金标准技术。本文将从实验设计核心环节(引物设计)到生物信息学全流程(数据质控、OTU 聚类、注释分析),结合 QIIME2 实操代码,系统讲解 16S rRNA 测序分析的完整流程,覆盖从基础原理到实战操作的全维度内容,助力科研人员高效开展微生物组研究。

一、16S rRNA 测序核心原理与实验设计

1.1 16S rRNA 基因的选择依据

16S rRNA 基因是原核生物核糖体小亚基的编码基因,长度约 1540bp,包含 9 个保守区和 9 个可变区(V1-V9):

  • 保守区:物种间序列高度相似,可作为通用引物设计的靶点;
  • 可变区:物种特异性高,是物种分类鉴定的核心区域。

不同可变区的适用场景不同:

  • V3-V4 区:最常用,覆盖物种范围广、测序长度适配 Illumina 平台(2×300bp),适合土壤、肠道、水体等多数样本类型;
  • V4-V5 区:对低丰度物种分辨率更高,适合微生物多样性低的样本;
  • V1-V2 区:适合口腔微生物、病原菌鉴定等场景。

1.2 引物设计核心原则

引物是 16S 测序的 “第一道门槛”,直接决定测序数据的物种覆盖度和准确性,设计需遵循以下原则:

(1)核心要求
  • 靶向保守区:引物需结合 16S rRNA 保守区,确保覆盖绝大多数原核生物(细菌 + 古菌);
  • 避免非特异性扩增:避免与宿主 DNA(如人、小鼠)、叶绿体 / 线粒体 DNA 同源;
  • 扩增片段长度适配测序平台:Illumina 平台推荐 250-550bp(双端测序重叠区≥50bp)。
(2)经典引物组合(V3-V4 区)

正向引物(341F):5'-CCTACGGGNGGCWGCAG-3'反向引物(805R):5'-GACTACHVGGGTATCTAATCC-3'(注:简并碱基 N/A/C/G,W=A/T,H=A/C/T,V=A/C/G,提升物种覆盖度)

(3)引物验证方法
  • 生物信息学验证:通过 Silva 数据库(https://www.arb-silva.de/)的 PrimerEval 工具,评估引物对数据库中序列的覆盖度;
  • 实验验证:以已知菌群(如 ZymoBIOMICS 标准菌群)为模板,PCR 扩增后电泳检测条带单一性,测序验证物种覆盖度。

1.3 测序文库构建关键步骤

  1. 样本 DNA 提取:需保证 DNA 纯度(OD260/280=1.8-2.0)和完整性,推荐使用商业化试剂盒(如 MoBio PowerSoil);
  2. PCR 扩增:分两步扩增 —— 第一步扩增 16S 可变区,第二步添加 Illumina 接头和 barcode(区分样本);
  3. 文库质检:Agilent 2100 检测文库片段大小(V3-V4 区约 464bp),Qubit 定量浓度(≥10nM);
  4. 上机测序:Illumina MiSeq/NovaSeq 平台,推荐测序深度≥20,000 reads / 样本(肠道样本建议≥50,000 reads)。

二、生物信息学分析环境搭建

2.1 QIIME2 安装

QIIME2 是目前最主流的微生物组分析平台,支持从原始数据到可视化的全流程分析,推荐使用 conda 安装:

bash

运行

# 安装Miniconda(若未安装)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc

# 创建QIIME2环境(以2023.9版本为例)
conda create -n qiime2-2023.9 --override-channels --strict-channel-priority -c https://packages.qiime2.org/qiime2/2023.9/tested -c conda-forge -c bioconda -c defaults qiime2=2023.9 q2cli q2-demux q2-dada2 q2-feature-classifier q2-visualization

# 激活环境
conda activate qiime2-2023.9

2.2 数据准备

测序完成后,测序公司会提供原始数据(fastq 格式),命名规则通常为:

  • 正向读段:SampleID_S1_L001_R1_001.fastq.gz
  • 反向读段:SampleID_S1_L001_R2_001.fastq.gz

需将所有样本的 fastq 文件整理到同一目录(如 raw_data),并创建样本元数据文件(metadata.tsv),包含样本 ID、分组信息(如对照组 / 处理组)、环境因子等,格式如下:

plaintext

sample-id  group  habitat
Sample1    Ctrl   soil
Sample2    Ctrl   soil
Sample3    Treat  soil
...

三、QIIME2 核心分析流程(OTU/ASV 水平)

注:QIIME2 中推荐使用 ASV(扩增子序列变体)替代传统 OTU(操作分类单元),ASV 分辨率更高(可区分单碱基差异),本文以 ASV 为例,OTU 分析流程可替换聚类步骤。

3.1 数据导入与质控可视化

(1)导入原始数据

bash

运行

# 创建工作目录
mkdir qiime2_analysis
cd qiime2_analysis

# 导入数据(Paired-end数据)
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path ../raw_data \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-paired-end.qza

# 质控可视化
qiime demux summarize \
  --i-data demux-paired-end.qza \
  --o-visualization demux-paired-end.qzv

# 查看可视化结果(可下载到本地用QIIME2 View查看:https://view.qiime2.org/)
qiime tools view demux-paired-end.qzv

质控可视化结果需关注:

  • 每个样本的测序深度(reads 数);
  • 序列质量分布(通常 3' 端质量下降,需确定截断长度);
  • 碱基分布(是否存在接头污染、引物残留)。
(2)序列质控与去噪(DADA2)

DADA2 是 QIIME2 中最常用的去噪算法,可去除低质量序列、合并双端读段、去除嵌合体,直接生成 ASV 表:

bash

运行

# DADA2去噪(需根据质控结果调整trunc-len参数,V3-V4区推荐R1=280,R2=270)
qiime dada2 denoise-paired \
  --i-demultiplexed-seqs demux-paired-end.qza \
  --p-trunc-len-f 280 \  # 正向序列截断长度
  --p-trunc-len-r 270 \  # 反向序列截断长度
  --p-trim-left-f 0 \    # 正向序列5'端修剪长度(引物已去除则为0)
  --p-trim-left-r 0 \    # 反向序列5'端修剪长度
  --o-table table.qza \  # ASV特征表(样本-ASV丰度矩阵)
  --o-representative-sequences rep-seqs.qza \  # ASV代表序列
  --o-denoising-stats denoising-stats.qza \    # 去噪统计结果

# 可视化去噪统计
qiime metadata tabulate \
  --m-input-file denoising-stats.qza \
  --o-visualization denoising-stats.qzv

# 可视化ASV表
qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv \
  --m-sample-metadata-file metadata.tsv

# 可视化ASV代表序列
qiime feature-table tabulate-seqs \
  --i-data rep-seqs.qza \
  --o-visualization rep-seqs.qzv

3.2 物种注释(Taxonomy Classification)

(1)下载参考数据库

推荐使用 Silva 数据库(138 版本,针对 16S rRNA):

bash

运行

# 下载Silva 138 V3-V4区参考序列和分类注释
wget https://data.qiime2.org/2023.9/common/silva-138-99-515-806-nb-classifier.qza
(2)物种注释

bash

运行

# 基于朴素贝叶斯分类器进行物种注释
qiime feature-classifier classify-sklearn \
  --i-classifier silva-138-99-515-806-nb-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

# 可视化物种注释结果
qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

# 生成物种组成堆叠图(门水平)
qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization taxa-barplot.qzv

3.3 多样性分析(α/β 多样性)

(1)序列重抽样(标准化)

α/β 多样性分析需保证所有样本测序深度一致,需先进行重抽样(rarefaction):

bash

运行

# 查看ASV表的最小测序深度(假设为18000 reads/样本)
qiime feature-table summarize --i-table table.qza --o-visualization table.qzv
# 重抽样至最小深度
qiime feature-table rarefy \
  --i-table table.qza \
  --p-sampling-depth 18000 \
  --o-rarefied-table table-rarefied.qza
(2)α 多样性分析

α 多样性反映样本内微生物多样性,常用指数:

  • Observed ASVs:物种丰富度;
  • Shannon:综合丰富度和均匀度;
  • Simpson:侧重优势物种;
  • Faith's PD:系统发育多样性。

bash

运行

# 计算α多样性
qiime diversity alpha-phylogenetic \
  --i-phylogeny rooted-tree.qza \  # 需先构建进化树(见下文)
  --i-table table-rarefied.qza \
  --o-alpha-diversity faith-pd.qza

qiime diversity alpha \
  --i-table table-rarefied.qza \
  --p-metric observed_features \
  --o-alpha-diversity observed-asvs.qza

qiime diversity alpha \
  --i-table table-rarefied.qza \
  --p-metric shannon \
  --o-alpha-diversity shannon.qza

# 合并α多样性指数并可视化
qiime diversity alpha-group-significance \
  --i-alpha-diversity shannon.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization shannon-group-significance.qzv

# 多指数合并可视化
qiime metadata merge \
  --m-input-file observed-asvs.qza shannon.qza faith-pd.qza \
  --o-merged-metadata alpha-diversity-merged.qza

qiime metadata tabulate \
  --m-input-file alpha-diversity-merged.qza \
  --o-visualization alpha-diversity-merged.qzv
(3)β 多样性分析

β 多样性反映样本间微生物群落结构差异,常用距离矩阵:

  • Bray-Curtis:基于物种丰度;
  • Unweighted UniFrac:基于系统发育关系(不考虑丰度);
  • Weighted UniFrac:基于系统发育关系(考虑丰度)。

bash

运行

# 构建进化树(用于UniFrac分析)
qiime phylogeny align-to-tree-mafft-fasttree \
  --i-sequences rep-seqs.qza \
  --o-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

# 计算β多样性距离矩阵
qiime diversity beta \
  --i-table table-rarefied.qza \
  --i-phylogeny rooted-tree.qza \
  --p-metric weighted_unifrac \
  --o-distance-matrix weighted-unifrac-distance.qza

qiime diversity beta \
  --i-table table-rarefied.qza \
  --p-metric braycurtis \
  --o-distance-matrix bray-curtis-distance.qza

# PCoA分析(降维可视化)
qiime diversity pcoa \
  --i-distance-matrix weighted-unifrac-distance.qza \
  --o-pcoa weighted-unifrac-pcoa.qza

# PCoA可视化(添加分组信息)
qiime emperor plot \
  --i-pcoa weighted-unifrac-pcoa.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization weighted-unifrac-emperor.qzv

# 组间差异检验(PERMANOVA)
qiime diversity beta-group-significance \
  --i-distance-matrix weighted-unifrac-distance.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column group \
  --o-visualization weighted-unifrac-group-significance.qzv \
  --p-method permanova \
  --p-permutations 999

3.4 传统 OTU 聚类(可选)

若需生成 OTU 表(97% 相似性),可通过以下步骤:

bash

运行

# 序列去重
qiime vsearch dereplicate-sequences \
  --i-sequences rep-seqs.qza \
  --o-dereplicated-table derep-table.qza \
  --o-dereplicated-sequences derep-seqs.qza

# OTU聚类(97%相似性)
qiime vsearch cluster-features-de-novo \
  --i-table table.qza \
  --i-sequences rep-seqs.qza \
  --p-perc-identity 0.97 \
  --o-clustered-table otu-table-97.qza \
  --o-clustered-sequences otu-seqs-97.qza

# 去除嵌合体
qiime vsearch uchime-denovo \
  --i-table otu-table-97.qza \
  --i-sequences otu-seqs-97.qza \
  --o-nonchimeric-table otu-table-97-nonchimeric.qza \
  --o-chimeric-sequences chimeras.qza \
  --o-stats uchime-stats.qza

# OTU物种注释(同ASV流程)
qiime feature-classifier classify-sklearn \
  --i-classifier silva-138-99-515-806-nb-classifier.qza \
  --i-reads otu-seqs-97.qza \
  --o-classification otu-taxonomy-97.qza

四、进阶分析与结果解读

4.1 差异物种分析

(1)LEfSe 分析(线性判别分析效应大小)

LEfSe 可识别组间具有统计学差异的 biomarker,需先导出 QIIME2 结果为文本格式:

bash

运行

# 导出ASV表和物种注释
qiime tools export \
  --input-path table.qza \
  --output-path exported/table

qiime tools export \
  --input-path taxonomy.qza \
  --output-path exported/taxonomy

# 转换为LEfSe输入格式(需安装biom-format和lefse)
biom convert -i exported/table/feature-table.biom -o exported/table/feature-table.tsv --to-tsv
# 后续使用LEfSe脚本处理(https://huttenhower.sph.harvard.edu/lefse/)
(2)ANCOM 分析(QIIME2 内置)

ANCOM 适用于微生物组数据的差异丰度分析(解决成分数据偏倚):

bash

运行

qiime composition add-pseudocount \
  --i-table table.qza \
  --o-composition-table comp-table.qza

qiime composition ancom \
  --i-table comp-table.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column group \
  --o-visualization ancom-group.qzv

4.2 功能预测(PICRUSt2)

基于 16S rRNA 序列预测微生物群落功能(KEGG/COG 通路):

bash

运行

# 安装PICRUSt2
conda install -c bioconda picrust2

# 导出ASV序列和表
qiime tools export --input-path rep-seqs.qza --output-path exported/seqs
qiime tools export --input-path table.qza --output-path exported/table

# 转换为PICRUSt2输入格式
biom convert -i exported/table/feature-table.biom -o exported/table/feature-table.tsv --to-tsv --header-key taxonomy

# PICRUSt2功能预测
picrust2_pipeline.py -s exported/seqs/dna-sequences.fasta -i exported/table/feature-table.tsv -o picrust2_out --threads 8

4.3 结果解读核心要点

  1. 物种组成:关注优势门类(如拟杆菌门、厚壁菌门)在组间的差异,以及低丰度但具有生物学意义的物种;
  2. α 多样性:Shannon 指数升高表示样本内多样性增加,需结合统计学检验(如 Wilcoxon 秩和检验);
  3. β 多样性:PCoA 图中组内样本聚集、组间分离说明处理 / 分组对群落结构有显著影响,PERMANOVA 的 P<0.05 为显著;
  4. 差异物种:LEfSe 的 LDA 值 > 2 且 P<0.05 的物种可视为核心 biomarker。

五、常见问题与解决方案

5.1 数据质控问题

  • 低质量序列过多:调整 DADA2 的 trunc-len 参数,或增加 trim-left 长度(去除引物 / 接头残留);
  • 双端序列无法合并:检查引物扩增片段长度是否适配测序平台,或降低 trunc-len 参数;
  • 嵌合体比例高:使用 UCHIME 算法去除嵌合体,或优化 PCR 扩增条件(减少循环数)。

5.2 物种注释问题

  • 注释率低:更换更全面的参考数据库(如 Silva→Greengenes),或调整引物覆盖区域;
  • 注释错误:验证引物特异性,避免非靶标序列扩增(如线粒体 / 叶绿体 DNA)。

5.3 多样性分析问题

  • 样本测序深度差异大:重抽样至最小深度,或剔除测序深度过低的样本(<10,000 reads);
  • β 多样性无显著差异:增加样本量,或调整距离矩阵类型(如 Unweighted→Weighted UniFrac)。

六、总结

16S rRNA 测序分析是微生物组研究的基础技术,其核心在于 “实验设计 - 数据质控 - 生物信息学分析” 的全流程把控:

  • 实验阶段:引物设计需兼顾覆盖度和特异性,测序深度需满足样本类型需求;
  • 分析阶段:QIIME2 提供了标准化的流程,优先使用 ASV 提升分辨率,结合 α/β 多样性、差异物种分析解析群落结构;
  • 解读阶段:需结合生物学背景,避免单纯依赖统计学结果,功能预测可作为补充验证。

本文覆盖的流程可适配土壤、肠道、水体等多数样本类型,科研人员可根据研究目标调整参数(如可变区、参考数据库、多样性指数),同时建议结合多组学(宏基因组、代谢组)数据,更全面解析微生物群落的功能和生态意义。

附录:常用工具与数据库

  1. 参考数据库:Silva(https://www.arb-silva.de/)、Greengenes(http://greengenes.secondgenome.com/)、RDP(https://rdp.cme.msu.edu/);
  2. 可视化工具:QIIME2 View(https://view.qiime2.org/)、GraPhlAn(物种进化树可视化)、Cytoscape(共发生网络);
  3. 统计工具:R 包(vegan、phyloseq、ggplot2)用于高级统计和可视化。
Logo

开源鸿蒙跨平台开发社区汇聚开发者与厂商,共建“一次开发,多端部署”的开源生态,致力于降低跨端开发门槛,推动万物智联创新。

更多推荐