微生物组 16S rRNA 测序分析完整指南：从引物设计到 OTU 注释的全流程（含 QIIME2 实操代码）

实验阶段：引物设计需兼顾覆盖度和特异性，测序深度需满足样本类型需求；分析阶段：QIIME2 提供了标准化的流程，优先使用 ASV 提升分辨率，结合 α/β 多样性、差异物种分析解析群落结构；解读阶段：需结合生物学背景，避免单纯依赖统计学结果，功能预测可作为补充验证。本文覆盖的流程可适配土壤、肠道、水体等多数样本类型，科研人员可根据研究目标调整参数（如可变区、参考数据库、多样性指数），同时建议结合多

暖阳YH

4282人浏览 · 2025-11-29 10:43:54

暖阳YH · 2025-11-29 10:43:54 发布

微生物组研究是解析宿主 - 微生物互作、环境微生物生态功能的核心手段，而 16S rRNA 基因测序是微生物群落结构分析的金标准技术。本文将从实验设计核心环节（引物设计）到生物信息学全流程（数据质控、OTU 聚类、注释分析），结合 QIIME2 实操代码，系统讲解 16S rRNA 测序分析的完整流程，覆盖从基础原理到实战操作的全维度内容，助力科研人员高效开展微生物组研究。

一、16S rRNA 测序核心原理与实验设计

1.1 16S rRNA 基因的选择依据

16S rRNA 基因是原核生物核糖体小亚基的编码基因，长度约 1540bp，包含 9 个保守区和 9 个可变区（V1-V9）：

保守区：物种间序列高度相似，可作为通用引物设计的靶点；
可变区：物种特异性高，是物种分类鉴定的核心区域。

不同可变区的适用场景不同：

V3-V4 区：最常用，覆盖物种范围广、测序长度适配 Illumina 平台（2×300bp），适合土壤、肠道、水体等多数样本类型；
V4-V5 区：对低丰度物种分辨率更高，适合微生物多样性低的样本；
V1-V2 区：适合口腔微生物、病原菌鉴定等场景。

1.2 引物设计核心原则

引物是 16S 测序的 “第一道门槛”，直接决定测序数据的物种覆盖度和准确性，设计需遵循以下原则：

（1）核心要求

靶向保守区：引物需结合 16S rRNA 保守区，确保覆盖绝大多数原核生物（细菌 + 古菌）；
避免非特异性扩增：避免与宿主 DNA（如人、小鼠）、叶绿体 / 线粒体 DNA 同源；
扩增片段长度适配测序平台：Illumina 平台推荐 250-550bp（双端测序重叠区≥50bp）。

（2）经典引物组合（V3-V4 区）

正向引物（341F）：5'-CCTACGGGNGGCWGCAG-3'反向引物（805R）：5'-GACTACHVGGGTATCTAATCC-3'（注：简并碱基 N/A/C/G，W=A/T，H=A/C/T，V=A/C/G，提升物种覆盖度）

（3）引物验证方法

生物信息学验证：通过 Silva 数据库（https://www.arb-silva.de/）的 PrimerEval 工具，评估引物对数据库中序列的覆盖度；
实验验证：以已知菌群（如 ZymoBIOMICS 标准菌群）为模板，PCR 扩增后电泳检测条带单一性，测序验证物种覆盖度。

1.3 测序文库构建关键步骤

样本 DNA 提取：需保证 DNA 纯度（OD260/280=1.8-2.0）和完整性，推荐使用商业化试剂盒（如 MoBio PowerSoil）；
PCR 扩增：分两步扩增 —— 第一步扩增 16S 可变区，第二步添加 Illumina 接头和 barcode（区分样本）；
文库质检：Agilent 2100 检测文库片段大小（V3-V4 区约 464bp），Qubit 定量浓度（≥10nM）；
上机测序：Illumina MiSeq/NovaSeq 平台，推荐测序深度≥20,000 reads / 样本（肠道样本建议≥50,000 reads）。

二、生物信息学分析环境搭建

2.1 QIIME2 安装

QIIME2 是目前最主流的微生物组分析平台，支持从原始数据到可视化的全流程分析，推荐使用 conda 安装：

bash

运行

# 安装Miniconda（若未安装）
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc

# 创建QIIME2环境（以2023.9版本为例）
conda create -n qiime2-2023.9 --override-channels --strict-channel-priority -c https://packages.qiime2.org/qiime2/2023.9/tested -c conda-forge -c bioconda -c defaults qiime2=2023.9 q2cli q2-demux q2-dada2 q2-feature-classifier q2-visualization

# 激活环境
conda activate qiime2-2023.9

2.2 数据准备

测序完成后，测序公司会提供原始数据（fastq 格式），命名规则通常为：

正向读段：SampleID_S1_L001_R1_001.fastq.gz
反向读段：SampleID_S1_L001_R2_001.fastq.gz

需将所有样本的 fastq 文件整理到同一目录（如 raw_data），并创建样本元数据文件（metadata.tsv），包含样本 ID、分组信息（如对照组 / 处理组）、环境因子等，格式如下：

plaintext

sample-id  group  habitat
Sample1    Ctrl   soil
Sample2    Ctrl   soil
Sample3    Treat  soil
...

三、QIIME2 核心分析流程（OTU/ASV 水平）

注：QIIME2 中推荐使用 ASV（扩增子序列变体）替代传统 OTU（操作分类单元），ASV 分辨率更高（可区分单碱基差异），本文以 ASV 为例，OTU 分析流程可替换聚类步骤。

3.1 数据导入与质控可视化

（1）导入原始数据

bash

运行

# 创建工作目录
mkdir qiime2_analysis
cd qiime2_analysis

# 导入数据（Paired-end数据）
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path ../raw_data \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-paired-end.qza

# 质控可视化
qiime demux summarize \
  --i-data demux-paired-end.qza \
  --o-visualization demux-paired-end.qzv

# 查看可视化结果（可下载到本地用QIIME2 View查看：https://view.qiime2.org/）
qiime tools view demux-paired-end.qzv

质控可视化结果需关注：

每个样本的测序深度（reads 数）；
序列质量分布（通常 3' 端质量下降，需确定截断长度）；
碱基分布（是否存在接头污染、引物残留）。

（2）序列质控与去噪（DADA2）

DADA2 是 QIIME2 中最常用的去噪算法，可去除低质量序列、合并双端读段、去除嵌合体，直接生成 ASV 表：

bash

运行

# DADA2去噪（需根据质控结果调整trunc-len参数，V3-V4区推荐R1=280，R2=270）
qiime dada2 denoise-paired \
  --i-demultiplexed-seqs demux-paired-end.qza \
  --p-trunc-len-f 280 \  # 正向序列截断长度
  --p-trunc-len-r 270 \  # 反向序列截断长度
  --p-trim-left-f 0 \    # 正向序列5'端修剪长度（引物已去除则为0）
  --p-trim-left-r 0 \    # 反向序列5'端修剪长度
  --o-table table.qza \  # ASV特征表（样本-ASV丰度矩阵）
  --o-representative-sequences rep-seqs.qza \  # ASV代表序列
  --o-denoising-stats denoising-stats.qza \    # 去噪统计结果

# 可视化去噪统计
qiime metadata tabulate \
  --m-input-file denoising-stats.qza \
  --o-visualization denoising-stats.qzv

# 可视化ASV表
qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv \
  --m-sample-metadata-file metadata.tsv

# 可视化ASV代表序列
qiime feature-table tabulate-seqs \
  --i-data rep-seqs.qza \
  --o-visualization rep-seqs.qzv

3.2 物种注释（Taxonomy Classification）

（1）下载参考数据库

推荐使用 Silva 数据库（138 版本，针对 16S rRNA）：

bash

运行

# 下载Silva 138 V3-V4区参考序列和分类注释
wget https://data.qiime2.org/2023.9/common/silva-138-99-515-806-nb-classifier.qza

（2）物种注释

bash

运行

# 基于朴素贝叶斯分类器进行物种注释
qiime feature-classifier classify-sklearn \
  --i-classifier silva-138-99-515-806-nb-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

# 可视化物种注释结果
qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

# 生成物种组成堆叠图（门水平）
qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization taxa-barplot.qzv

3.3 多样性分析（α/β 多样性）

（1）序列重抽样（标准化）

α/β 多样性分析需保证所有样本测序深度一致，需先进行重抽样（rarefaction）：

bash

运行

# 查看ASV表的最小测序深度（假设为18000 reads/样本）
qiime feature-table summarize --i-table table.qza --o-visualization table.qzv
# 重抽样至最小深度
qiime feature-table rarefy \
  --i-table table.qza \
  --p-sampling-depth 18000 \
  --o-rarefied-table table-rarefied.qza

（2）α 多样性分析

α 多样性反映样本内微生物多样性，常用指数：

Observed ASVs：物种丰富度；
Shannon：综合丰富度和均匀度；
Simpson：侧重优势物种；
Faith's PD：系统发育多样性。

bash

运行

# 计算α多样性
qiime diversity alpha-phylogenetic \
  --i-phylogeny rooted-tree.qza \  # 需先构建进化树（见下文）
  --i-table table-rarefied.qza \
  --o-alpha-diversity faith-pd.qza

qiime diversity alpha \
  --i-table table-rarefied.qza \
  --p-metric observed_features \
  --o-alpha-diversity observed-asvs.qza

qiime diversity alpha \
  --i-table table-rarefied.qza \
  --p-metric shannon \
  --o-alpha-diversity shannon.qza

# 合并α多样性指数并可视化
qiime diversity alpha-group-significance \
  --i-alpha-diversity shannon.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization shannon-group-significance.qzv

# 多指数合并可视化
qiime metadata merge \
  --m-input-file observed-asvs.qza shannon.qza faith-pd.qza \
  --o-merged-metadata alpha-diversity-merged.qza

qiime metadata tabulate \
  --m-input-file alpha-diversity-merged.qza \
  --o-visualization alpha-diversity-merged.qzv

（3）β 多样性分析

β 多样性反映样本间微生物群落结构差异，常用距离矩阵：

Bray-Curtis：基于物种丰度；
Unweighted UniFrac：基于系统发育关系（不考虑丰度）；
Weighted UniFrac：基于系统发育关系（考虑丰度）。

bash

运行

# 构建进化树（用于UniFrac分析）
qiime phylogeny align-to-tree-mafft-fasttree \
  --i-sequences rep-seqs.qza \
  --o-alignment aligned-rep-seqs.qza \
  --o-masked-alignment masked-aligned-rep-seqs.qza \
  --o-tree unrooted-tree.qza \
  --o-rooted-tree rooted-tree.qza

# 计算β多样性距离矩阵
qiime diversity beta \
  --i-table table-rarefied.qza \
  --i-phylogeny rooted-tree.qza \
  --p-metric weighted_unifrac \
  --o-distance-matrix weighted-unifrac-distance.qza

qiime diversity beta \
  --i-table table-rarefied.qza \
  --p-metric braycurtis \
  --o-distance-matrix bray-curtis-distance.qza

# PCoA分析（降维可视化）
qiime diversity pcoa \
  --i-distance-matrix weighted-unifrac-distance.qza \
  --o-pcoa weighted-unifrac-pcoa.qza

# PCoA可视化（添加分组信息）
qiime emperor plot \
  --i-pcoa weighted-unifrac-pcoa.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization weighted-unifrac-emperor.qzv

# 组间差异检验（PERMANOVA）
qiime diversity beta-group-significance \
  --i-distance-matrix weighted-unifrac-distance.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column group \
  --o-visualization weighted-unifrac-group-significance.qzv \
  --p-method permanova \
  --p-permutations 999

3.4 传统 OTU 聚类（可选）

若需生成 OTU 表（97% 相似性），可通过以下步骤：

bash

运行

# 序列去重
qiime vsearch dereplicate-sequences \
  --i-sequences rep-seqs.qza \
  --o-dereplicated-table derep-table.qza \
  --o-dereplicated-sequences derep-seqs.qza

# OTU聚类（97%相似性）
qiime vsearch cluster-features-de-novo \
  --i-table table.qza \
  --i-sequences rep-seqs.qza \
  --p-perc-identity 0.97 \
  --o-clustered-table otu-table-97.qza \
  --o-clustered-sequences otu-seqs-97.qza

# 去除嵌合体
qiime vsearch uchime-denovo \
  --i-table otu-table-97.qza \
  --i-sequences otu-seqs-97.qza \
  --o-nonchimeric-table otu-table-97-nonchimeric.qza \
  --o-chimeric-sequences chimeras.qza \
  --o-stats uchime-stats.qza

# OTU物种注释（同ASV流程）
qiime feature-classifier classify-sklearn \
  --i-classifier silva-138-99-515-806-nb-classifier.qza \
  --i-reads otu-seqs-97.qza \
  --o-classification otu-taxonomy-97.qza

四、进阶分析与结果解读

4.1 差异物种分析

（1）LEfSe 分析（线性判别分析效应大小）

LEfSe 可识别组间具有统计学差异的 biomarker，需先导出 QIIME2 结果为文本格式：

bash

运行

# 导出ASV表和物种注释
qiime tools export \
  --input-path table.qza \
  --output-path exported/table

qiime tools export \
  --input-path taxonomy.qza \
  --output-path exported/taxonomy

# 转换为LEfSe输入格式（需安装biom-format和lefse）
biom convert -i exported/table/feature-table.biom -o exported/table/feature-table.tsv --to-tsv
# 后续使用LEfSe脚本处理（https://huttenhower.sph.harvard.edu/lefse/）

（2）ANCOM 分析（QIIME2 内置）

ANCOM 适用于微生物组数据的差异丰度分析（解决成分数据偏倚）：

bash

运行

qiime composition add-pseudocount \
  --i-table table.qza \
  --o-composition-table comp-table.qza

qiime composition ancom \
  --i-table comp-table.qza \
  --m-metadata-file metadata.tsv \
  --m-metadata-column group \
  --o-visualization ancom-group.qzv

4.2 功能预测（PICRUSt2）

基于 16S rRNA 序列预测微生物群落功能（KEGG/COG 通路）：

bash

运行

# 安装PICRUSt2
conda install -c bioconda picrust2

# 导出ASV序列和表
qiime tools export --input-path rep-seqs.qza --output-path exported/seqs
qiime tools export --input-path table.qza --output-path exported/table

# 转换为PICRUSt2输入格式
biom convert -i exported/table/feature-table.biom -o exported/table/feature-table.tsv --to-tsv --header-key taxonomy

# PICRUSt2功能预测
picrust2_pipeline.py -s exported/seqs/dna-sequences.fasta -i exported/table/feature-table.tsv -o picrust2_out --threads 8

4.3 结果解读核心要点

物种组成：关注优势门类（如拟杆菌门、厚壁菌门）在组间的差异，以及低丰度但具有生物学意义的物种；
α 多样性：Shannon 指数升高表示样本内多样性增加，需结合统计学检验（如 Wilcoxon 秩和检验）；
β 多样性：PCoA 图中组内样本聚集、组间分离说明处理 / 分组对群落结构有显著影响，PERMANOVA 的 P<0.05 为显著；
差异物种：LEfSe 的 LDA 值 > 2 且 P<0.05 的物种可视为核心 biomarker。

五、常见问题与解决方案

5.1 数据质控问题

低质量序列过多：调整 DADA2 的 trunc-len 参数，或增加 trim-left 长度（去除引物 / 接头残留）；
双端序列无法合并：检查引物扩增片段长度是否适配测序平台，或降低 trunc-len 参数；
嵌合体比例高：使用 UCHIME 算法去除嵌合体，或优化 PCR 扩增条件（减少循环数）。

5.2 物种注释问题

注释率低：更换更全面的参考数据库（如 Silva→Greengenes），或调整引物覆盖区域；
注释错误：验证引物特异性，避免非靶标序列扩增（如线粒体 / 叶绿体 DNA）。

5.3 多样性分析问题

样本测序深度差异大：重抽样至最小深度，或剔除测序深度过低的样本（<10,000 reads）；
β 多样性无显著差异：增加样本量，或调整距离矩阵类型（如 Unweighted→Weighted UniFrac）。

六、总结

16S rRNA 测序分析是微生物组研究的基础技术，其核心在于 “实验设计 - 数据质控 - 生物信息学分析” 的全流程把控：

实验阶段：引物设计需兼顾覆盖度和特异性，测序深度需满足样本类型需求；
分析阶段：QIIME2 提供了标准化的流程，优先使用 ASV 提升分辨率，结合 α/β 多样性、差异物种分析解析群落结构；
解读阶段：需结合生物学背景，避免单纯依赖统计学结果，功能预测可作为补充验证。

本文覆盖的流程可适配土壤、肠道、水体等多数样本类型，科研人员可根据研究目标调整参数（如可变区、参考数据库、多样性指数），同时建议结合多组学（宏基因组、代谢组）数据，更全面解析微生物群落的功能和生态意义。

附录：常用工具与数据库

参考数据库：Silva（https://www.arb-silva.de/）、Greengenes（http://greengenes.secondgenome.com/）、RDP（https://rdp.cme.msu.edu/）；
可视化工具：QIIME2 View（https://view.qiime2.org/）、GraPhlAn（物种进化树可视化）、Cytoscape（共发生网络）；
统计工具：R 包（vegan、phyloseq、ggplot2）用于高级统计和可视化。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

AtomCode 助力开源鸿蒙跨平台三方库生态共建

自 OpenHarmony 问世以来，应用开发者面临的最大痛点从来不是操作系统本身的能力，而是三方库的匮乏。熟悉的等常用插件在鸿蒙上不可用上的 60000+ 插件中，支持 OHOS 平台的不到 10%每个插件的适配都需要开发者深入理解 Android/iOS 原生实现，再手动翻译为 ArkTS这不是技术上的鸿沟——Android 的 Kotlin 和 OHOS 的 ArkTS 在 Flutter