单细胞测序分析(一)软件安装&准备测序数据
和Scanpy是两个流行的单细胞 RNA 测序(scRNA-seq)分析工具,它们分别基于 R 和 Python 语言开发。两者在功能、性能、可扩展性和用户友好性等方面各有优劣,适合不同的科研需求。(非友商一般去租用三方云服务器,坚持每一个环节所需硬件都做到自行采购,做到完全自主化,硬件升级不设上限)。:处理10x Genomics单细胞数据,完成原始序列(FASTQ)到基因表达矩阵的转换。:单细
一、工欲善其事,必先利其器:软件安装指南
单细胞数据分析依赖专业的生物信息学工具,以下是几款必装核心软件及其安装方法:
上游分析软件
1. Cell Ranger(10x Genomics官方流程)
-
作用:处理10x Genomics单细胞数据,完成原始序列(FASTQ)到基因表达矩阵的转换。
- 安装步骤:
# 下载安装包(需官网注册后获取下载链接) wget https://cf.10xgenomics.com/releases/cell-exp/cellranger-9.0.1.tar.gz?Expires=1738974489&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=VVeJRDheJ19IvquZ-MtHaIyvfEfsfePJKbhn8vxFCqQLjMUntK1LMQrHsVxN5EMLeU-ozzrxYyXng3hloSChYnEfpWmHVpM1vaHNWyBV9vB6JDMm-GojDVmAu6gVTrahV01SjKP9FhwUni6cnkVP9fofwmE3bHc92eVIAijC0AR3DdIMolVVUfj03VOmuTyWQvf5mgAXCGXbRtsEtVHMuAhndWFc8GS9kFKhH~pUfoqLyQAdY8ywEzp3zahxfqvsk~ax0TECq91AeGVqgaoNvbGa-8TIHkeSdfHOtkiQ3P3SnbnS8COlOyCrpB~1P0uMd9rf8Q4EOzRfSuPe3V-rhA__ # 解压并添加环境变量 tar -xzvf cellranger-9.0.1.tar.gz echo 'export PATH=$PATH:/your/path/cellranger-9.0.1' >> ~/.bashrc source ~/.bashrc -
验证安装:
cellranger testrun --id=tiny -
注意:写入环境变量替换路径和足够的存储空间(建议>50GB)。
CellRanger 常用命令如下:
-
Cell Ranger mkref 用于构建参考基因组
-
Cell Ranger mkfastq 用于将下机数据转换为 fastq,一般不需要
-
Cell Ranger count 用于表达定量
-
Cell Ranger aggr 用于整合多样本的表达矩阵
下游分析软件
Seurat 和Scanpy是两个流行的单细胞 RNA 测序(scRNA-seq)分析工具,它们分别基于 R 和 Python 语言开发。两者在功能、性能、可扩展性和用户友好性等方面各有优劣,适合不同的科研需求。下面从几个关键维度对这两个工具进行比较:
|
比较维度 |
Seurat |
Scanpy |
|---|---|---|
|
编程语言 |
R |
Python |
|
数据存储与处理 |
Seurat 对象,适合小到中等规模的数据集 |
AnnData,支持大规模数据集的内存外操作 |
|
计算性能 |
适合中等规模数据集,处理大数据时较慢 |
高效处理大规模数据集,支持稀疏矩阵 |
|
可视化 |
使用 ggplot2 生成丰富的可视化图表,易于定制化 |
基础的可视化,需要配合 matplotlib 等库使用 |
|
社区与生态系统 |
活跃的 R 语言社区,有大量教程和相关 R 包支持 |
基于 Python,易与机器学习库集成,生态系统广泛 |
|
工具集成 |
与 R 包如 Monocle、SingleR 等集成良好 |
与 Python 生态系统和深度学习工具(如 scVI)集成良好 |
|
易用性 |
对 R 用户友好,生物学研究者常用 |
对 Python 用户友好,学习曲线较陡峭,但对高级用户功能强大 |
Seurat 等 R 包
参考:https://satijalab.org/seurat/articles/install_v5.html
-
作用:数据质控、降维聚类、差异基因分析及可视化等。
-
安装方法(R/RStudio环境):
# Install the remotes package
if (!requireNamespace("remotes", quietly = TRUE)) {
BiocManager::install("remotes")
}
# 基础包
BiocManager::install("dplyr")
BiocManager::install("tidyverse")
BiocManager::install("patchwork")
remotes::install_version("Matrix", version = "1.6-4")
BiocManager::install("irlba")
BiocManager::install("scater")
# Seurat 相关包
BiocManager::install("Seurat")
BiocManager::install("SeuratObject")
BiocManager::install("satijalab/seurat-data")
BiocManager::install('satijalab/seurat-wrappers')
BiocManager::install("satijalab/azimuth")
BiocManager::install('Signac')
BiocManager::install('tidyseurat')
# 其他包
BiocManager::install("chris-mcginnis-ucsf/DoubletFinder")
BiocManager::install("jinworks/CellChat")
devtools::install_github('cole-trapnell-lab/monocle3', ref="develop")
library(tidyverse)
library(patchwork)
library(Seurat)
library(SeuratObject)
library(SeuratData)
library(Azimuth)
library(monocle3)
安装了V5 版本需要再装 V4版本
remotes::install_version("Matrix", version = "1.6-1", lib = '/your/path/Seurat_V4')
remotes::install_version(package = 'Seurat',
version = '4.4.0',
lib = '/your/path/Seurat_V4')
remotes::install_version(package = 'SeuratObject',
version = '4.1.4',
lib = '/your/path/Seurat_V4')
library(Seurat, lib = "/your/path/Seurat_V4/")
library(SeuratObject, lib = "/your/path/Seurat_V4/")
Scanpy(Python版单细胞分析工具)
-
适用场景:偏好Python的用户,支持大规模数据处理。
- 安装命令:
pip install scanpy # 可选安装加速库 pip install umap-learn leidenalg
二、准备测序数据
1. 获取原始数据
-
来源:公共数据库(如NCBI GEO、国家基因组中心)或实验室测序下机数据。
-
常见格式:
-
FASTQ文件:包含测序序列和碱基质量信息(文件命名通常含
R1、R2)。 -
参考基因组:需与物种和版本匹配(如人类
GRCh38)。
-
2. 数据下载与校验(以GEO为例)
# 使用wget或sratoolkit下载
prefetch SRR1234567 # SRA编号示例
fasterq-dump SRR1234567 --split-files
# 校验MD5值(确保数据完整性)
md5sum SRR1234567_1.fastq.gz
3. 数据预处理(Cell Ranger流程)
- 配置参考基因组:
cellranger mkref --genome=GRCh38 \ --fasta=GRCh38.fa \ --genes=genes.gtf - 运行分析流程:
cellranger count --id=sample1 \ --transcriptome=GRCh38 \ --fastqs=path/to/fastq \ --sample=Sample1 -
输出结果:
outs/filtered_feature_bc_matrix目录下的基因表达矩阵(后续分析的核心输入)。
三、避坑指南:常见问题与解决方案
-
依赖缺失:安装前确保系统已安装
zlib、glibc等库,推荐使用conda/mamba管理环境。 -
权限问题:Linux用户注意
sudo权限及文件读写权限。 -
存储不足:单细胞数据庞大,建议预留充足硬盘空间(处理10x数据需>50GB)。
通过本期内容,你已经迈出了单细胞分析的第一步!
准备好数据和工具后,下一期我们将正式构建seurat对象。
如果你在安装中遇到问题,欢迎留言讨论!
数信院云服务器助力科研
1.全自采购裸金属服务器(非友商一般去租用三方云服务器,坚持每一个环节所需硬件都做到自行采购,做到完全自主化,硬件升级不设上限)。
2.无论共享还是独享服务器我们都是放置于华东TOP50 IDC恒温机房,多路电力系统保证服务器正常运行。
3.一线运维24小时轮值,保障服务器正常运行,后端技术团队12小时在线解决客户使用问题,做到有问必答 。
4. 985 211 生信博士团队定期更新不同方向的生信脚本,给初入门径的同学保驾护航 。
5.提供无需VPN的4O服务(WEB+API),创造了生信挖掘的AI加速剂 。
更多推荐

所有评论(0)