!!!!声明:不是原创,我只是方便自己学习,
原文指路
所有已发表文献中的高通量测序数据大多会上传到某个数据库中方便其他人的下载学习与再研究,这其中受众最广的自然是出身NCBI的SRA数据库。同时出身EBI的ENA数据库对于下载数据有很多便利之处,所以在具体下载文件之前先了解一下这两个数据库的情况。
NCBI与EBI同属于INSDC:International Nucleotide Sequence Database Collaboration,提交给所属三个数据库的数据是可以互通的。该架构内容具体如下:
-
NCBI: National Center for Biotechnology Information
-
EBI: European Bioinformatics Institute
-
DDBJ:DNA Data Bank of Japan
SRA数据库
: Sequence Read Archive,
-
是一个保存高通量测序数据以及比对信息和元数据(meta data)的数据库,所有已经发表的文献中的高通量测序数据基本上都会上传到该数据库中,这个数据库隶属于NCBI。
-
SRA数据库的各种编号
元数据(meta data)
:是指与测序实验及其实验样品相关的数据, 如实验目的、 实验设计、 测序平台、 样本数据(物种, 菌株,个体表型等),在SRA数据库中,meta数据分如下层次来存储:
【1】研究课题(study):在 SRA 数据库中,研究课题的检索号(accession number)以前缀
DRP
,
ERP
或
SRP
开头。
【2】样本信息(sample):样本的检索号以前缀 DRS,ERS 或 SRS 开头。 样本信息可以包括物种信息、 菌株(品系)信息、家系信息、表型数据、临床数据, 组织类型等。
【3】实验信息(experiment):实验的检索号以前缀
DRX
,
ERX
或
SRX
开头。 实验是 SRA 数据库的最基本单元, 就像 PubMed 数据库的每一篇文献是 PubMed数据库的基本单元一样。 一个实验隶属于某个研究课题,对一个或多个样本进行测序,产生的测序数据以 runs 的形式存储于SRA数据库。
【4】序列数据:包括序列及其质量信息等,在 SRA 数据库中以 run 为单元存储。run 的检索号以前缀
DRR
,
ERR
或
SRR
开头。
ENA数据库
: European Nucleotide Archive
-
隶属于EBI,功能上应该是与SRA类似的,但是其搜索界面更加亲民,并且对于下载fastq文件以及检查下载数据完整性更加友好,所以强烈推荐优先使用。
首先,在数据库页面右上角搜索栏输入目标SRA检索号,确认后稍等片刻可得结果页面
其次,点击选取 Experiment 可以获得该实验下所有的测序序列数据的信息
我们可以看到隶属于该实验的两个序列数据信息,并且可以在 FASRTQ files(FTP) 栏中获得直接下载 fastq 文件的FTP 地址。
获取直接下载 fastq 文件的FTP地址
!!!!声明:不是原创,我只是方便自己学习,原文指路NCBI-SRA数据库与EBI-ENA数据库所有已发表文献中的高通量测序数据大多会上传到某个数据库中方便其他人的下载学习与再研究,这其中受众最广的自然是出身NCBI的SRA数据库。同时出身EBI的ENA数据库对于下载数据有很多便利之处,所以在具体下载文件之前先了解一下这两个数据库的情况。NCBI与EBI同属于INSDC:International Nucleotide Sequence Database Collaboration,提交给所属三个数
RNA
-
Seq
数据中circ
RNA
的定量,差异表达
分析
和mi
RNA
目标预测
分析
的工作流程。
nf-core / circ
rna
是一种
生物信息学
流水线,用于定量,mi
RNA
靶标预测和
RNA
测序数据中存在的circ
RNA
的差异表达
分析
(当前支持总
RNA
-
Seq
配对末端测序数据,已映射至智人Gencode参考基因组GRCh37, GRCh38 v34)。
pipleline已以模块化方式开发,除了circ
RNA
定量外,还允许用户选择mi
RNA
靶标预测,差异表达
分析
(或两者),以促进围绕circ
RNA
参与竞争内源
RNA
网络的假设。
该管道是使用构建的, 是一种工作流工具,可以以非常便携的方式跨多个计算基础架构运行任务。 它带有docker容器,使安装变得简单,结果可高度重现。
默认情况下, nf-core/circ
rna
使用所有3个
分析
模块: circ
rna
_discovery
文献:
RNA
-
seq
数据
分析
最佳实践调查
本次阅读Genome Biology杂志2016年Online的
RNA
-
seq
数据
分析
方法的Review论文,题目为:
A survey of best practices for
RNA
-
seq
data analysis
本文翻译来自该文章。
RNA
是基因组和蛋白组的中间体,因此转录本的鉴定和定量是重要的生物学问题。该论文综述了
RNA
-
seq
项目中相关的各个步骤、每个步骤的局限、和其他组学的整合以及展望。
Note : 从摘要中可以发现本文综述分为两部分(1)现
2.SRA Run Selector 查看数据单双端类型(SINGLE or PAIRED)及分组信息
可以点击Accession List下载对应的SRR_Acc_List.txt
二、
RNA
-
seq
处理流程
使用HISAT, StringTie and Ballgown处理流程
<一>下载并解压SRA文件
1.根据下载的SRR_Acc_List.txt下载原始sra文件至SRR
参考:懒人操作之从TCGA批量下载
RNA
Seq
数据
1.登录TCGA数据获取网站:https://portal.gdc.cancer.gov/。搜索GBM,选择TCGA-GBM
2.选择下载的数据类型:(我需要下载的是
RNA
-
Seq
数据)。鼠标右键点击打开新页面
4.对数据进行进一步筛选:(可根据自己需求筛选)
5.将所有文件添加到购物车:(此购物车非彼购物车,这是不花钱的购物车)
6.点击下载即可:
BSA虽然不是我最早接触的高通量数据
分析
项目(最早的是
RNA
-
seq
),但是却是我最早独立开展的数据
分析
项目, 我曾经专门写过一篇文章介绍如何使用SHOREMap做拟南芥的EMS诱变群体的BSA
分析
在遗传定位上,相对于GWAS和binmap,BSA是一个比较省钱的策略,它只需要测两个亲本和后代中两个极端差异群体即可,但是它对实验设计,表型考察,样本挑选都有比较高的要求。如果你的表型差异并不是泾...
基因表达是功能基因组学研究的一个重要领域。基因表达与基因信息从基因组DNA模板到功能蛋白产物的流动有关(图1)。大规模并行
RNA
测序(
RNA
-
seq
)已成为一种标准的基因表达检测方法,尤其用于询问相对转录本丰度和多样性。一些研究已经证实,它的测量精度可以与其他成熟的方法如微阵列和定量聚合酶链反应(qPCR)相媲美[2-4]。它有蜜蜂
RNA
-
seq
数据库
是用于存储和管理
RNA
测序数据的
数据库
。这些
数据库
收集和整理了大量的
RNA
-
seq
数据,并提供了丰富的功能和工具,以支持研究人员在基因表达
分析
、转录组注释和功能研究等方面的工作。
一些常见的
RNA
-
seq
数据库
包括:
1. NCBI Gene Expression Omnibus (GEO):这是一个公共
数据库
,包含了大量的基因表达数据,包括
RNA
-
seq
数据。研究人员可以在GEO中搜索和下载感兴趣的数据集,并进行
分析
和比较。
2. European Nucleotide Archive (ENA):这是一个欧洲的公共
数据库
,收集了大量的核酸序列数据,包括
RNA
-
seq
数据。研究人员可以在ENA中搜索并访问
RNA
-
seq
数据,进行数据挖掘和
分析
。
3.
Seq
uence Read Archive (SRA):这是一个由NCBI提供的全球性公共
数据库
,存储了大量的高通量测序数据,包括
RNA
-
seq
数据。研究人员可以在SRA中搜索、下载和
分析
RNA
-
seq
数据。
4. TCGA
数据库
:这是一个癌症基因组项目的
数据库
,其中包含了大量的癌症样本的
RNA
-
seq
数据。研究人员可以在TCGA中查询和
分析
癌症相关的
RNA
-
seq
数据,以了解肿瘤的基因表达变化。
这些
RNA
-
seq
数据库
提供了丰富的数据资源和
分析
工具,帮助研究人员在基因表达研究中获得更深入的理解和洞察。