添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

!!!!声明:不是原创,我只是方便自己学习, 原文指路

NCBI-SRA数据库与EBI-ENA数据库

所有已发表文献中的高通量测序数据大多会上传到某个数据库中方便其他人的下载学习与再研究,这其中受众最广的自然是出身NCBI的SRA数据库。同时出身EBI的ENA数据库对于下载数据有很多便利之处,所以在具体下载文件之前先了解一下这两个数据库的情况。

NCBI与EBI同属于INSDC:International Nucleotide Sequence Database Collaboration,提交给所属三个数据库的数据是可以互通的。该架构内容具体如下:

  • NCBI: National Center for Biotechnology Information
  • EBI: European Bioinformatics Institute
  • DDBJ:DNA Data Bank of Japan

SRA数据库 : Sequence Read Archive,

  • 是一个保存高通量测序数据以及比对信息和元数据(meta data)的数据库,所有已经发表的文献中的高通量测序数据基本上都会上传到该数据库中,这个数据库隶属于NCBI。
    在这里插入图片描述
  • SRA数据库的各种编号
    元数据(meta data) :是指与测序实验及其实验样品相关的数据, 如实验目的、 实验设计、 测序平台、 样本数据(物种, 菌株,个体表型等),在SRA数据库中,meta数据分如下层次来存储:
    【1】研究课题(study):在 SRA 数据库中,研究课题的检索号(accession number)以前缀 DRP ERP SRP 开头。
    【2】样本信息(sample):样本的检索号以前缀 DRS,ERS 或 SRS 开头。 样本信息可以包括物种信息、 菌株(品系)信息、家系信息、表型数据、临床数据, 组织类型等。
    【3】实验信息(experiment):实验的检索号以前缀 DRX ERX SRX 开头。 实验是 SRA 数据库的最基本单元, 就像 PubMed 数据库的每一篇文献是 PubMed数据库的基本单元一样。 一个实验隶属于某个研究课题,对一个或多个样本进行测序,产生的测序数据以 runs 的形式存储于SRA数据库。
    【4】序列数据:包括序列及其质量信息等,在 SRA 数据库中以 run 为单元存储。run 的检索号以前缀 DRR ERR SRR 开头。

ENA数据库 : European Nucleotide Archive

  • 隶属于EBI,功能上应该是与SRA类似的,但是其搜索界面更加亲民,并且对于下载fastq文件以及检查下载数据完整性更加友好,所以强烈推荐优先使用。
  • ENA数据库的优势
    【1】可以直接获取得到 fastq 文件
    【2】使用ENA数据库还有一个优势是可以确认下载数据的完整性。生信数据的大体量性带来的下载时间长(期间网络万一不正常就会波动)可能会造成下载数据的缺失等问题,这些问题一般很难在获得数据的初期被发现。ENA数据库提供了md5码这种途径来检查数据的完整性。

  • ENA数据库使用

首先,在数据库页面右上角搜索栏输入目标SRA检索号,确认后稍等片刻可得结果页面

其次,点击选取 Experiment 可以获得该实验下所有的测序序列数据的信息

我们可以看到隶属于该实验的两个序列数据信息,并且可以在 FASRTQ files(FTP) 栏中获得直接下载 fastq 文件的FTP 地址。

获取直接下载 fastq 文件的FTP地址

!!!!声明:不是原创,我只是方便自己学习,原文指路NCBI-SRA数据库与EBI-ENA数据库所有已发表文献中的高通量测序数据大多会上传到某个数据库中方便其他人的下载学习与再研究,这其中受众最广的自然是出身NCBI的SRA数据库。同时出身EBI的ENA数据库对于下载数据有很多便利之处,所以在具体下载文件之前先了解一下这两个数据库的情况。NCBI与EBI同属于INSDC:International Nucleotide Sequence Database Collaboration,提交给所属三个数
RNA - Seq 数据中circ RNA 的定量,差异表达 分析 和mi RNA 目标预测 分析 的工作流程。 nf-core / circ rna 是一种 生物信息学 流水线,用于定量,mi RNA 靶标预测和 RNA 测序数据中存在的circ RNA 的差异表达 分析 (当前支持总 RNA - Seq 配对末端测序数据,已映射至智人Gencode参考基因组GRCh37, GRCh38 v34)。 pipleline已以模块化方式开发,除了circ RNA 定量外,还允许用户选择mi RNA 靶标预测,差异表达 分析 (或两者),以促进围绕circ RNA 参与竞争内源 RNA 网络的假设。 该管道是使用构建的, 是一种工作流工具,可以以非常便携的方式跨多个计算基础架构运行任务。 它带有docker容器,使安装变得简单,结果可高度重现。 默认情况下, nf-core/circ rna 使用所有3个 分析 模块: circ rna _discovery
文献: RNA - seq 数据 分析 最佳实践调查 本次阅读Genome Biology杂志2016年Online的 RNA - seq 数据 分析 方法的Review论文,题目为: A survey of best practices for RNA - seq data analysis 本文翻译来自该文章。 RNA 是基因组和蛋白组的中间体,因此转录本的鉴定和定量是重要的生物学问题。该论文综述了 RNA - seq 项目中相关的各个步骤、每个步骤的局限、和其他组学的整合以及展望。 Note : 从摘要中可以发现本文综述分为两部分(1)现
2.SRA Run Selector 查看数据单双端类型(SINGLE or PAIRED)及分组信息 可以点击Accession List下载对应的SRR_Acc_List.txt 二、 RNA - seq 处理流程 使用HISAT, StringTie and Ballgown处理流程 <一>下载并解压SRA文件 1.根据下载的SRR_Acc_List.txt下载原始sra文件至SRR
参考:懒人操作之从TCGA批量下载 RNA Seq 数据 1.登录TCGA数据获取网站:https://portal.gdc.cancer.gov/。搜索GBM,选择TCGA-GBM 2.选择下载的数据类型:(我需要下载的是 RNA - Seq 数据)。鼠标右键点击打开新页面 4.对数据进行进一步筛选:(可根据自己需求筛选) 5.将所有文件添加到购物车:(此购物车非彼购物车,这是不花钱的购物车) 6.点击下载即可:
BSA虽然不是我最早接触的高通量数据 分析 项目(最早的是 RNA - seq ),但是却是我最早独立开展的数据 分析 项目, 我曾经专门写过一篇文章介绍如何使用SHOREMap做拟南芥的EMS诱变群体的BSA 分析 在遗传定位上,相对于GWAS和binmap,BSA是一个比较省钱的策略,它只需要测两个亲本和后代中两个极端差异群体即可,但是它对实验设计,表型考察,样本挑选都有比较高的要求。如果你的表型差异并不是泾...
基因表达是功能基因组学研究的一个重要领域。基因表达与基因信息从基因组DNA模板到功能蛋白产物的流动有关(图1)。大规模并行 RNA 测序( RNA - seq )已成为一种标准的基因表达检测方法,尤其用于询问相对转录本丰度和多样性。一些研究已经证实,它的测量精度可以与其他成熟的方法如微阵列和定量聚合酶链反应(qPCR)相媲美[2-4]。它有蜜蜂
RNA - seq 数据库 是用于存储和管理 RNA 测序数据的 数据库 。这些 数据库 收集和整理了大量的 RNA - seq 数据,并提供了丰富的功能和工具,以支持研究人员在基因表达 分析 、转录组注释和功能研究等方面的工作。 一些常见的 RNA - seq 数据库 包括: 1. NCBI Gene Expression Omnibus (GEO):这是一个公共 数据库 ,包含了大量的基因表达数据,包括 RNA - seq 数据。研究人员可以在GEO中搜索和下载感兴趣的数据集,并进行 分析 和比较。 2. European Nucleotide Archive (ENA):这是一个欧洲的公共 数据库 ,收集了大量的核酸序列数据,包括 RNA - seq 数据。研究人员可以在ENA中搜索并访问 RNA - seq 数据,进行数据挖掘和 分析 。 3. Seq uence Read Archive (SRA):这是一个由NCBI提供的全球性公共 数据库 ,存储了大量的高通量测序数据,包括 RNA - seq 数据。研究人员可以在SRA中搜索、下载和 分析 RNA - seq 数据。 4. TCGA 数据库 :这是一个癌症基因组项目的 数据库 ,其中包含了大量的癌症样本的 RNA - seq 数据。研究人员可以在TCGA中查询和 分析 癌症相关的 RNA - seq 数据,以了解肿瘤的基因表达变化。 这些 RNA - seq 数据库 提供了丰富的数据资源和 分析 工具,帮助研究人员在基因表达研究中获得更深入的理解和洞察。