本文共 1973 字,大约阅读时间需要 6 分钟。
【1】完成数据文件的本地保存及上传流程
【2】使用SRAtoolkits中的fastq-dump命令,将SRA数据转换为fastq格式
命令示例: `fastq-dump --split-e SRR11906971 SRR11906972 SRR11906973 SRR11906974`
【3】在Linux服务器上进行RNA sequencing数据的处理工作
创建并运行RNA_seq_script,实现数据的质控、比对、格式转换、排序、拼接和定量分析。
脚本代码如下: ```bash#!/bin/bashdir=/f/xudonglab/zexing/projects/sunxiaoyu/RNA_seq/2021_03_15 for i in SRR11906971 SRR11906972 SRR11906973 SRR11906974dohisat2 -t -p 16 -x /f/xudonglab/zexing/reference/UCSC_mm10/hisat2_index/hisat2_index_mm10 -1 ${dir}/clean_data/${i}_1.fastq -2 ${dir}/clean_data/${i}_2.fastq -S ${dir}/sam/${i}.sam samtools view -@ 16 -S ${dir}/sam/${i}.sam -1b -o ${dir}/bam/${i}.bam samtools sort -@ 16 -l 5 -o ${dir}/bam_sort/${i}.bam.sort ${dir}/bam/${i}.bam mkdir ${dir}/ballgown/"$i" stringtie ${dir}/bam_sort/"$i".bam.sort -o ${dir}/ballgown/"$i"/"$i".gtf -p 16 -G /f/xudonglab/zexing/reference/UCSC_mm10/mm10_genes.gtf -e -B -A ${dir}/ballgown/"$i"/"$i".gene.tab done后台运行RNA_seq_script并记录日志:
`nohup bash RNA_seq_script > RNA_seq_script_log &`使用prepDE.py脚本提取read_counts数值
步骤说明:
- 进入ballgown文件夹,将prepDE.py脚本拷贝至当前文件夹
- 退出当前conda环境
- 运行prepDE.py脚本
代码示例: ```bashcp /f/xudonglab/zexing/software/prepDE.py ./conda deactivatepython prepDE.py
运行结果生成"gene_count_matrix.csv"文件,该文件作为DESeq2分析的输入文件。
热图绘制说明:
使用StringTie的-A参数获取FPKM值,采用差异基因(DESeq2分析中abs(log2FoldChange) ≥ 1)进行热图绘制。
代码示例: ```Rlibrary(gplots)library(matrixColors)# 读取数据dir <- "G:/sunxiaoyu/RNA-seq/2021_03_15/Rtreatment/heatmap/"files <- list("SRR11906971.FPKM", "SRR11906972.FPKM", "SRR11906973.FPKM", "SRR11906974.FPKM")# 读取各文件并格式化颜色代码heatmap_colors <- colorRang(1, 65, palette = 'viridis')colorCodes <- cerpheumines(51)# 绘制并保存热图par(mfrow=c(1,2))for (file in files) { df <- read.table(paste(dir, file, sep = ""), header = FALSE, sep = "\t") row.names(df) <- NULL image(1:ncol(df), 1:rownames(df), xaxs = 'dend', yaxs = 'dend', tolerance = 1, color.sequence = colorCodes)}
转载地址:http://kifjz.baihongyu.com/