Aritalab:Lecture/Programming/NGS

From Metabolomics.JP
< Aritalab:Lecture | Programming(Difference between revisions)
Jump to: navigation, search
(Created page with "==NGS解析の基礎== ; 配列のクオリティチェックとアダプター配列等の除去 <pre> (base) $ fastqc ファイル名 (base) $ fastp -i 入力ファイル -...")
 
m
Line 1: Line 1:
 +
== ゲノム解析に必要なツールとデータ==
 +
conda を使って以下のように準備しておきます。
 +
<pre>
 +
(base) $ conda install -y -c bioconda fastqc fastp megahit seqkit
 +
...
 +
(base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
 +
6/DRR024501_1.fastq.bz2
 +
(base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
 +
6/DRR024501_2.fastq.bz2
 +
...
 +
(base) $ bunzip2 *.bz2
 +
...
 +
>seqkit stats *.fastq
 +
(base) $ seqkit stats *.fastq
 +
file              format  type  num_seqs      sum_len  min_len  avg_len  max_len
 +
DRR024501_1.fastq  FASTQ  DNA  2,971,310  745,798,810      251      251      251
 +
DRR024501_2.fastq  FASTQ  DNA  2,971,310  745,798,810      251      251      251
 +
</pre>
 +
 
==NGS解析の基礎==
 
==NGS解析の基礎==
  

Revision as of 13:49, 1 June 2022

ゲノム解析に必要なツールとデータ

conda を使って以下のように準備しておきます。

(base) $ conda install -y -c bioconda fastqc fastp megahit seqkit
...
(base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
6/DRR024501_1.fastq.bz2
(base) $ curl -O ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/DRA002/DRA002643/DRX02218
6/DRR024501_2.fastq.bz2
...
(base) $ bunzip2 *.bz2
...
>seqkit stats *.fastq
(base) $ seqkit stats *.fastq
file               format  type   num_seqs      sum_len  min_len  avg_len  max_len
DRR024501_1.fastq  FASTQ   DNA   2,971,310  745,798,810      251      251      251
DRR024501_2.fastq  FASTQ   DNA   2,971,310  745,798,810      251      251      251

NGS解析の基礎

配列のクオリティチェックとアダプター配列等の除去
(base) $ fastqc ファイル名
(base) $ fastp -i 入力ファイル -o 出力ファイル -I 入力ファイル -O 出力ファイル
配列のアセンブリ

オプションの -G N は、不明塩基(N)をギャップとみなす指定。-a は詳細な結果表示。

(base) $ megahit -1 forward側リード -2 reverse側リード -o out_megahit
(base) $ seqkit stats -a -G N 出力ファイル/final.contigs.fa
短いコンティグの除去

seqkitを使って 1000 以下のコンティグを除去します。sort オプションは -l で長さによる降順です。

(base) $ seqkit seq --min-len 1000 out_megahit/final.contigs.fa  | seqkit sort -l > contigs.1000.fa
(base) $ seqkit stats -a -G Nn contigs.1000.fa
file             format  type  num_seqs    sum_len  min_len   avg_len  max_len       Q1      Q2        Q3  sum_gap     N50  Q20(%)  Q30(%)
contigs.1000.fa  FASTA   DNA         47  2,346,749    1,080  49,930.8  206,021  8,824.5  36,083  83,358.5        0  96,158       0       0

コンティグの長さは平均で 49,930 あり N50 値が 96,158 となります。これはコンティグを長いものから順番に並べたとき、全長の50%にくるコンティグの長さが 96K であることを意味します。

Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox