Aritalab:Lecture/Programming/NGS

From Metabolomics.JP
< Aritalab:Lecture | Programming
Revision as of 16:18, 31 May 2022 by Adm (Talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

NGS解析の基礎

配列のクオリティチェックとアダプター配列等の除去
(base) $ fastqc ファイル名
(base) $ fastp -i 入力ファイル -o 出力ファイル -I 入力ファイル -O 出力ファイル
配列のアセンブリ

オプションの -G N は、不明塩基(N)をギャップとみなす指定。-a は詳細な結果表示。

(base) $ megahit -1 forward側リード -2 reverse側リード -o out_megahit
(base) $ seqkit stats -a -G N 出力ファイル/final.contigs.fa
短いコンティグの除去

seqkitを使って 1000 以下のコンティグを除去します。sort オプションは -l で長さによる降順です。

(base) $ seqkit seq --min-len 1000 out_megahit/final.contigs.fa  | seqkit sort -l > contigs.1000.fa
(base) $ seqkit stats -a -G Nn contigs.1000.fa
file             format  type  num_seqs    sum_len  min_len   avg_len  max_len       Q1      Q2        Q3  sum_gap     N50  Q20(%)  Q30(%)
contigs.1000.fa  FASTA   DNA         47  2,346,749    1,080  49,930.8  206,021  8,824.5  36,083  83,358.5        0  96,158       0       0

コンティグの長さは平均で 49,930 あり N50 値が 96,158 となります。これはコンティグを長いものから順番に並べたとき、全長の50%にくるコンティグの長さが 96K であることを意味します。

Personal tools
Namespaces

Variants
Actions
Navigation
metabolites
Toolbox