Fastqとは - わかりやすく解説 Weblio辞書 (original) (raw)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2016/06/28 07:50 UTC 版)

FASTQ形式はテキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられる。 塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっている。この形式はWellcome Trust Sanger Instituteで開発されたもので、FASTA形式のデータにクオリティ情報を追加するためのものであった。しかし今日ではIllumina Genome Analyzerのような次世代シーケンサー等から出力された塩基配列のデータを保存する際のフォーマットとしてデファクトスタンダードとなっている。

目次

形式

FASTQファイル内では、1本の配列は4行で記述される。1行目は文字「@」で始まり、その後ろに配列のIDと、オプションとして説明を記述する。2行目は塩基配列を記述する。3行目には文字「+」を記載する。またその後ろに配列のIDを記載することもある。 4行目には2行目に記述した配列のクオリティ値を記述する。このクオリティ値は2行目の配列と同じ文字数でなければならない。

最小のFASTQファイルは、以下のようなものである:

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65

元のSangerのFASTQファイルでは、塩基配列とクオリティ文字列の行の折り返しを許していた(その場合、数行飛びに分割される)。 しかし折り返しありのファイルでは、簡素な実装のプログラムではファイルのパージングの際にクオリティ行頭の「@」や「+」を誤ってID等の目印として認識してしまうものもあり、正確に折り返しに対応しようとすると実装が複雑となるため、折り返しありの形式は避けられることも少なくない。

イルミナの配列IDの形式

イルミナのソフトウェアが出力した配列データでは、IDは以下で紹介するような規則で記述されている。

@HWUSI-EAS100R:6:73:941:1973#0/1

HWUSI-EAS100R ユニークな機器名
6 フローセル内のレーン番号
73 レーン内のタイル番号
941 タイル内のクラスターの'x'-座標
1973 タイル内のクラスターの'y'-座標
#0 サンプルがマルチプレックスになっている場合のインデックス番号 (インデックスなしの場合は0)
/1 ペアの番号, /1 または /2 (ペアエンド、メイトペアのリードのみ)

イルミナパイプラインのversion 1.4からは**#0の代わりに#NNNNNNの形式がマルチプレックスのIDに使用されるようになった。なおNNNNNN**はマルチプレックスで使用するタグ配列。

Casava 1.8では次のように変更になった:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

EAS139 ユニークな機器名
136 Run ID
FC706VJ フローセルID
2 フローセル内のレーン番号
2104 レーン内のタイル番号
15343 タイル内のクラスターの'x'-座標
197393 タイル内のクラスターの'y'-座標
1 ペアの番号, 1 or 2 (ペアエンド、メイトペアのリードのみ)
Y フィルタで落ちた場合はY (悪いリード), その他はN
18 コントロールビットが立っていない場合は0、立っている場合は偶数
ATCACG インデックス配列

NCBI Sequence Read Archive

NCBI/EBI のSequence Read ArchiveのFASTQファイルは以下のように付随情報を含んでいることがある。

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

この例ではNCBIが付与したIDと、元のSolexa/IlluminaのID、そしてリード長が含まれている。

また、NCBIはSolexa/IlluminaのエンコーディングのFASTQデータをサンガー形式のエンコーディングに変換したものを提供している(下記のエンコーディングを参照)。

FASTQ形式のバリエーション

クオリティ

クオリティ値_Q_は確率_p_を整数に変換したものである(確率_p_はそのベースコールが誤りである確率)。よく用いられるのはSangerの式によるスコアで、ベースコールの信頼性の指標として利用されており、このスコアはPhredクオリティスコアとも呼ばれる。

Q sanger = − 10 log 10 ⁡ p {\displaystyle Q_{\text{sanger}}=-10\,\log _{10}p}

Qp の間の関係。Sanger (赤) と Solexa (黒) の上述の計算式による. 縦方向の破線は p = 0.05を示し、_Q_で言えば Q ≈ 13.