Fastqとは - わかりやすく解説 Weblio辞書 (original) (raw)
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2016/06/28 07:50 UTC 版)
FASTQ形式はテキストベースの形式で、DNAなどの塩基配列とそのクオリティスコアを1つのファイルに一緒に保存する際に用いられる。 塩基配列とクオリティスコアは各1文字のASCII文字で表され、これにより塩基とクオリティの対応関係が分かりやすくなっている。この形式はWellcome Trust Sanger Instituteで開発されたもので、FASTA形式のデータにクオリティ情報を追加するためのものであった。しかし今日ではIllumina Genome Analyzerのような次世代シーケンサー等から出力された塩基配列のデータを保存する際のフォーマットとしてデファクトスタンダードとなっている。
目次
形式
FASTQファイル内では、1本の配列は4行で記述される。1行目は文字「@」で始まり、その後ろに配列のIDと、オプションとして説明を記述する。2行目は塩基配列を記述する。3行目には文字「+」を記載する。またその後ろに配列のIDを記載することもある。 4行目には2行目に記述した配列のクオリティ値を記述する。このクオリティ値は2行目の配列と同じ文字数でなければならない。
最小のFASTQファイルは、以下のようなものである:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65
元のSangerのFASTQファイルでは、塩基配列とクオリティ文字列の行の折り返しを許していた(その場合、数行飛びに分割される)。 しかし折り返しありのファイルでは、簡素な実装のプログラムではファイルのパージングの際にクオリティ行頭の「@」や「+」を誤ってID等の目印として認識してしまうものもあり、正確に折り返しに対応しようとすると実装が複雑となるため、折り返しありの形式は避けられることも少なくない。
イルミナの配列IDの形式
イルミナのソフトウェアが出力した配列データでは、IDは以下で紹介するような規則で記述されている。
@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R | ユニークな機器名 |
---|---|
6 | フローセル内のレーン番号 |
73 | レーン内のタイル番号 |
941 | タイル内のクラスターの'x'-座標 |
1973 | タイル内のクラスターの'y'-座標 |
#0 | サンプルがマルチプレックスになっている場合のインデックス番号 (インデックスなしの場合は0) |
/1 | ペアの番号, /1 または /2 (ペアエンド、メイトペアのリードのみ) |
イルミナパイプラインのversion 1.4からは**#0の代わりに#NNNNNNの形式がマルチプレックスのIDに使用されるようになった。なおNNNNNN**はマルチプレックスで使用するタグ配列。
Casava 1.8では次のように変更になった:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
EAS139 | ユニークな機器名 |
---|---|
136 | Run ID |
FC706VJ | フローセルID |
2 | フローセル内のレーン番号 |
2104 | レーン内のタイル番号 |
15343 | タイル内のクラスターの'x'-座標 |
197393 | タイル内のクラスターの'y'-座標 |
1 | ペアの番号, 1 or 2 (ペアエンド、メイトペアのリードのみ) |
Y | フィルタで落ちた場合はY (悪いリード), その他はN |
18 | コントロールビットが立っていない場合は0、立っている場合は偶数 |
ATCACG | インデックス配列 |
NCBI Sequence Read Archive
NCBI/EBI のSequence Read ArchiveのFASTQファイルは以下のように付随情報を含んでいることがある。
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
この例ではNCBIが付与したIDと、元のSolexa/IlluminaのID、そしてリード長が含まれている。
また、NCBIはSolexa/IlluminaのエンコーディングのFASTQデータをサンガー形式のエンコーディングに変換したものを提供している(下記のエンコーディングを参照)。
FASTQ形式のバリエーション
クオリティ
クオリティ値_Q_は確率_p_を整数に変換したものである(確率_p_はそのベースコールが誤りである確率)。よく用いられるのはSangerの式によるスコアで、ベースコールの信頼性の指標として利用されており、このスコアはPhredクオリティスコアとも呼ばれる。
Q sanger = − 10 log 10 p {\displaystyle Q_{\text{sanger}}=-10\,\log _{10}p}
Q と p の間の関係。Sanger (赤) と Solexa (黒) の上述の計算式による. 縦方向の破線は p = 0.05を示し、_Q_で言えば Q ≈ 13.