趣味のゲノム解析【実践編2】 [ゲノム解析で古代史]
前回の続きです。
VCFファイルから「血液型」を調べる方法について書いておきます。
ABO血液型の遺伝子は第9染色体にあり、そのSNP(塩基の変異のこと…A/T/G/C)は次の2つです。
・rs8176746 (C→A型/A→B型)
・rs8176719 (del[なし]→O型/G→rs8176746の型)
ただし、人間の染色体は2本で1組(2倍体)なので、↑のSNPはそれぞれ2個ずつあります。
ABO Blood Type and Personality Traits in Healthy Japanese Subjects
つまり、VCFファイルに格納されているSNPの内容を解読すれば、その人の血液型がわかるのです!
ただし、一部のVCFファイルの情報にはrs番号がなく、POS(位置情報)だけの場合があり、そのときは該当するPOSを検索する必要があります。
やり方は↓のとおりです。
jMORP Genomic Variants
実際に調べてみたところ、
・rs8176746→POS 136131322
・rs8176719→POS 136132908
となりました。
しかし、現実のVCFファイルは巨大なので、特定のSNPのデータだけ取り出すのは簡単ではありません。
VCFファイルの実体は、TAB区切りのCSVファイルなので、Excelで読み取ること自体は可能です。
ただし、Excelの上限の100万行以上になると、取り扱いは相当大変です。
私は、ツールを探すのが面倒だったので、CsvDivNetというソフトを使ってVCFファイルを分割し、Excelで該当する番号の行を切り出しました。
結果は↓のとおりです。
※一般的には「rs8176746 (C→A型/A→B型)」ですが、なぜかこのVCFファイルでは、C→G(Cのペアになる塩基)、A→T(Aのペアになる塩基)が表示されます。これは、rs8176719も同じで、G→C(Gのペアになる塩基)でした。
なんで?
面白かったのは、rs8176746はA型が標準(REF)、rs8176719はO型が標準(同)と決められていることです。欧米人が基準なので、そうなるんでしょうね
VCFファイルから「血液型」を調べる方法について書いておきます。
ABO血液型の遺伝子は第9染色体にあり、そのSNP(塩基の変異のこと…A/T/G/C)は次の2つです。
・rs8176746 (C→A型/A→B型)
・rs8176719 (del[なし]→O型/G→rs8176746の型)
ただし、人間の染色体は2本で1組(2倍体)なので、↑のSNPはそれぞれ2個ずつあります。
ABO Blood Type and Personality Traits in Healthy Japanese Subjects
つまり、VCFファイルに格納されているSNPの内容を解読すれば、その人の血液型がわかるのです!
ただし、一部のVCFファイルの情報にはrs番号がなく、POS(位置情報)だけの場合があり、そのときは該当するPOSを検索する必要があります。
やり方は↓のとおりです。
jMORP Genomic Variants
実際に調べてみたところ、
・rs8176746→POS 136131322
・rs8176719→POS 136132908
となりました。
しかし、現実のVCFファイルは巨大なので、特定のSNPのデータだけ取り出すのは簡単ではありません。
VCFファイルの実体は、TAB区切りのCSVファイルなので、Excelで読み取ること自体は可能です。
ただし、Excelの上限の100万行以上になると、取り扱いは相当大変です。
私は、ツールを探すのが面倒だったので、CsvDivNetというソフトを使ってVCFファイルを分割し、Excelで該当する番号の行を切り出しました。
結果は↓のとおりです。
※一般的には「rs8176746 (C→A型/A→B型)」ですが、なぜかこのVCFファイルでは、C→G(Cのペアになる塩基)、A→T(Aのペアになる塩基)が表示されます。これは、rs8176719も同じで、G→C(Gのペアになる塩基)でした。
なんで?
面白かったのは、rs8176746はA型が標準(REF)、rs8176719はO型が標準(同)と決められていることです。欧米人が基準なので、そうなるんでしょうね
2022-03-02 22:07
コメント(0)
コメント 0