Re: [討論] 序列比對
※ 引述《juihhu (...)》之銘言:
: 小的最近在做 Human DNA的序列比對
: 把許多條已定序的序列丟進NCBI 作 Blast
: 再針對 mismatch 出現的位置作統計,
: 結果發現了一些有趣的現象
: 1. mismatch 經常是連續的。舉例來說:
: QuerySeq -AATTTTTTTAAA-
: || |||
: RefSeq -AAGGGGGGGAAA-
: 上方的"QuerySeq" 是我丟進去比對的序列,
: 下方的"RefSeq"是NCBI的參考序列
: (當然比對的序列不會這麼短啦,在這裏只是舉例 ^^")
: 其中的mismatch有7個,而且它們是連續的。
: 這種連續的mismatch發生的頻率相當地高。
這個很好解釋啊
1, 可能是對到repeat sequence
2. low complexity seq
3. 以基因的特性來就說,本來就容易有module, motif等conserve seq
介於這些區域之間,就是mis match seq啦
4. 你要注意一下mis match 長度若連續再長一點,就會變成不同HSP啦
請先多看一下BLAST 的演算方式,和 molecular evolution, human genomics等
不然我並不覺得這是什麼很驚人的發現...
: 2. mismatch 與 mismatch 之間的距離 = 3。舉例來說:
: QuerySeq -AATAAGAATCCA-
: || || || ||
: RefSeq -AAGAACAACCCT-
: 上面的比對結果共有4個mismatch,而且它們倆倆之間的距離都是3
: 這類情況雖不如上述第一種現象來得頻繁,但也頗常見。
: 綜合以上兩者,
: 第二種現象還可以解釋 (從 aa 和演化觀點切入)
這個部份之前有看過有人發表過
做的還比較細
是連translation都考慮進去...
可以找一下文獻
這個文章發在生醫資訊版,你會得到更多的回應的
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.160.39.64
討論串 (同標題文章)