Re: [問題] 關於NCBI的BLASTn之後的data

看板Biology作者 (huggie)時間17年前 (2007/06/03 14:37), 編輯推噓2(201)
留言3則, 2人參與, 最新討論串3/3 (看更多)
※ 引述《YuDavid (討厭失眠)》之銘言: : 各位高手大家好 : 我在做"細菌菌種鑑定"的實驗 : 主要步驟是提取total DNA 然後PCR夾出16S rRNA gene然後去BLAST 鑑定到"屬"或"種" : 我將定序出來的結果到BLASTn去輸入 : 出來了一些資料包括max score, total score, query coverage, E value, max ident.. : 等等 : 請問分別都代表什麼意思呢 : "同源性最高的"應該是哪個數值最大或最小呢? : 我原本以為是max ident百分之百的 就是我要的結果 : 可是那個百分之百的score佑是最低的@@ : 抱歉我們老師也不太會 : 所以我只能上來問問各位高手 : 請大家幫忙 感恩 Score (bit score): BLAST 對 alignment 的好壞的計分評量。align的片段越長分數越高, 但如果 alignment 遇到 gap 就會扣分,開 gap 扣分比延長 gap 扣分來得高。最後加加減減總結的結果就會有個分數出來。 Score 越大表示 match 的越好。(match的長度越長 score 自然也就越高) max score: 你的 query 序列對應到 database 的某一筆 target 序列,當相似度 不夠高的時候有可能會對到好幾片段 (許多個 alignments)(而且還包 含了 reverse stand的可能性) 在對應到相同一筆,多片段的時候, score 最好的那一個片段的 score 就是 max score。 total score: 所有片段 score 相加的總和 query coverage: 我不確定,但照字面上解釋應該是所應到的序列涵蓋 query 序列的百分比 你可以 check 一下是不是。 E-value: 這是統計結果。根據 database 大小以及 alignment 長短而定。 當 database 越大(內含筆數越多),alignment 長度越短,此 alignment 是純屬巧合的機率就會增加。E-value 越小代表越可能是巧合。我忘了 多小才是合理了,好像在1e-5以內? NCBI documents 裡面有講到。 如果 e-value 是3, 就是說預期會有3筆這樣的分數跳出來。 這樣顯然可信度就低了。 Max-identity: 剛說過的,對到一筆序列可能是好幾段,每一段都有各自的 identity 就是最identical那一段的 identity 了。 所以第一個該看的就是 E-value. E-value 太大的 alignment 一切免談了。 過來在 e-value 合適裡面的再由 score 高的優先考慮起。 Score 當然就代表了 identity, 但是可能直接看 identity 跟 alignment 結果比較直觀吧? 可以看有沒有 gap, 何不合理之類的。 也要注意一下你對應到的是不是 gene 的 full sequence. NCBI 的 database 有時候挺雜亂的。一個highly similar的 partial sequence 可能不 代表什麼。如果有那個物種的 refseq (reference sequence) 以那個做 database 可能較理想,因為是 curate 過的。相反地 nr 的 data 是 實驗室 deposit 上去是什麼就是什麼。如果有錯誤,實驗室自己不修正, NCBI 也沒有權利更改。 我不是高手.....所以有可能講錯,但可以參考看看 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.77.13 ※ 編輯: huggie 來自: 140.129.77.13 (06/03 14:40)

06/03 17:18, , 1F
注意一下不同次比對的 score 不能相
06/03 17:18, 1F

06/03 17:35, , 2F
互比較,
06/03 17:35, 2F

06/09 16:00, , 3F
thanks a lot, it's helpful!!
06/09 16:00, 3F
文章代碼(AID): #16Oc6D9v (Biology)
文章代碼(AID): #16Oc6D9v (Biology)