Re: [問題] 請問一題可能跟信賴程度有關的問題

看板Statistics作者 (Gix.Andy)時間18年前 (2007/10/04 10:05), 編輯推噓4(408)
留言12則, 2人參與, 最新討論串2/3 (看更多)
我有一個想法 請大家鞭小力一點... 方法是這樣 你拿輸入的序列(Ai)對資料庫(A1~A10000)做出10000個r 也就有10000個r^2 由大至小排序r^2並畫圖(大小 x r^2) 在圖形驟降的地方切割 驟降看是要算迴歸線(maybe logistic)然後微分 或是鄰近兩點的差值都好 當然這樣你還是要訂一個標準 (迴歸或差值要下降多少才切) 不過可能 比較有感覺吧XD ※ 引述《showponn (showpon)》之銘言: : 大家好 我是資工所的學生 只有在大學時學過一點點統計 : 想請問大家一個最近遇到的問題 如下: : 假設現在手中有一萬條dna序列 : 現在要做一個系統 讓使用者可以每次輸入一條序列 去和這一萬條算相似度 : 每一個相似度 都有一個分數來代表 分數越高就是相似度越高 反之就越低 : 但是我們的系統 希望呈現給使用者的只有那些相似度高的序列 : 被判斷成相似度低的序列 就不呈現出來 : 我的困惑在於 如何從這一萬個分數的分佈裡 算出一個合理的門檻 : 把分數低於門檻的都視為不相似 (其實方法不需太精確 能大略判斷出合理門檻就行) : 感覺這需要一些統計的方法 : 麻煩各位高手可以撥個空 幫我解惑一下 : haha 小弟感激不盡!!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.4.234

10/04 13:37, , 1F
謝謝你阿!! 我知道條件給不太夠 你還能幫我想出這個方法
10/04 13:37, 1F

10/04 14:04, , 2F
後來看了一下 發現很多人是用E-value在解我這種問題
10/04 14:04, 2F

10/04 14:05, , 3F
不過網路上查到很少關於e-value 的算法
10/04 14:05, 3F

10/04 14:06, , 4F
不知道有人對這種方法有瞭解嗎?
10/04 14:06, 4F

10/04 14:14, , 5F
expectation value?
10/04 14:14, 5F

10/04 15:18, , 6F
字面上是這樣沒錯
10/04 15:18, 6F

10/04 15:18, , 7F
不過有看過類似的方法好像是假設有1000條隨機序列
10/04 15:18, 7F

10/04 15:22, , 8F
用這1000條序列 跟使用者序列算分
10/04 15:22, 8F

10/04 15:23, , 9F
大於某特定分數的機率程度 來當作E-VALUE
10/04 15:23, 9F

10/04 15:25, , 10F
所以E-VALUE越小 代表這條序列用重要 因為出現可能性低
10/04 15:25, 10F

10/04 15:26, , 11F
但我也不是很懂他確切的算法
10/04 15:26, 11F

10/04 15:27, , 12F
所以希望有看過的人可以幫我解惑一下哦 謝謝啦!!
10/04 15:27, 12F
文章代碼(AID): #1714flvw (Statistics)
討論串 (同標題文章)
文章代碼(AID): #1714flvw (Statistics)