Re: [問題] 請問一題可能跟信賴程度有關的問題

看板Statistics作者 (Gix.Andy)時間18年前 (2007/10/04 16:55), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串3/3 (看更多)

10/04 15:18,
不過有看過類似的方法好像是假設有1000條隨機序列
10/04 15:18

10/04 15:22,
用這1000條序列 跟使用者序列算分
10/04 15:22

10/04 15:23,
大於某特定分數的機率程度 來當作E-VALUE
10/04 15:23

10/04 15:25,
所以E-VALUE越小 代表這條序列用重要 因為出現可能性低
10/04 15:25

10/04 15:26,
但我也不是很懂他確切的算法
10/04 15:26

10/04 15:27,
所以希望有看過的人可以幫我解惑一下哦 謝謝啦!!
10/04 15:27
我覺得這做法比較偏向於檢驗當前現象(使用者序列)是否只是隨機產生的 雖然我其實不是很知道你說的e-value是什麼(逃~) 不過在其他很多方法裡都有把東西跟隨機項比較以檢驗效果的作法 所以我覺得這個e可以比較偏那種東西 可是你現在想要做的聽起來是要在資料庫裡選一些跟使用者相像的DNA呈現給他 (我有誤會嗎?) 所以我猜那個e的功能其實不是你要的 ※ 引述《gloriosa (Gix.Andy)》之銘言: : 我有一個想法 : 請大家鞭小力一點... : 方法是這樣 : 你拿輸入的序列(Ai)對資料庫(A1~A10000)做出10000個r : 也就有10000個r^2 : 由大至小排序r^2並畫圖(大小 x r^2) : 在圖形驟降的地方切割 : 驟降看是要算迴歸線(maybe logistic)然後微分 : 或是鄰近兩點的差值都好 : 當然這樣你還是要訂一個標準 : (迴歸或差值要下降多少才切) : 不過可能 : 比較有感覺吧XD : ※ 引述《showponn (showpon)》之銘言: : : 大家好 我是資工所的學生 只有在大學時學過一點點統計 : : 想請問大家一個最近遇到的問題 如下: : : 假設現在手中有一萬條dna序列 : : 現在要做一個系統 讓使用者可以每次輸入一條序列 去和這一萬條算相似度 : : 每一個相似度 都有一個分數來代表 分數越高就是相似度越高 反之就越低 : : 但是我們的系統 希望呈現給使用者的只有那些相似度高的序列 : : 被判斷成相似度低的序列 就不呈現出來 : : 我的困惑在於 如何從這一萬個分數的分佈裡 算出一個合理的門檻 : : 把分數低於門檻的都視為不相似 (其實方法不需太精確 能大略判斷出合理門檻就行) : : 感覺這需要一些統計的方法 : : 麻煩各位高手可以撥個空 幫我解惑一下 : : haha 小弟感激不盡!!!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.4.234
文章代碼(AID): #171AgAjx (Statistics)
文章代碼(AID): #171AgAjx (Statistics)