Re: [問題] 資料分析

看板Statistics作者 (焦了六年變脆了)時間16年前 (2009/10/27 20:06), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串5/8 (看更多)
※ 引述《tigerrex (shun)》之銘言: : ※ 引述《west1996 (焦了六年變脆了)》之銘言: : : 這裡的資料是指母體所有的資料還是隨機抽樣的一萬五千筆? : 這邊的資料為隨機抽樣一萬五千筆 : : 這裡的相同是指完完全全的相同還是指在(x,y,z)附近的點? : 這邊指的是完完全全相同 隨機抽出來的一萬五千筆資料完完全全的只有兩個值,那故事就結束拉XD : : 如果前一個問題的答案是在(x,y,z)附近 : : 那這裡要問 些微是多些微? : 舉例來說:這邊裡面的(x,y,z)的單位是角度 : (x,y,z)=(80,70,60);(x1,y1,z1)=(80.01,69.99,59.98) : 大概像是這樣的些微差距(0.01左右) : : 明顯的可以區分或是會有混在一起的情況? : 上例看起來應該算是無法明顯區分吧?因為不太懂標準在哪裡 : : 你的問題給的訊息不夠明確 所以很難回答 : : 如果兩群可以明顯區分 : : 1.資料完完全全落在那兩個點上 : : 那就亂抽抽到兩個不一樣的就解決了 : 因為(x1,y1,z1)比較(x,y,z)是只要有些微差距就算是了,所以我想亂抽抽到可能無法 : 解決吧@@" 恩...我可能表達的不夠清楚吧 我的疑問是 從你的敘述中(不管是第一篇或是這一篇) 沒辦法給一個很完整的picture說明你的資料長什麼樣子 然後你現在碰到的困難在哪裡 我本來想問的是說 你的母體資料是屬於哪一種?只有兩個值或是很多值 你的樣本資料又是屬於哪一種?只有兩個值或是很多值 舉例來說 1.一家飲料公司推出開瓶集字的遊戲,要湊滿兩個字。這樣表示母體資料就是兩個值, 樣本資料也是兩個值(假設沒有銘謝惠顧之類的),而且樣本資料不會有搞錯的情況 (看到是哪個字他就肯定是哪個字),那這時候如果問是哪兩個字,每個字的比例是 多少,答案就是一直去買買到有兩個不一樣的字之後就知道有哪兩個字了;買了一定 的瓶數之後,就可以用樣本比例去推估母體比例了。 2.某家醫院有一種測量H1N1的快篩機器,現在想要知道社區內到底得病的人有多少。我 們隨機抽了一堆人作快篩。這種情況母體只有兩個值(得病、不得病),樣本也只有 兩個值,不過樣本資料可能是假的(機器判斷錯誤,相當於測量誤差),這個時候可 以找一群control去估計一下這台機器的false positive rate和false negative rate 再根據這個資料去某種程度上的修正原始看到的快篩資料,再去估算母體比例。 3.一家工廠推出兩種不同尺寸的木材,但是我們不知道是哪兩種尺寸,個別生產比例又 是多少,只知道這兩個尺寸有明顯的差異(這裡的明顯指的是現有的測量工具可以輕 易分出差別)。我們可以去隨機購買很多的木材,然後一一去量測他的長度。這種情 況是母體只有兩個值(假設忽略工廠生產時的誤差),樣本有很多不一樣的值,但是 這些值很靠近兩種尺寸中的某一種,而且我們不會把A尺寸的木材當成是B尺寸的木材 ,這樣只要買足夠多,就可以分別用兩群木材個別的樣本平均去估計這兩種尺寸,然 後用整體的比例去估計工廠生產出來的比例。 4.某一種化合物在理論的範圍裡已經被證明只可能存在兩種分子結構,這兩種結構只差 在三度空間中的分子夾角不同,但是我們不知道確實的夾角是多少,只知道夾角的差 異是接近或是小於現今科學上可以量測出來的最小極限。現在我們對不同的化合物樣 本去量測了一堆的值出來,這時候母體只有兩種未知的值,樣本可能有一大堆不一樣 的值,但是我們無法知道哪一個值應該是屬於母體中的哪一個角度,這時候可能就需 要用一些不一樣的分析工具去想辦法把我們看到的樣本區分成兩個group,再去對母 體的角度和比例作估計,而應該用哪一種分析工具又要看你的資料到底是怎麼樣的結 構。 照你的敘述我會猜測應該是比較接近4的情況,不過我也不敢肯定就是了,所以才會希 望你表達清楚一點。 p.s.以上的例子有些可能過份的trivial,不過這是一個公開版,所以無法假設某個po文 者具備什麼樣的能力的統計知識(搞不好某個po文的只是高中生想作科展XD),因 此只能根據文章中提出的資訊假設所有可能發生的事情。硬擠出這麼多例子只是想 要表達說"在關於data和問題的背景資料不夠完全之下,很難給予一個適當的建議" 因為適合的工具可能是天壤之別........... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.40.59
文章代碼(AID): #1Avk9KU0 (Statistics)
討論串 (同標題文章)
文章代碼(AID): #1Avk9KU0 (Statistics)