Fw: [問題] 分組資料的全距有好幾種算法?

看板Statistics作者 (a0099090)時間10年前 (2015/10/07 22:49), 10年前編輯推噓0(0035)
留言35則, 1人參與, 最新討論串1/1
※ [本文轉錄自 Math 看板 #1M5J123l ] 作者: a0099090 (a0099090) 看板: Math 標題: [其他] 分組資料的全距有好幾種算法? 時間: Wed Oct 7 22:46:23 2015 例如20~29歲.......60~69歲 2人 .........5人 在某些地方看到全距的算法有下面幾種 1.用最大組的上限-最小組的下限=>69-20=49 2.用最大組的組中點減最小組的組中點=>64.5-24.5=40 3.組距=最大組的組上界-最小組的組下界 而組下界=組下限-1/2(最小測量單位) 組上界=組上限+1/2(最小測量單位) 所以變成69.5-19.5=50 一個全距有這麼多種算法!?有沒有人能幫忙解釋一下阿 囧 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.20.39 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1444229186.A.0EF.html ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: a0099090 (114.26.20.39), 10/07/2015 22:49:53

10/08 05:29, , 1F
才3種而已, 不多. 如果你學到中位數, 那才是無語...
10/08 05:29, 1F

10/08 05:30, , 2F
第3種是最保守的, 也就是說算出來的全距最大. 不過,
10/08 05:30, 2F

10/08 05:32, , 3F
"最小測量單位" 似乎改成 "最小記錄單位", 也就是資料記錄
10/08 05:32, 3F

10/08 05:33, , 4F
之單位較適當?
10/08 05:33, 4F
恩...我大概懂你的意思,不過我也不敢確定@@(統計菜鳥) 最小測量單位是從書上抄來的

10/08 05:35, , 5F
第1種與第3種接近, 但它把資料記錄都當成精確值而非近似值.
10/08 05:35, 5F

10/08 05:36, , 6F
以上2種都是基於一個假設: 在每組中, 原資料都是分散於整組
10/08 05:36, 6F

10/08 05:37, , 7F
之範圍. 而原問之第2種, 則是另一種假設: 各組資料集中於組
10/08 05:37, 7F

10/08 05:40, , 8F
準差之計算, 也是採用這樣的假設.
10/08 05:40, 8F
感謝,大概知道為什麼會有第2種的方式了(我原本以為應該是第1種 by直覺) 不過第3種還是不太懂,在未分組資料=>分組資料,決定組距,組數的時候 不是應該已經包含所有的資料在裡面了嗎? 譬如說 22 33 44 55 66 77 88 用2^k法來決定組數=3 組距為(88-22)/3=22 為求方便,組距一般採整數原則(最好為2、5、10的倍數)(須包含所有數據)=>組距為25 這樣分組後就會變成20~45、45~70、70~95 這樣不是表示,分組資料的原始資料,最大不會超過95,最小不會低於20嗎? 為什麼還需要+-1/2最小記錄單位呢? ※ 編輯: a0099090 (114.26.30.155), 10/08/2015 09:16:08

10/08 20:33, , 9F
如果分組是寫成 0-45, 45-70 之類的, 上下組限就等於上下組
10/08 20:33, 9F

10/08 20:35, , 10F
界. 不過這好像是很老的中文教本才有這樣的寫法?
10/08 20:35, 10F

10/08 20:38, , 11F
近40年來的原文(及中譯)教本不是這樣做的, 以你舉的資料,
10/08 20:38, 11F

10/08 20:39, , 12F
可能分組會是 20-44, 45-69, ... 或 21-45, 46-70, ...
10/08 20:39, 12F

10/08 20:40, , 13F
虻1位1疆種, 第一組下組限是 20, 上組限是44, 而下組界就是
10/08 20:40, 13F

10/08 20:40, , 14F
19.5, 上組界是44.5。
10/08 20:40, 14F

10/08 20:41, , 15F
以前一種分, 第一組下組限是 20, 上組限是44, 而下組界就是
10/08 20:41, 15F

10/08 20:41, , 16F
19.5, 上組界是44.5。
10/08 20:41, 16F
我這邊書寫的是,要看是否為連續資料,若為連續則"20<=第一組<45","45<=第二組<70" 若為間斷(有些翻譯為離散)資料則分組如y大你寫的那樣,20-44,45-69 我的疑問在,原始資料一定在分組裡面吧?(不可能有樣本是19,卻被歸在20-45) 全距的意思不是最大數-最小數嗎? 因已分組,不曉得20-45裡的樣本有沒有20,70-95裡的樣本有沒有95 以最保守來看95-20=75 那最大組的組上界-最小組的組下界相減95.5-19.5=76 是有什麼含意在裡面呢@@? ※ 編輯: a0099090 (114.26.30.155), 10/08/2015 21:23:01

10/09 02:00, , 17F
就記錄的資料而言, 表面疥是離散的. 以年齡為例, 記錄都是
10/09 02:00, 17F

10/09 02:01, , 18F
整數歲, 但實際年齡當然不是只有整數歲.
10/09 02:01, 18F

10/09 02:03, , 19F
再以體重為例, 記錄可能都是整數公斤, 當然實際上體重是連
10/09 02:03, 19F

10/09 02:03, , 20F
續資料. 這也是為什麼我用 "最小記錄單位" 這名詞.
10/09 02:03, 20F

10/09 02:05, , 21F
另者, 若資料中有 19, 最低值一組當然耍包含 19 在內, 而
10/09 02:05, 21F

10/09 02:05, , 22F
不可能是 20-44 或 21-45.
10/09 02:05, 22F

10/09 02:08, , 23F
至於分組應該是 20-45, 45-70 之類的, 或是 20-44, 45-69
10/09 02:08, 23F

10/09 02:09, , 24F
之類的, 個人是有些不同看泠. 只是目前看到的美國教本大概
10/09 02:09, 24F

10/09 02:10, , 25F
都是後一種...
10/09 02:10, 25F

10/09 02:12, , 26F
以 "年齡" 而言, 台灣以前的慣例是用 "足歲". 因此, 實際上
10/09 02:12, 26F

10/09 02:13, , 27F
20-29歲指的是 "滿20歲, 不滿30歲", 所以真正的組界應是
10/09 02:13, 27F

10/09 02:14, , 28F
20 與 40. 但美國人慣例用 "最近歲", 所以20歲代表的是19歲
10/09 02:14, 28F

10/09 02:15, , 29F
半到20歲半, 所以 20-29歲組就是19.5歲至29.5歲.
10/09 02:15, 29F

10/09 02:16, , 30F
修正: 以足歲而言, 20-29歲組的真實組界是 20 與 30.
10/09 02:16, 30F

10/09 02:18, , 31F
再說體重的例子: 如果記錄是到小數點1位, 分組取整數, 古老
10/09 02:18, 31F

10/09 02:19, , 32F
的分組寫法有, 例如 30-35,35-40..., 30-34.9, 35-39.9...
10/09 02:19, 32F

10/09 02:20, , 33F
在解釋上都認為是一樣的. 而美式教本的方法, 是把記錄先化
10/09 02:20, 33F

10/09 02:22, , 34F
簡成整數(採四捨五入), 再以新記錄資料分組為 30-34,35-39
10/09 02:22, 34F

10/09 02:23, , 35F
之類的. 此時 30-34 代表的是 29.5-34.5。
10/09 02:23, 35F
非常感謝,我終於理解為什麼會有+-1/2這種做法了 ※ 編輯: a0099090 (114.26.30.155), 10/10/2015 16:01:08
文章代碼(AID): #1M5J4Jww (Statistics)