[問卦] 有沒有正晶O歐陽娜娜X的八卦?(PTT統計)

看板Gossiping作者 (H桑)時間7年前 (2017/02/06 16:01), 7年前編輯推噓31(32112)
留言45則, 34人參與, 最新討論串1/1
好啦這其實是八卦版小統計資料,被騙進來的幫QQ 零、先上統計結果,不用End了。以下是八卦鄉民喜歡 / 討厭的字,依序排名 喜歡(p-value) || 討厭(p-value) --------------------------------------(依照順序排放 || 越上面代表越喜歡) 正晶(2.20E-16) || 娜娜(2.20E-16) 戰報(2.20E-16) || 歐陽(2.20E-16) 家樂福(2.20E-16) || 陳建州(2.20E-16) 好奇(2.20E-16) || 妮妮(2.20E-16) 今日(2.20E-16) || 盒盒(2.20E-16) 轉錄(7.68E-15) || 共識(2.20E-16) stevenj(1.16E-14) || 噓(2.20E-16) 論掛(1.26E-14) || 九二(2.20E-16) 懶人(4.23E-12) || 黑人(2.20E-16) 管碧玲(5.95E-10) || 兩岸(2.20E-16) Dream(6.50E-09) || 王如玄(2.20E-16) 馬雅(1.33E-07) || 朱立倫(2.20E-16) 賭盤(1.70E-06) || 欸(2.79E-16) 遺體(1.79E-06) || 范范(3.05E-16) 救出(1.09E-05) || 范瑋琪(2.83E-15) .........其餘族繁不及備載 壹、前言 ├ 一、發文動機:這篇文章並非論文,省略了許多的 know-how , │ 希望能夠用淺顯的方式解說在 PTT 上我發現了甚麼, │ 取之於 PTT ,還之於 PTT 。 │ 也希望版上鄉民前輩不吝指教。 │ ├ 二、討論目標:利用簡單的統計方法試著分析 PTT 各版上的標題文字, │ 希望能了解使用者們普遍喜歡 / 討厭那些字, │ 並依序排序出來。 │ ├ 三、資料來源:一直到 2016/05/01 為止的八卦版文章, │ 想看流行語風向的這篇文章應該算過時的嘻嘻。 順帶一提,大家平均喜歡不一定代表流行。 │ 請注意有些文章當時有備份到,現在已經消失。 │ 另外根據研究方法不同,可能結果會有誤差。 │ ├ 四、注意事項:這次只統計標題,並未分析內部推噓文、文章內容, │ 因為字詞切割後光是標題產生的向量就高達78.2Gb, │ 還有各種肥滋滋的關聯矩陣, │ 我還因此轉壞了一顆硬碟。OAQ <- 87 └ http://i.imgur.com/eDevtve.png
貳、研究方法(文獻回顧?想看的先承認自己是M) ├ 一、研究流程:直接上圖 http://i.imgur.com/J5BuIuQ.png
喔喔丟~ │ ├ 二、資料蒐集:利用爬蟲程式,抓下所有的日期、作者、標題, │ 並且統計相對應的推噓文。 │ ├ 三、方法(模型)選擇:使用顯著差異檢定 │ (statistical significancetest)。 │ 若某一個單字跟其他單字差異很大, │ 那麼該單字的p-value就會較小 │ (虛無假設為兩者沒啥顯著差異)。 │ ├ 四、資料前處理 │ ├ a.資料正規化 │ │ │ ├ b.去除作者噪音:篩選掉某些一出現就被推爆 / 噓爆 │ │ 的作者,因為很可能是好惡該作者, │ │ 而不是好惡這文章標題。 │ │ │ ├ c.去除日期噪音:篩選掉短時間之內大量跟風的標題。 │ │ │ ├ d.訓練字典:若有些字詞被過度斷詞, │ │ 如:肥宅被切成肥 / 宅, │ │ 那麼被過度切開的字彼此間, │ └ 應該會有高度相關性,合併後丟回字典。 │ ├ 五、檢驗數據是否合乎統計模型,符合常態分佈、中央極限定理, │ 以及獨立性、常態性、變異數同質之類的blah blah blah。 │ │ 六、結果排序:每個字詞在檢定完顯著差異後,會得到一個 p 值, │ p 值越小,差異越大, │ p 很小推較多判定為普遍喜歡這個字詞, │ p 很小噓較多判定為普遍討厭這個字詞, │ er......我就三原色和幾個顏色能挑,沒啥特別意思。 │ 若 p 值相同,則平均較高的優先, └ 還是相同就編碼優先。 叁、數據分析 ├ 一、部分結果(截圖展示,以免被說鍵盤分析...好像是鍵盤分析沒錯) │ ├a. 斷詞結果(初步) http://i.imgur.com/qZVU27n.png
│ │ │ ├b. 作者結果 http://i.imgur.com/GYy8QT3.png
│ │ │ ├c. 初步統計 http://i.imgur.com/fPa0Y0p.png
│ │ │ ├d. 母體分布(對數) http://i.imgur.com/oLjxzn2.png
│ │ │ ├e. 關聯矩陣 http://i.imgur.com/ZPHXHDK.png
│ │ │ ├f. 顯著差異檢定,以「問卦」為例 ------------------------------------------------------------------ │t = 35.272, df = 459960, p-value = 1 │ │alternative hypothesis: true difference in means is less than 0 │ │95 percent confidence interval: │ │ -Inf 0.18317 │ │sample estimates: │ │mean of x mean of y │ │0.6341082 0.4590994 │ ------------------------------------------------------------------ │ ├ 二、檢定結果 │ │ 喜歡(p-value) || 討厭(p-value) │ -------------------------------------- │ 正晶(2.20E-16) || 娜娜(2.20E-16) │ 戰報(2.20E-16) || 歐陽(2.20E-16) │ 家樂福(2.20E-16) || 陳建州(2.20E-16) │ 好奇(2.20E-16) || 妮妮(2.20E-16) │ 今日(2.20E-16) || 盒盒(2.20E-16) │ 轉錄(7.68E-15) || 共識(2.20E-16) │ stevenj(1.16E-14) || 噓(2.20E-16) │ 論掛(1.26E-14) || 九二(2.20E-16) │ 懶人(4.23E-12) || 黑人(2.20E-16) │ 管碧玲(5.95E-10) || 兩岸(2.20E-16) │ Dream(6.50E-09) || 王如玄(2.20E-16) │ 馬雅(1.33E-07) || 朱立倫(2.20E-16) │ 賭盤(1.70E-06) || 欸(2.79E-16) │ 遺體(1.79E-06) || 范范(3.05E-16) │ 救出(1.09E-05) || 范瑋琪(2.83E-15) │ 闌尾(1.89E-05) || 陸生(1.06E-12) │ 獲救(2.23E-05) || 李富城(1.41E-10) │ 成語(1.06E-05) || 雄文(2.30E-09) └ 台灣史(4.12E-05) || 包容(1.07E-08)......族繁不及備載 肆、結論 要去當兵啦,趁現在發個廢文賺 p 幣,希望進去後不要被弄到外翻。 相信版上應該有很多神人能做得比小弟好,還請不吝指教。 在這份統計中仍然有很多缺點能夠改進, 例如演算法的改進、加強資源管理、計算信度效度等, 希望以後能夠深入去分析每篇文章內文和個個推噓文內容。 大guy4醬 週六的時候發了一篇,結果排版死活都弄不好QQ 所以有沒有,大家很正晶的討厭歐陽娜娜的八卦?? 0w0 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.33.175 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1486368113.A.979.html

02/06 16:03, , 1F
02/06 16:03, 1F

02/06 16:03, , 2F
這好酷
02/06 16:03, 2F

02/06 16:03, , 3F
你也太認真的了吧..那你有統計到這半年少了六七千人嗎
02/06 16:03, 3F
去版標看顏色拉

02/06 16:04, , 4F
可愛盒盒怎麼會討厭!!
02/06 16:04, 4F

02/06 16:04, , 5F
原本八卦版常駐的人數有兩萬一..現在只剩一萬四
02/06 16:04, 5F

02/06 16:04, , 6F
幹嘛花時間研究八卦邊緣人的喜好
02/06 16:04, 6F
邊緣人研究邊緣人,很合理

02/06 16:04, , 7F
今日 盒盒 比廢文這種低的應該要過濾掉吧?
02/06 16:04, 7F
還沒能夠寫出廢文分辨系統QQ

02/06 16:04, , 8F
如果肥打成月巴的話 要如何p檢定 (?
02/06 16:04, 8F
看了一下還真的有,但資料才個位數筆,可以直接丟了

02/06 16:04, , 9F
外翻? 肛門外翻嗎
02/06 16:04, 9F

02/06 16:05, , 10F
遺體
02/06 16:05, 10F

02/06 16:05, , 11F
八萬常駐,六萬黨工已經入閣了
02/06 16:05, 11F

02/06 16:06, , 12F
認真給推
02/06 16:06, 12F

02/06 16:07, , 13F
還有葉佩雯一堆也...
02/06 16:07, 13F

02/06 16:07, , 14F
統計學........(逃
02/06 16:07, 14F

02/06 16:09, , 15F
怎麼會有人自己local做? XD
02/06 16:09, 15F
當時系上工作站維修中,想先測幾個資料看看格式,結果最大值多打一個0

02/06 16:09, , 16F
該認真研究統計惹
02/06 16:09, 16F

02/06 16:10, , 17F
不錯 你是技術專才
02/06 16:10, 17F

02/06 16:11, , 18F
推~
02/06 16:11, 18F

02/06 16:12, , 19F
你是不是有點閒XD
02/06 16:12, 19F

02/06 16:15, , 20F
正晶不就幾個覺青在推文自嗨 又不是真的喜歡
02/06 16:15, 20F
所謂統計......(逃)

02/06 16:19, , 21F
為什麼每個p值都那麼小阿
02/06 16:19, 21F
因為本魯矮短肥,所以做出來的資料也很小QQ ※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:21:06 ※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:24:30

02/06 16:28, , 22F
不好意思 小魯程度很淺 所以意思是 假設 正晶標題
02/06 16:28, 22F

02/06 16:28, , 23F
跟推數有顯著差異 但是結果是p很小> 沒有顯著差異
02/06 16:28, 23F

02/06 16:28, , 24F
這樣嗎?
02/06 16:28, 24F

02/06 16:30, , 25F
但是這樣翻成結果 不是應該是「沒辦法證明大家都不
02/06 16:30, 25F

02/06 16:31, , 26F
喜歡正晶標題 這樣嗎?」小魯只在三年前學過一點點
02/06 16:31, 26F

02/06 16:31, , 27F
的R 懇請指教
02/06 16:31, 27F
虛無假設是「沒有顯著差異」,詳情請閱「Type 1 error, type 2 error」

02/06 16:37, , 28F
神!!!!!
02/06 16:37, 28F
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:42:11

02/06 16:43, , 29F
是在認真什麼啦 XDD
02/06 16:43, 29F

02/06 16:43, , 30F
精神給推
02/06 16:43, 30F

02/06 16:46, , 31F
也太閒w
02/06 16:46, 31F

02/06 16:49, , 32F
XDDDDDDDDDDDDDDDD
02/06 16:49, 32F

02/06 16:51, , 33F
當p越小時還會發生 所以這樣才有顯著差異吧?
02/06 16:51, 33F

02/06 16:52, , 34F
可惜這例子 取樣時含廢文就有問題了XDDD
02/06 16:52, 34F
老實說當初有認真想過去訓練廢文判讀 但是會需要先以人工方式審出一些「教材」來學習 而為了教材的公正客觀性需要複數人腦來做交叉式分析 因為本魯是魯矮醜窮肥宅邊緣人,朋友只有電腦 所以有點小困難 再者是只看前幾名的結果還挺讓人滿意的(雖然還沒計算信度效度) 差異很明顯所以就先po上來了m(_ _)m

02/06 16:59, , 35F
專業!
02/06 16:59, 35F
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 17:08:11 ※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 17:09:41

02/06 17:15, , 36F
這我的夢靨
02/06 17:15, 36F

02/06 17:22, , 37F
推個
02/06 17:22, 37F

02/06 17:43, , 38F
好認真~~
02/06 17:43, 38F

02/06 17:44, , 39F
統計專業給推
02/06 17:44, 39F

02/06 19:18, , 40F
其實黨工如果去分析這些資料 可以很輕易地帶風向
02/06 19:18, 40F

02/06 19:33, , 41F
統計大神給推
02/06 19:33, 41F

02/06 20:28, , 42F
你好認真
02/06 20:28, 42F

02/06 21:09, , 43F
推阿 真是有意思
02/06 21:09, 43F

02/06 21:44, , 44F
推個 好猛哦
02/06 21:44, 44F

02/06 22:00, , 45F
02/06 22:00, 45F
文章代碼(AID): #1Oc2rnbv (Gossiping)