零、先上結果,不用End了
喜歡(p-value) || 討厭(p-value)
--------------------------------------(依照順序排放
|| 越上面代表越喜歡)
正晶(2.20E-16) || 娜娜(2.20E-16)
戰報(2.20E-16) || 歐陽(2.20E-16)
家樂福(2.20E-16) || 陳建州(2.20E-16)
好奇(2.20E-16) || 妮妮(2.20E-16)
今日(2.20E-16) || 盒盒(2.20E-16)
轉錄(7.68E-15) || 共識(2.20E-16)
stevenj(1.16E-14) || 噓(2.20E-16)
論掛(1.26E-14) || 九二(2.20E-16)
懶人(4.23E-12) || 黑人(2.20E-16)
管碧玲(5.95E-10) || 兩岸(2.20E-16)
Dream(6.50E-09) || 王如玄(2.20E-16)
馬雅(1.33E-07) || 朱立倫(2.20E-16)
賭盤(1.70E-06) || 欸(2.79E-16)
遺體(1.79E-06) || 范范(3.05E-16)
救出(1.09E-05) || 范瑋琪(2.83E-15)
.........其餘族繁不及備載
壹、前言
├ 一、發文動機:這篇文章並非論文,省略了許多的 know-how ,
│ 希望能夠用淺顯的方式解說在 PTT 上我發現了甚麼,
│ 取之於 PTT ,還之於 PTT 。
│ 也希望版上鄉民前輩不吝指教。
│
├ 二、討論目標:利用簡單的統計方法試著分析 PTT 各版上的標題文字,
│ 希望能了解使用者們普遍喜歡 / 討厭那些字,
│ 並依序排序出來。
│
├ 三、資料來源:一直到 2016/05/01 為止的八卦版文章,
│ 想看流行語風向的這篇文章應該算過時的嘻嘻。
│ 順帶一提,大家平均喜歡不一定代表流行。
│ 請注意有些文章當時有備份到,現在已經消失。
│ 另外根據研究方法不同,可能結果會有誤差。
│
├ 四、注意事項:這次只統計標題,並未分析內部推噓文、文章內容,
│ 因為字詞切割後光是標題產生的向量就高達78.2Gb,
│ 還有各種肥滋滋的關聯矩陣,
│ 我還因此轉壞了一顆硬碟。OAQ <- 87
└ http://i.imgur.com/eDevtve.png
喔喔丟~
│
├ 二、資料蒐集:利用爬蟲程式,抓下所有的日期、作者、標題,
│ 並且統計相對應的推噓文。
│
├ 三、方法(模型)選擇:使用顯著差異檢定
│ (statistical significancetest)。
│ 若某一個單字跟其他單字差異很大,
│ 那麼該單字的p-value就會較小
│ (虛無假設為兩者沒啥顯著差異)。
│
├ 四、資料前處理
│ ├ a.資料正規化
│ │
│ ├ b.去除作者噪音:篩選掉某些一出現就被推爆 / 噓爆
│ │ 的作者,因為很可能是好惡該作者,
│ │ 而不是好惡這文章標題。
│ │
│ ├ c.去除日期噪音:篩選掉短時間之內大量跟風的標題。
│ │
│ ├ d.訓練字典:若有些字詞被過度斷詞,
│ │ 如:肥宅被切成肥 / 宅,
│ │ 那麼被過度切開的字彼此間,
│ └ 應該會有高度相關性,合併後丟回字典。
│
├ 五、檢驗數據是否合乎統計模型,符合常態分佈、中央極限定理,
│ 以及獨立性、常態性、變異數同質之類的blah blah blah。
│
│ 六、結果排序:每個字詞在檢定完顯著差異後,會得到一個 p 值,
│ p 值越小,差異越大,
│ 若 p 很小且推較多判定為普遍喜歡這個字詞,
│ 若 p 很小且噓較多判定為普遍討厭這個字詞,
│ er......我就三原色和幾個顏色能挑,沒啥特別意思。
│ 若 p 值相同,則平均較高的優先,
└ 還是相同就編碼優先。
有沒有人能建議一下這邊要放啥
叁、數據分析
├ 一、部分結果(截圖展示,以免被說鍵盤分析...好像是鍵盤分析沒錯)
│ ├a. 斷詞結果(初步) http://i.imgur.com/qZVU27n.png
│ │
│ ├c. 初步統計 http://i.imgur.com/fPa0Y0p.png
│ │
│ ├d. 母體分布(對數) http://i.imgur.com/oLjxzn2.png
│ │
│ ├f. 顯著差異檢定,以「問卦」為例
------------------------------------------------------------------
│t = 35.272, df = 459960, p-value = 1 │
│alternative hypothesis: true difference in means is less than 0 │
│95 percent confidence interval: │
│ -Inf 0.18317 │
│sample estimates: │
│mean of x mean of y │
│0.6341082 0.4590994 │
------------------------------------------------------------------
│
├ 二、檢定結果
│
│ 喜歡(p-value) || 討厭(p-value)
│ --------------------------------------
│ 正晶(2.20E-16) || 娜娜(2.20E-16)
│ 戰報(2.20E-16) || 歐陽(2.20E-16)
│ 家樂福(2.20E-16) || 陳建州(2.20E-16)
│ 好奇(2.20E-16) || 妮妮(2.20E-16)
│ 今日(2.20E-16) || 盒盒(2.20E-16)
│ 轉錄(7.68E-15) || 共識(2.20E-16)
│ stevenj(1.16E-14) || 噓(2.20E-16)
│ 論掛(1.26E-14) || 九二(2.20E-16)
│ 懶人(4.23E-12) || 黑人(2.20E-16)
│ 管碧玲(5.95E-10) || 兩岸(2.20E-16)
│ Dream(6.50E-09) || 王如玄(2.20E-16)
│ 馬雅(1.33E-07) || 朱立倫(2.20E-16)
│ 賭盤(1.70E-06) || 欸(2.79E-16)
│ 遺體(1.79E-06) || 范范(3.05E-16)
│ 救出(1.09E-05) || 范瑋琪(2.83E-15)
│ 闌尾(1.89E-05) || 陸生(1.06E-12)
│ 獲救(2.23E-05) || 李富城(1.41E-10)
│ 成語(1.06E-05) || 雄文(2.30E-09)
└ 台灣史(4.12E-05) || 包容(1.07E-08)......族繁不及備載
肆、結論
要去當兵啦,趁現在發個廢文賺 p 幣,希望進去後不要被弄到外翻。
相信版上應該有很多神人能做得比小弟好,還請不吝指教。
在這份統計中仍然有很多缺點能夠改進,
例如演算法的改進、加強資源管理、計算信度效度等,
希望以後能夠深入去分析每篇文章內文和個個推噓文內容。
大guy4醬
有沒有這些東西,有人想看的八卦? 0w0
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.33.175
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1486222018.A.820.html
推
02/04 23:27, , 1F
02/04 23:27, 1F