[問卦] 八卦版的標題喜好字詞分析--的八卦消失

看板Gossiping作者時間7年前 (2017/02/04 23:26), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/1
零、先上結果,不用End了 喜歡(p-value) || 討厭(p-value) --------------------------------------(依照順序排放 || 越上面代表越喜歡) 正晶(2.20E-16) || 娜娜(2.20E-16) 戰報(2.20E-16) || 歐陽(2.20E-16) 家樂福(2.20E-16) || 陳建州(2.20E-16) 好奇(2.20E-16) || 妮妮(2.20E-16) 今日(2.20E-16) || 盒盒(2.20E-16) 轉錄(7.68E-15) || 共識(2.20E-16) stevenj(1.16E-14) || 噓(2.20E-16) 論掛(1.26E-14) || 九二(2.20E-16) 懶人(4.23E-12) || 黑人(2.20E-16) 管碧玲(5.95E-10) || 兩岸(2.20E-16) Dream(6.50E-09) || 王如玄(2.20E-16) 馬雅(1.33E-07) || 朱立倫(2.20E-16) 賭盤(1.70E-06) || 欸(2.79E-16) 遺體(1.79E-06) || 范范(3.05E-16) 救出(1.09E-05) || 范瑋琪(2.83E-15) .........其餘族繁不及備載 壹、前言 ├ 一、發文動機:這篇文章並非論文,省略了許多的 know-how , │ 希望能夠用淺顯的方式解說在 PTT 上我發現了甚麼, │ 取之於 PTT ,還之於 PTT 。 │ 也希望版上鄉民前輩不吝指教。 │ ├ 二、討論目標:利用簡單的統計方法試著分析 PTT 各版上的標題文字, │ 希望能了解使用者們普遍喜歡 / 討厭那些字, │ 並依序排序出來。 │ ├ 三、資料來源:一直到 2016/05/01 為止的八卦版文章, │ 想看流行語風向的這篇文章應該算過時的嘻嘻。 順帶一提,大家平均喜歡不一定代表流行。 │ 請注意有些文章當時有備份到,現在已經消失。 │ 另外根據研究方法不同,可能結果會有誤差。 │ ├ 四、注意事項:這次只統計標題,並未分析內部推噓文、文章內容, │ 因為字詞切割後光是標題產生的向量就高達78.2Gb, │ 還有各種肥滋滋的關聯矩陣, │ 我還因此轉壞了一顆硬碟。OAQ <- 87 └ http://i.imgur.com/eDevtve.png
貳、研究方法(文獻回顧?想看的先承認自己是M) ├ 一、研究流程:直接上圖 http://i.imgur.com/J5BuIuQ.png
喔喔丟~ │ ├ 二、資料蒐集:利用爬蟲程式,抓下所有的日期、作者、標題, │ 並且統計相對應的推噓文。 │ ├ 三、方法(模型)選擇:使用顯著差異檢定 │ (statistical significancetest)。 │ 若某一個單字跟其他單字差異很大, │ 那麼該單字的p-value就會較小 │ (虛無假設為兩者沒啥顯著差異)。 │ ├ 四、資料前處理 │ ├ a.資料正規化 │ │ │ ├ b.去除作者噪音:篩選掉某些一出現就被推爆 / 噓爆 │ │ 的作者,因為很可能是好惡該作者, │ │ 而不是好惡這文章標題。 │ │ │ ├ c.去除日期噪音:篩選掉短時間之內大量跟風的標題。 │ │ │ ├ d.訓練字典:若有些字詞被過度斷詞, │ │ 如:肥宅被切成肥 / 宅, │ │ 那麼被過度切開的字彼此間, │ └ 應該會有高度相關性,合併後丟回字典。 │ ├ 五、檢驗數據是否合乎統計模型,符合常態分佈、中央極限定理, │ 以及獨立性、常態性、變異數同質之類的blah blah blah。 │ │ 六、結果排序:每個字詞在檢定完顯著差異後,會得到一個 p 值, │ p 值越小,差異越大, │ p 很小推較多判定為普遍喜歡這個字詞, │ p 很小噓較多判定為普遍討厭這個字詞, │ er......我就三原色和幾個顏色能挑,沒啥特別意思。 │ 若 p 值相同,則平均較高的優先, └ 還是相同就編碼優先。 有沒有人能建議一下這邊要放啥 叁、數據分析 ├ 一、部分結果(截圖展示,以免被說鍵盤分析...好像是鍵盤分析沒錯) │ ├a. 斷詞結果(初步) http://i.imgur.com/qZVU27n.png
│ │ │ ├b. 作者結果 http://i.imgur.com/GYy8QT3.png
│ │ │ ├c. 初步統計 http://i.imgur.com/fPa0Y0p.png
│ │ │ ├d. 母體分布(對數) http://i.imgur.com/oLjxzn2.png
│ │ │ ├e. 關聯矩陣 http://i.imgur.com/ZPHXHDK.png
│ │ │ ├f. 顯著差異檢定,以「問卦」為例 ------------------------------------------------------------------ │t = 35.272, df = 459960, p-value = 1 │ │alternative hypothesis: true difference in means is less than 0 │ │95 percent confidence interval: │ │ -Inf 0.18317 │ │sample estimates: │ │mean of x mean of y │ │0.6341082 0.4590994 │ ------------------------------------------------------------------ │ ├ 二、檢定結果 │ │ 喜歡(p-value) || 討厭(p-value) │ -------------------------------------- │ 正晶(2.20E-16) || 娜娜(2.20E-16) │ 戰報(2.20E-16) || 歐陽(2.20E-16) │ 家樂福(2.20E-16) || 陳建州(2.20E-16) │ 好奇(2.20E-16) || 妮妮(2.20E-16) │ 今日(2.20E-16) || 盒盒(2.20E-16) │ 轉錄(7.68E-15) || 共識(2.20E-16) │ stevenj(1.16E-14) || 噓(2.20E-16) │ 論掛(1.26E-14) || 九二(2.20E-16) │ 懶人(4.23E-12) || 黑人(2.20E-16) │ 管碧玲(5.95E-10) || 兩岸(2.20E-16) │ Dream(6.50E-09) || 王如玄(2.20E-16) │ 馬雅(1.33E-07) || 朱立倫(2.20E-16) │ 賭盤(1.70E-06) || 欸(2.79E-16) │ 遺體(1.79E-06) || 范范(3.05E-16) │ 救出(1.09E-05) || 范瑋琪(2.83E-15) │ 闌尾(1.89E-05) || 陸生(1.06E-12) │ 獲救(2.23E-05) || 李富城(1.41E-10) │ 成語(1.06E-05) || 雄文(2.30E-09) └ 台灣史(4.12E-05) || 包容(1.07E-08)......族繁不及備載 肆、結論 要去當兵啦,趁現在發個廢文賺 p 幣,希望進去後不要被弄到外翻。 相信版上應該有很多神人能做得比小弟好,還請不吝指教。 在這份統計中仍然有很多缺點能夠改進, 例如演算法的改進、加強資源管理、計算信度效度等, 希望以後能夠深入去分析每篇文章內文和個個推噓文內容。 大guy4醬 有沒有這些東西,有人想看的八卦? 0w0 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.33.175 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1486222018.A.820.html

02/04 23:27, , 1F
先推再看
02/04 23:27, 1F
文章代碼(AID): #1ObVB2WW (Gossiping)