[爆卦]發文門檻研究已回收

看板Gossiping作者 (daviden)時間5年前 (2018/10/04 05:14), 編輯推噓161(165459)
留言228則, 169人參與, 5年前最新討論串1/2 (看更多)
※註:有電視或媒體有報導者,請勿使用爆卦! 無重大八卦請勿使用此分類,否則視同濫用爆卦鬧板(文章退回、水桶6個月) 未滿30繁體中文字 水桶3個月 先前板上在討論增加發文門檻 我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的 何不做個資料分析,探討這項政策會帶來的效應。 我針對今年7/1到9/19(政策實施前)的所有文章進行爬取,再從ID公開資訊爬取各篇作者 的登入次數 做相關性的研究。 不囉嗦,先上結論 https://imgur.com/BG1h7AP.jpg
把作者分為登入次數<700,與登入次數>700兩組 結果顯示,登入次數少的作者得到的認同度(推 - 噓)顯著較低。被噓文次數顯著較高。 文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。 另外,增設700登入次數的門檻,會使八卦板流失12.37%發文作者,與12.65%文章。 ------------------------以下詳細數據與分析方法------------------------------- 我用Python scrapy從網頁板PTT爬取文章 用Python telnet爬取作者登入次數。登入次數是動態的,而我在事後爬取,爬取時間是 9/30 所以與那些作者真正寫文章的時間(7~9月)有最多90次的誤差。這是本研究無可避免的限 制。 https://imgur.com/8TtCeqy.jpg
從流程圖可知,扣除網路因素、文章格式因素導致的爬取失敗,我們已捕捉93.2%作者與 84%文章。資料品質應該夠好了。 接著我們將資料匯入SAS 9.4做統計與資料視覺化。 我們計算每個作者的總發文次數、個人平均推、噓、箭頭次數,個人平均認同度、討論度 。 如下圖,每筆資料為一位作者的總結。 (所以你會看到推文數有小數點,因為那是該作者的個人平均) https://imgur.com/nXKYh5j.jpg
之後的分析都將以"作者"為單位,而非"文章"。 首先,我們要注意,這個資料非常"偏"(skew) 以發文次數為例 下圖,上半部是我從常態分布模擬出來的樣本,是一個對稱的分布。平均值與中位數很接 近。 下半部是真實資料的作者發文數。平均和中位數差了近8篇文章。 https://imgur.com/gkxGV3V.jpg
這就說明大部分人發文在2篇左右,可是有少數人發了很多篇,把平均拉高了。 這時候如果還用平均數來總結這個資料,就會忽視真正廣大的族群。 因此之後的分析,我們將把重點放在中位數。 再跟大家介紹怎麼看箱型圖(Boxplot) https://imgur.com/lQZbrEx.jpg
Q1是第一四分位數,也就是有25%的人低於這個數。可以反映出"底層"的情況 Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。 下圖呈現登入次數<700與>700兩組的各項數值差距。 可以注意中位數跟平均有很大的落差。這就是先前說的,這份資料很偏。 https://imgur.com/gb8i7a0.jpg
根據Wilcoxon Two-Sample Test(檢驗中位數差異) 兩組在噓文數有顯著差異 (p < 0.0001),在認同度有顯著差異 (p < 0.0001) 也就是說,登入次數<700那組較常被噓,推文 - 噓文的數值也較低。 接著,我們撇開700門檻這個政策,巨觀來看登入次數與文章品質的關係。 首先皮爾森相關係數(Pearson Correlation Coefficients)告訴我們 登入次數與認同度是顯著(p < 0.0001)正相關的(r = 0.05156)。 也就是說,登入越多次,容易拿到更多推(或更少噓)。 把作者以1000次登入為單位,分成6個組別 1~1000 1000~2000 2000~3000 3000~4000 4000~5000 5000+ 如下圖 https://imgur.com/hG7HY0W.jpg
https://imgur.com/jpPFHNQ.jpg
可以看到認同度隨登入次數上升 討論度在第一組比較高,之後下降,又上升。 我們知道登入次數<700的組別,其噓文數顯著較高,所以這邊的討論度應該是被"噓"出來 的。 整體而言,認同度與討論度都隨登入次數增加而增加。 值得注意的是,隨登入次數提高,認同度的Q1和中位數只有些許上升,而平均和Q3卻大幅 上升,這表示 其實不管登入次數多少,大多數人的文章並沒有什麼差別。是較右邊的組別,有少數人在 拉高整體素質。 所以作為一介平庸的鄉民,我們也不要太歧視菜鳥。畢竟我們的整體文章品質會好,主要 是來自跟我們同組的神人大大們。 補充各門檻的保留作者比例 https://imgur.com/uKXKXOx.jpg
如果把門檻定在1000,板上會剩下76%作者。 定在2000,則會剩下45%作者。 所以訂高門檻確實可以提高文章認同度,可是同時也會流失許多作者。 同場加映 經濟狀況與文章認同度 https://imgur.com/R89ZhRG.jpg
這讓我很訝異,相關性似乎比登入次數更高... 以後說不定也可以用經濟狀況來定門檻(誤~) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.71.70 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1538601241.A.A0D.html

10/04 05:14, 5年前 , 1F
有夠閒給推
10/04 05:14, 1F

10/04 05:15, 5年前 , 2F
樓下看懂惹ㄇ
10/04 05:15, 2F

10/04 05:16, 5年前 , 3F
太長
10/04 05:16, 3F

10/04 05:19, 5年前 , 4F
少惹很多肥宅文就是惹
10/04 05:19, 4F

10/04 05:19, 5年前 , 5F
結論要更清楚一點方便閱讀
10/04 05:19, 5F

10/04 05:20, 5年前 , 6F
懶人包:登入次數越多的作者發文與文章
10/04 05:20, 6F

10/04 05:20, 5年前 , 7F
討論度呈正相關
10/04 05:20, 7F

10/04 05:21, 5年前 , 8F
不要浪費才能
10/04 05:21, 8F

10/04 05:21, 5年前 , 9F
但是數據顯示大部份人並沒有因為登入次
10/04 05:21, 9F

10/04 05:21, 5年前 , 10F
數獲得更高的發文討論度
10/04 05:21, 10F

10/04 05:22, 5年前 , 11F
反而是靠一些優秀作者在撐
10/04 05:22, 11F

10/04 05:22, 5年前 , 12F
結論:看人
10/04 05:22, 12F

10/04 05:22, 5年前 , 13F
推認真(?
10/04 05:22, 13F

10/04 05:22, 5年前 , 14F
另外持有P幣數量也與發文討論度呈正相
10/04 05:22, 14F

10/04 05:22, 5年前 , 15F
關 非常有趣
10/04 05:22, 15F

10/04 05:23, 5年前 , 16F
10/04 05:23, 16F

10/04 05:27, 5年前 , 17F
哈哈哈哈統計給推
10/04 05:27, 17F

10/04 05:28, 5年前 , 18F
看人啦
10/04 05:28, 18F

10/04 05:28, 5年前 , 19F
會不會有生存者偏差(?)
10/04 05:28, 19F

10/04 05:29, 5年前 , 20F
所以看起來 提高門檻會有顯著文章數降低
10/04 05:29, 20F

10/04 05:29, 5年前 , 21F
但文章品質跟推文品質並沒與登入次數無
10/04 05:29, 21F

10/04 05:29, 5年前 , 22F
正關連性?
10/04 05:29, 22F

10/04 05:32, 5年前 , 23F
END
10/04 05:32, 23F

10/04 05:34, 5年前 , 24F
太長 在八卦版不要發超過二頁好嗎
10/04 05:34, 24F

10/04 05:34, 5年前 , 25F
啊就發錢文太多啊 也沒發到家產清空
10/04 05:34, 25F

10/04 05:36, 5年前 , 26F
10/04 05:36, 26F

10/04 05:39, 5年前 , 27F
笑死
10/04 05:39, 27F

10/04 05:40, 5年前 , 28F
所以結論是?
10/04 05:40, 28F

10/04 05:41, 5年前 , 29F
可以順便比較一下IP國籍的推噓比
10/04 05:41, 29F

10/04 05:42, 5年前 , 30F
這真的浪費才能
10/04 05:42, 30F

10/04 05:42, 5年前 , 31F
窮人沒發文的權益 批踢踢搞貧富歧視(叭叭
10/04 05:42, 31F

10/04 05:50, 5年前 , 32F
經濟狀況就經驗值相關
10/04 05:50, 32F

10/04 05:51, 5年前 , 33F
就算靠賭盤來的也是經驗
10/04 05:51, 33F

10/04 05:53, 5年前 , 34F
太強了哈哈
10/04 05:53, 34F

10/04 05:54, 5年前 , 35F
最後應該是因為有錢常發錢認同度高?
10/04 05:54, 35F

10/04 05:57, 5年前 , 36F
發錢文根本都垃圾
10/04 05:57, 36F

10/04 06:12, 5年前 , 37F
你真的,,,就是杜奕瑾所說的自我成長嗎
10/04 06:12, 37F

10/04 06:13, 5年前 , 38F
很有趣,不過應該要排除發錢溫才能得到
10/04 06:13, 38F

10/04 06:13, 5年前 , 39F
更真實的結果
10/04 06:13, 39F
還有 149 則推文
10/04 10:23, 5年前 , 189F
10/04 10:23, 189F

10/04 10:24, 5年前 , 190F
Data comparable
10/04 10:24, 190F

10/04 10:24, 5年前 , 191F
怎麼抓raw data的
10/04 10:24, 191F

10/04 10:26, 5年前 , 192F
沒看完 不過認真給推…
10/04 10:26, 192F

10/04 10:28, 5年前 , 193F
根本是寫論文XDDDDD
10/04 10:28, 193F

10/04 10:29, 5年前 , 194F
發錢文要先抓出來當偏離子 條件去除
10/04 10:29, 194F

10/04 10:30, 5年前 , 195F
浪費才能啊XD
10/04 10:30, 195F

10/04 10:31, 5年前 , 196F
發P幣做推噓的要分出另外看
10/04 10:31, 196F

10/04 10:31, 5年前 , 197F
看完了 推 可是發錢文怎辦XD
10/04 10:31, 197F

10/04 10:48, 5年前 , 198F
加油
10/04 10:48, 198F

10/04 10:55, 5年前 , 199F
1. 應該不是統計系的?有些地方寫的讓
10/04 10:55, 199F

10/04 10:55, 5年前 , 200F
人覺得尷尬
10/04 10:55, 200F

10/04 10:55, 5年前 , 201F
2. 好像沒有列出樣本數?這樣哪知道檢
10/04 10:55, 201F

10/04 10:55, 5年前 , 202F
定的代表性
10/04 10:55, 202F

10/04 11:05, 5年前 , 203F
10/04 11:05, 203F

10/04 11:05, 5年前 , 204F
專業分析給推
10/04 11:05, 204F

10/04 11:09, 5年前 , 205F
推研究 這個還滿有趣的...
10/04 11:09, 205F

10/04 11:10, 5年前 , 206F
跟81樓一樣,很想看發錢文跑出的結果
10/04 11:10, 206F

10/04 11:15, 5年前 , 207F
計量報告嗎
10/04 11:15, 207F

10/04 11:20, 5年前 , 208F
10/04 11:20, 208F

10/04 11:26, 5年前 , 209F
有神人
10/04 11:26, 209F

10/04 11:41, 5年前 , 210F
支持發文門檻訂在小富
10/04 11:41, 210F

10/04 11:53, 5年前 , 211F
原來我上站次數是八卦板前10%啊
10/04 11:53, 211F

10/04 12:05, 5年前 , 212F
發錢文應該考慮進去
10/04 12:05, 212F

10/04 12:32, 5年前 , 213F
厲害哦 快來看
10/04 12:32, 213F

10/04 12:34, 5年前 , 214F
認真推 XD
10/04 12:34, 214F

10/04 12:53, 5年前 , 215F
認真推
10/04 12:53, 215F

10/04 12:57, 5年前 , 216F
不要浪費統計才能
10/04 12:57, 216F

10/04 13:32, 5年前 , 217F
推 經濟狀況好的能PO較多發錢文吧
10/04 13:32, 217F

10/04 13:56, 5年前 , 218F
10/04 13:56, 218F

10/04 14:27, 5年前 , 219F
推認真分析 但是提高門檻也許有更好的
10/04 14:27, 219F

10/04 14:28, 5年前 , 220F
方式 例如文章推文數、發文數等等
10/04 14:28, 220F

10/04 14:28, 5年前 , 221F
純粹拉高登入次數作為門檻 治標不治本
10/04 14:28, 221F

10/04 14:58, 5年前 , 222F
乾 用經濟狀況的話我會被排除拉!
10/04 14:58, 222F

10/04 16:04, 5年前 , 223F
推噓→ 也是文章內容 認真但莫忘共同作者
10/04 16:04, 223F

10/04 17:50, 5年前 , 224F
板上發文門坎的價值在、佔板率,曝光度,
10/04 17:50, 224F

10/04 17:50, 5年前 , 225F
等造成的訊息混亂吧。推虛不是文章影響力
10/04 17:50, 225F

10/04 17:50, 5年前 , 226F
判定標準。
10/04 17:50, 226F

10/04 20:56, 5年前 , 227F
嗯嗯嗯嗯嗯跟我室友想的一樣
10/04 20:56, 227F

10/04 22:02, 5年前 , 228F
推認真文
10/04 22:02, 228F
文章代碼(AID): #1RjJ4PeD (Gossiping)
文章代碼(AID): #1RjJ4PeD (Gossiping)