[測試] test消失

看板Test作者時間7年前 (2018/10/04 05:02), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串647/7254 (看更多)
先前板上在討論增加發文門檻 我就想,PTT是個公開的平台,所有發文都有紀錄,ID資訊也是公開的 何不做個資料分析,探討這項政策會帶來的效應。 我針對今年7/1到9/19(政策實施前)的所有文章進行爬取,再從ID公開資訊爬取各篇作者 的登入次數 做相關性的研究。 不囉嗦,先上結論 https://imgur.com/BG1h7AP
把作者分為登入次數<700,與登入次數>700兩組 結果顯示,登入次數少的作者得到的認同度(推 - 噓)顯著較低。被噓文次數顯著較高。 文章討論度(推 + 噓 + 箭頭)則沒有顯著差異。 另外,增設700登入次數的門檻,會使八卦板流失12.37%發文作者,與12.65%文章。 ------------------------以下詳細數據與分析方法------------------------------- 我用Python scrapy從網頁板PTT爬取文章 用Python telnet爬取作者登入次數。登入次數是動態的,而我在事後爬取,爬取時間是 9/30 所以與那些作者真正寫文章的時間(7~9月)有最多90次的誤差。這是本研究無可避免的限 制。 https://imgur.com/8TtCeqy
從流程圖可知,扣除網路因素、文章格式因素導致的爬取失敗,我們已捕捉93.2%作者與 84%文章。資料品質應該夠好了。 接著我們將資料匯入SAS 9.4做統計與資料視覺化。 我們計算每個作者的總發文次數、個人平均推、噓、箭頭次數,個人平均認同度、討論度 。 如下圖,每筆資料為一位作者的總結。 (所以你會看到推文數有小數點,因為那是該作者的個人平均) https://imgur.com/nXKYh5j
之後的分析都將以"作者"為單位,而非"文章"。 首先,我們要注意,這個資料非常"偏"(skew) 以發文次數為例 下圖,上半部是我從常態分布模擬出來的樣本,是一個對稱的分布。平均值與中位數很接 近。 下半部是真實資料的作者發文數。平均和中位數差了近8篇文章。 https://imgur.com/gkxGV3V
這就說明大部分人發文在2篇左右,可是有少數人發了很多篇,把平均拉高了。 這時候如果還用平均數來總結這個資料,就會忽視真正廣大的族群。 因此之後的分析,我們將把重點放在中位數。 再跟大家介紹怎麼看箱型圖(Boxplot) https://imgur.com/lQZbrEx
Q1是第一四分位數,也就是有25%的人低於這個數。可以反映出"底層"的情況 Q3是第三四分位數,也就是有75%的人低於這個數。用於反映"中高層"的情況。 下圖呈現登入次數<700與>700兩組的各項數值差距。 可以注意中位數跟平均有很大的落差。這就是先前說的,這份資料很偏。 https://imgur.com/gb8i7a0
根據Wilcoxon Two-Sample Test(檢驗中位數差異) 兩組在噓文數有顯著差異 (p < 0.0001),在認同度有顯著差異 (p < 0.0001) 也就是說,登入次數<700那組較常被噓,推文 - 噓文的數值也較低。 接著,我們撇開700門檻這個政策,巨觀來看登入次數與文章品質的關係。 首先皮爾森相關係數(Pearson Correlation Coefficients)告訴我們 登入次數與認同度是顯著(p < 0.0001)正相關的(r = 0.05156)。 也就是說,登入越多次,容易拿到更多推(或更少噓)。 把作者以1000次登入為單位,分成6個組別 1~1000 1000~2000 2000~3000 3000~4000 4000~5000 5000+ 如下圖 https://imgur.com/hG7HY0W
https://imgur.com/jpPFHNQ
可以看到認同度隨登入次數上升 討論度在第一組比較高,之後下降,又上升。 我們知道登入次數<700的組別,其噓文數顯著較高,所以這邊的討論度應該是被"噓"出來 的。 整體而言,認同度與討論度都隨登入次數增加而增加。 值得注意的是,隨登入次數提高,認同度的Q1和中位數只有些許上升,而平均和Q3卻大幅 上升,這表示 其實不管登入次數多少,大多數人的文章並沒有什麼差別。是較右邊的組別,有少數人在 拉高整體素質。 所以作為一介平庸的鄉民,我們也不要太歧視菜鳥。畢竟我們的整體文章品質會好,主要 是來自跟我們同組的神人大大們。 補充各門檻的保留作者比例 https://imgur.com/uKXKXOx
如果把門檻定在1000,板上會剩下76%作者。 定在2000,則會剩下45%作者。 所以訂高門檻確實可以提高文章認同度,可是同時也會流失許多作者。 同場加映 經濟狀況與文章認同度 https://imgur.com/R89ZhRG
這讓我很訝異,相關性似乎比登入次數更高... 以後說不定也可以用經濟狀況來定門檻(誤~) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 129.109.71.70 ※ 文章網址: https://www.ptt.cc/bbs/Test/M.1538600532.A.844.html
文章代碼(AID): #1RjIvKX4 (Test)
討論串 (同標題文章)
完整討論串 (本文為第 647 之 7254 篇):
測試
測試
測試
測試
測試
測試
2
3
測試
測試
文章代碼(AID): #1RjIvKX4 (Test)