Re: [統計] 十月份西洽統計文已回收

看板C_Chat作者 (Chiquitia)時間9年前 (2016/11/01 13:47), 編輯推噓16(16012)
留言28則, 20人參與, 最新討論串3/11 (看更多)
: 先定義什麼是廢文, 程式才可以遵循定義去判斷 定義廢文需要人工智慧,這太難了, 不過或許可以用一些間接指標。 間接指標並不等於廢文,但理論上應該有較大的機率可以篩選出發廢文傾向者。 我個人想到的一個指標:平均每篇文章的字數。 定義上,就扣除超連結及符號標點,算剩下的中英文字元數和,再除以發文數。 如果怕取平均數會誤導,或許可取中位數? 當然要在此重申,文字少並不等於廢文,只是要讓程式做簡單條件判斷, 一時之間也想不到什麼更簡單的指標了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.118.139 ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1477979233.A.9DE.html

11/01 13:47, , 1F
有些貼圖的文字也很少啊
11/01 13:47, 1F

11/01 13:48, , 2F
你知道有些人只貼連結一張圖就當一篇文嗎
11/01 13:48, 2F

11/01 13:48, , 3F
貼圖文對某些人來說也是廢文阿
11/01 13:48, 3F

11/01 13:48, , 4F
你知道西恰一行文是傳統嗎
11/01 13:48, 4F

11/01 13:49, , 5F
比如新番心得點進去是30張圖
11/01 13:49, 5F

11/01 13:49, , 6F
全西洽文餵下去看能不能訓練出幾個參數 我看很難...
11/01 13:49, 6F

11/01 13:49, , 7F
其實那句我只是要他知難而退啦XD 根本沒辦法定義好嗎..
11/01 13:49, 7F

11/01 13:49, , 8F
推文中出現"廢"字的次數
11/01 13:49, 8F

11/01 13:49, , 9F
情報文字有些也很少
11/01 13:49, 9F

11/01 13:50, , 10F
太麻煩了,直接建一個廢文ID table 大家覺得ㄋ
11/01 13:50, 10F

11/01 13:50, , 11F
簡單阿,每篇文都做公投決定(誤
11/01 13:50, 11F

11/01 13:50, , 12F
ID也是用人工取的啊,一定會參雜情感厭惡因素...
11/01 13:50, 12F

11/01 13:50, , 13F
直接deep learning用推文做output指標下去train,有八卦的
11/01 13:50, 13F

11/01 13:51, , 14F
哪天我靠這個吃飯的時候也許會去做吧XDDDD
11/01 13:51, 14F

11/01 13:51, , 15F
data,資料應該能超過十萬筆
11/01 13:51, 15F

11/01 13:56, , 16F
sibyl: ?
11/01 13:56, 16F

11/01 14:00, , 17F
老實說 點兔廢文的字都很多
11/01 14:00, 17F

11/01 14:06, , 18F
字很多可是言之無物的文到底是不是廢文呢
11/01 14:06, 18F

11/01 14:07, , 19F
不需要啦 直接把特定id標上去就好了,反正誤判率很低
11/01 14:07, 19F

11/01 14:08, , 20F
把嗎和?當關鍵字至少能過濾掉一萬篇廢文
11/01 14:08, 20F

11/01 14:08, , 21F
我只是想說字數不可行而已
11/01 14:08, 21F

11/01 14:14, , 22F
有些人講不出什麼文算廢,就是想針對人黑嘛 又是個廢推
11/01 14:14, 22F

11/01 14:16, , 23F
用machine learning去分析文章的內容、推文、發文者記錄
11/01 14:16, 23F

11/01 14:18, , 24F
現在電腦判斷垃圾郵件正確率都有90%以上了 判斷廢文應該
11/01 14:18, 24F

11/01 14:18, , 25F
能做到差不多程度
11/01 14:18, 25F

11/01 15:20, , 26F
轉貼資訊的文常常字也不多啊xd
11/01 15:20, 26F

11/01 15:38, , 27F
點兔騎士文算不算廢文?
11/01 15:38, 27F

11/01 16:15, , 28F
對啊大家整理個database後去用ml train一個model就行了
11/01 16:15, 28F
文章代碼(AID): #1O62nXdU (C_Chat)
討論串 (同標題文章)
本文引述了以下文章的的內容:
以下文章回應了本文
完整討論串 (本文為第 3 之 11 篇):
文章代碼(AID): #1O62nXdU (C_Chat)