[閒聊] 黑潔明-小肥肥的猛男日記+前傳 用字分析

看板Romances作者 (麥茶不含咖啡因)時間2年前 (2021/10/06 19:10), 2年前編輯推噓56(56016)
留言72則, 52人參與, 2年前最新討論串1/1
內有不雅字眼, 未滿 18 歲之讀者及介意者請自行左轉, 感謝。 這個月的 WRN 數字解析專欄要來看一個言小之謎: 「紅眼這群人到底有多愛講『狗屎』?」 或是說,「紅眼的人真的愛講狗屎不愛講 Shit 嗎?」 這個主題的研究動機來自於言小板歷年來的諸多討論, 不乏「一堆狗屎看得出戲」、「我都在腦中自動轉成 Shit」之類的推文, 因此,取之於言小板、用之於言小板,這篇分析就同步發在批踢踢跟 WRN 了! (而且批踢踢先打還可以賺批幣XD) 設定好研究問題之後來敘述一下研究資料跟研究方法, 這次蒐集的資料為黑潔明-小肥肥的猛男日記之 前傳(3) + 本傳(13),一共 16 本書, 並透過電子書搜尋功能來搜尋特定關鍵字各出現幾次, 其中前傳系列與本傳系列一二使用 PUBU 電子書,本傳系列三到九使用 Readmoo 電子書, 可能存有搜尋結果的誤差,但影響應該不大。 原先設定的關鍵字有:Shit、狗屎、幹, 後來參考板上 a 板友貼文 [元宵] 眼熟跟煩躁的字眼 (#1KxQz09v) 之文章內容及推文, 將搜尋範圍放大為:Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的, 並且分為「對話」以及「非對話」兩種形式, 前者為角色明白地向另一方說出,後者則非。 特例一:即使沒有「說」出來,但對方「聽」得到也算對話 特例二:已經說過一次而後在腦袋回想算是非對話 註一:狗屎運不算狗屎、吃屎也不算狗屎 註二:你他媽的算是他媽的、他媽的不算媽的 註三:王八不算王八蛋、王八烏龜蛋也不算王八蛋 註四:操不算幹 至於為什麼沒有老天、去你的、該死, 因為…… https://i.imgur.com/uXSh2KA.jpg
天殺的,這也太多了吧,該死。 粗略整理的圖表長這樣: https://i.imgur.com/B6j7RgA.jpg
(計算誤差次數應該在 ±1 內) 事不宜遲,第一條我們就先來看 Shit 與狗屎! https://i.imgur.com/jOJB0YE.jpg
可能跟部分板友們的印象不同:紅眼的人是會講 Shit的! 並且到系列之五為止,Shit 出現次數多半高過狗屎,僅月光例外。 而溫柔大甜心與酷呆大黑鷹的小黃跟小黑是兩個乖寶寶, 整本書竟然完全沒出現 Shit 跟狗屎! 製圖比較: https://i.imgur.com/I0JpQy6.jpg
結果是不是稍微有點驚訝呢? 這邊隱約可以感覺得出黑大有漸漸使用「狗屎」多於「Shit」的情況, 因此筆者在此多提供紅眼續作的系列前二供各位參考, 分別是: 深海(上)- Shit 0 次/狗屎 0 次 深海(下)- Shit 2 次/狗屎 1 次 罪愛(上)- Shit 0 次/狗屎 2 次 (某次是真的踩到狗屎,那個不算) 罪愛(下)- Shit 3 次/狗屎 3 次 可見深海是 Shit 派,罪愛是狗屎派, 剩下的我還沒買電子書我不知道, 以下開放板友斗內讓我買齊整系列的電子書(X 接著是我的一些小發現: 1. 講「幹!」講得最多的是壞心大野狼(對話 3 次、非對話 1 次), 其次是美麗大浪子(對話 3 次), 且這兩本使用 Shit+狗屎 的次數亦最高, 剛好這兩本的主角鄉土味都比較重(XDDD) 王八蛋 2. 月光出現大量的「王八蛋」,主要是巴如月在形容前任, 莫森跟巴如月本身口語上較少使用。 3. 賊頭大老闆的「王八蛋」大致上是小嵐罵韓武麒用, 甚至連韓賊頭自己都說:「老是王八蛋來、王八蛋去的,妳罵不厭,我都聽煩了!」 4. 悶燒大天使也出現了大量的「王八蛋」,約一半是紅紅敘述伊凡(+韓賊頭)用, 這本亦出現了極為特別的「王八烏龜蛋」用法一次。 與眾不同的小黃小黑 5. 溫柔大甜心是真的溫柔,粗話統計為 0,連「該死」都用得不多, 僅曾經出現一次「王八」(沒列入統計)。 6. 酷呆大黑鷹是第二少粗話的,裡面出現的「王八蛋」多指壞人, 僅有一次是方水淨在想念屠鷹那個王八蛋。 比較少見的特殊用詞 7. 除前述的王八烏龜蛋以及王八以外,可愛大賤男出現過一次吃屎, 寶貝大猛男(上)出現過王八、寶貝大猛男(中)出現過「操」, 但罵「操」的人不是阿震,是韓賊頭。 天殺的 8. 「天殺的」其實很少出現,密碼最多,有 8 次,後面有越來越少的趨勢。 他媽的 9. 壞心大野狼有滿多「他媽的」,鳳力剛的內心話不時會出現他媽的。 10. 口語上最常使用「他媽的」的是耿野, 事實上,賊頭大老闆裡面出現的「他媽的」有一半是耿野講的, 而耿野帶大的小嵐也會講上幾句, 食物鏈是:耿野到韓武麒這本罵髒話,韓武麒再到其他本罵髒話XDDDD 如果把所有「Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的」加總, 會發現…… https://i.imgur.com/oZTsVtQ.jpg
耿野你他媽的也太髒了吧! -- Чи миний инээмсэглэл минь болсон -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.241.245 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Romances/M.1633518654.A.02F.html

10/06 19:36, 2年前 , 1F
如此認真的狗屎分析!
10/06 19:36, 1F
狗屎,時間都浪費在這上面了!

10/06 19:39, 2年前 , 2F
耿野是口頭上的髒,而鳳力剛是實際上(無誤) 這篇
10/06 19:39, 2F

10/06 19:39, 2年前 , 3F
分享也太認真!
10/06 19:39, 3F
鳳力剛的嘴也是滿髒的哈哈哈哈

10/06 19:42, 2年前 , 4F
太用心了!!!
10/06 19:42, 4F

10/06 19:57, 2年前 , 5F
10/06 19:57, 5F

10/06 20:09, 2年前 , 6F
真是太有趣了!
10/06 20:09, 6F

10/06 20:14, 2年前 , 7F
推分析!看到圖表就笑了XDDDD
10/06 20:14, 7F

10/06 20:38, 2年前 , 8F
推好文!XD
10/06 20:38, 8F

10/06 20:44, 2年前 , 9F
這篇讓我想到Friends的Janice...
10/06 20:44, 9F
Oh.My.God.

10/06 21:11, 2年前 , 10F
這要貼給黑大看吧XDD 推超用心!
10/06 21:11, 10F

10/06 21:29, 2年前 , 11F
推分析!超有趣的
10/06 21:29, 11F

10/06 21:52, 2年前 , 12F
推分析
10/06 21:52, 12F

10/06 22:06, 2年前 , 13F
推分析,太精闢了一定要推
10/06 22:06, 13F

10/06 22:09, 2年前 , 14F
看完統計就想再回去翻翻書了,哈哈哈~
10/06 22:09, 14F
大家快來找尋 Shit 的蹤跡(????

10/06 22:11, 2年前 , 15F
推麥茶大,這分析太厲害了
10/06 22:11, 15F
有興趣的板友可以參考 WRN 上的數字解析專欄, 目前總共有五篇,分別討論了字數、文案、書名跟用字, 我自己寫得滿開心的XDD https://www.wrn.tw/category/vocabulary14/term/5904 ※ 編輯: mugicha (125.224.241.245 臺灣), 10/06/2021 22:52:27

10/06 23:01, 2年前 , 16F
認真給推!!!
10/06 23:01, 16F

10/06 23:11, 2年前 , 17F
推分析 這也太專業了吧 哈哈哈
10/06 23:11, 17F

10/07 02:09, 2年前 , 18F
推分析XD
10/07 02:09, 18F

10/07 05:50, 2年前 , 19F
推分析,好有趣!
10/07 05:50, 19F

10/07 06:56, 2年前 , 20F
推分析~
10/07 06:56, 20F

10/07 08:36, 2年前 , 21F
又想起阿光了,嗚嗚嗚嗚阿光快回來~~~
10/07 08:36, 21F

10/07 08:56, 2年前 , 22F
看到"該死"的搜尋畫面真的噴笑
10/07 08:56, 22F

10/07 11:43, 2年前 , 23F
太好笑了必須推XDDDD!
10/07 11:43, 23F

10/07 12:37, 2年前 , 24F
這個表超可愛的啦,哈哈哈
10/07 12:37, 24F
竟然會覺得寫有 Shit 跟狗屎的表格可愛XDDDDD 其實我應該要整理一下「都是誰在說髒話」的,不然把韓武麒算在阿震頭上好無辜XDD 但是這要一句一句看好麻煩,乾脆延到下一次專欄再來寫XDD 如果我之後有把紅眼之七前的書都買齊,就連紅眼的一起統計好了~ ※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 12:56:20

10/07 13:10, 2年前 , 25F
哈哈哈 實在太用心了!還是好想知道該死的到底有多
10/07 13:10, 25F

10/07 13:10, 2年前 , 26F
10/07 13:10, 26F
噢,該死,該死真的太他媽的多了XDDD 下一篇文我會隨便用電子書功能算一下附上XDDD

10/07 13:29, 2年前 , 27F
太強大的統計啦!
10/07 13:29, 27F

10/07 14:11, 2年前 , 28F
笑死這統計xdd
10/07 14:11, 28F

10/07 14:47, 2年前 , 29F
推用心統計
10/07 14:47, 29F

10/07 16:11, 2年前 , 30F
天啊也太認真了吧哈哈
10/07 16:11, 30F

10/07 16:55, 2年前 , 31F
笑死 這一切的源頭都是耿野XDDD
10/07 16:55, 31F
我再往前查了暴躁公爵,沒有 Shit,只有兩次狗屎, 耿叔真的是最髒沒有之一XDDD

10/07 17:32, 2年前 , 32F
黑大fb貼了XDD
10/07 17:32, 32F
天啊誠惶誠恐XDDD 其他的讀者:超認真分析魔影角色登場順序跟關係 我:分析紅眼的人到底講了多少次狗屎 XDDDDDDDDDDDDDD 不知道黑大粉專的讀者看不看得到這邊,但我一起回應: 1. 我會用python沒錯,但這篇分析只有簡單用到excel XDD 沒辦法,人工智慧沒辦法幫我算他們講了多少髒話, 只能靠我自己工人智慧用電子書查詢功能慢慢看再登記, 跟紅眼他們家的科技能力差得遠啦XDDDDDDDD 不過我在 WRN 的其他專欄有用到跟機器學習有關的技術,像是斷詞跟分群, 如果要進一步分析什麼作者語言使用,就會牽涉到著作權問題, 也只能找公開的文案或是書名來玩~ 2. 整理這個意外地花時間,不過等我買齊紅眼後應該可以再寫一篇! 到時候就會彙整哪些人講了多少次的 Shit 了(??? 但該死真的太他媽的多了,可能就隨便整理一下XDD 還有人想看什麼關鍵字也可以說(??? ※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 18:24:26

10/07 17:50, 2年前 , 33F
太用心XDD
10/07 17:50, 33F

10/07 17:51, 2年前 , 34F
超猛XDDDDDDDDDy
10/07 17:51, 34F

10/07 18:25, 2年前 , 35F
在黑大fb看到分享,跑來看正文,太強大了
10/07 18:25, 35F

10/07 18:46, 2年前 , 36F
笑死XDDDDDDD
10/07 18:46, 36F

10/07 20:53, 2年前 , 37F
推~這個分析文太爆笑了
10/07 20:53, 37F

10/07 21:57, 2年前 , 38F
這分析太強了,耿野是一切的源頭—系列&髒話都是
10/07 21:57, 38F

10/07 22:04, 2年前 , 39F
論文
10/07 22:04, 39F

10/07 22:11, 2年前 , 40F
請問柱狀圖顏色是咖屎色是巧合還是特別選的XD
10/07 22:11, 40F

10/07 22:31, 2年前 , 41F
excel 的預設顏色是藍色,所以我是不是故意挑的呢XD
10/07 22:31, 41F
嘿嘿(?

10/07 22:34, 2年前 , 42F
好好看好好看好好看
10/07 22:34, 42F

10/07 22:46, 2年前 , 43F
小黑不說話所以沒髒話(誤
10/07 22:46, 43F
XDDDD 沒錯,帕哥那本也是因為語言不通所以很少髒話XDD 大老粗(下)的兩次 Shit 都是阿浪說的XDDD

10/07 22:48, 2年前 , 44F
就閱讀帶入感而言 看到狗屎真的都自動轉換了 罵狗屎
10/07 22:48, 44F

10/07 22:48, 2年前 , 45F
實在太奇怪 幹自然多了(稱讚?
10/07 22:48, 45F

10/07 22:48, 2年前 , 46F
朝聖推
10/07 22:48, 46F
((換個位置)) ※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 23:02:11

10/07 23:05, 2年前 , 47F
朝聖推XD 超用心分析!
10/07 23:05, 47F

10/08 09:13, 2年前 , 48F
超用心啊! 一看文開頭就立刻笑出來了 XD
10/08 09:13, 48F

10/08 10:14, 2年前 , 49F
超認真狗屎分析太有趣了 哈哈哈哈
10/08 10:14, 49F

10/08 13:03, 2年前 , 50F
真的笑死,從耿野開始帶壞下一代!! XDDD
10/08 13:03, 50F

10/08 16:28, 2年前 , 51F
太認真XDD 推
10/08 16:28, 51F

10/08 23:53, 2年前 , 52F
超用心的整理 笑死XD
10/08 23:53, 52F

10/09 03:26, 2年前 , 53F
朝聖推 在廁所看到笑死哈哈哈哈
10/09 03:26, 53F

10/09 12:17, 2年前 , 54F
認真給推,黑大應該看得很開心
10/09 12:17, 54F

10/09 13:09, 2年前 , 55F
黑大昨天直播提到笑得超開心
10/09 13:09, 55F
我回去補直播了! 然後,對,我上班壓力很大。 哈哈哈哈哈哈哈哈哈哈哈哈哈

10/09 19:56, 2年前 , 56F
覺得麥茶大的分析文集結一下 可以變成言情版的 暢銷
10/09 19:56, 56F

10/09 19:57, 2年前 , 57F
書密碼:人工智慧帶我們重新理解小說創作 XD
10/09 19:57, 57F

10/09 19:57, 2年前 , 58F
剛看完這本書就馬上想到你的分析文XDDD
10/09 19:57, 58F
哦哦哦!WRN 的 limejuice 同學也提過這本書~ https://www.wrn.tw/comment/46034#comment-46034 透過電腦語言研究人類語言是我很喜歡的事XDDD 機器學習可以做很多研究,也確實做了很多研究, 像是從紅樓夢前後的文字去分析後四十章是否為曹雪芹所筆、 或是去找出作者的獨特寫作手法、常用的文字等等, 牽涉到文字向量化、機率等等等等,好喜歡>////< 《暢銷書密碼》這本書的出版年是 2016, 而自然語言處理 (NLP, natural language processing)領域在 2018 年後有個大躍進, 所以可以玩得東西就又更多了~ 所謂大躍進是 google 提出了一個叫 transformer 的 NLP 架構, 此後這個領域直接進入嶄新的一頁XDD 雖然我的專欄之路走得很緩慢(誠徵跟我一樣願意浪費生命做資料前處理的夥伴XD), 但我接下來真的會碰比較多 NLP,可能就足以做這種人工智慧的分析了! 最後的目標甚至是自然語言生成 (NLG, natural language generation), 不過大概明年才會連載到那吧XDDDDD NLG 的部分可以參考下方這個用語言模型生成金庸小說的例子: https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html 關於模型運作方式的敘述全部都可以跳過, 重點是結果滿好笑的,我很喜歡XDDDDDDDD ※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 21:05:52

10/09 21:12, 2年前 , 59F
麥茶大你上面寫的有九成我都看不懂XD 但樂見分析
10/09 21:12, 59F

10/09 21:13, 2年前 , 60F
這種分析 就暢銷書密碼的結論 可以發現讀者的心理與
10/09 21:13, 60F

10/09 21:13, 2年前 , 61F
文化 比方格雷和達文西密碼故事結構給讀者的情感曲
10/09 21:13, 61F

10/09 21:14, 2年前 , 62F
線一樣 書名都是女孩代表女人跳脫傳統形象 甚至把
10/09 21:14, 62F

10/09 21:15, 2年前 , 63F
暴力帶家庭這個私領域 而這些 女孩 書名的作者都還
10/09 21:15, 63F

10/09 21:16, 2年前 , 64F
沒找出結局的最佳情感弧線 象徵 書名有女孩的還會暢
10/09 21:16, 64F

10/09 21:16, 2年前 , 65F
銷 這些點若能看你分析羅曼史應該也很有看頭
10/09 21:16, 65F

10/09 21:17, 2年前 , 66F
我個人猜 台言還沒找出新的暢銷書公式 但國外有黑暗
10/09 21:17, 66F

10/09 21:18, 2年前 , 67F
羅曼史了(下一篇找書文發現的) 希望真的改天能不要
10/09 21:18, 67F

10/09 21:18, 2年前 , 68F
再一堆穿越了
10/09 21:18, 68F

10/09 23:49, 2年前 , 69F
笑死 在幹嘛啦XDDDD
10/09 23:49, 69F
※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 23:59:16

10/10 12:22, 2年前 , 70F
推分析
10/10 12:22, 70F

10/10 21:08, 2年前 , 71F
從黑大粉絲頁過來朝聖推
10/10 21:08, 71F

10/11 22:13, 2年前 , 72F
好認真還做表格XD
10/11 22:13, 72F
文章代碼(AID): #1XNOG-0l (Romances)