[閒聊] 黑潔明-小肥肥的猛男日記+前傳 用字分析
內有不雅字眼,
未滿 18 歲之讀者及介意者請自行左轉,
感謝。
這個月的 WRN 數字解析專欄要來看一個言小之謎:
「紅眼這群人到底有多愛講『狗屎』?」
或是說,「紅眼的人真的愛講狗屎不愛講 Shit 嗎?」
這個主題的研究動機來自於言小板歷年來的諸多討論,
不乏「一堆狗屎看得出戲」、「我都在腦中自動轉成 Shit」之類的推文,
因此,取之於言小板、用之於言小板,這篇分析就同步發在批踢踢跟 WRN 了!
(而且批踢踢先打還可以賺批幣XD)
設定好研究問題之後來敘述一下研究資料跟研究方法,
這次蒐集的資料為黑潔明-小肥肥的猛男日記之 前傳(3) + 本傳(13),一共 16 本書,
並透過電子書搜尋功能來搜尋特定關鍵字各出現幾次,
其中前傳系列與本傳系列一二使用 PUBU 電子書,本傳系列三到九使用 Readmoo 電子書,
可能存有搜尋結果的誤差,但影響應該不大。
原先設定的關鍵字有:Shit、狗屎、幹,
後來參考板上 a 板友貼文 [元宵] 眼熟跟煩躁的字眼 (#1KxQz09v) 之文章內容及推文,
將搜尋範圍放大為:Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的,
並且分為「對話」以及「非對話」兩種形式,
前者為角色明白地向另一方說出,後者則非。
特例一:即使沒有「說」出來,但對方「聽」得到也算對話
特例二:已經說過一次而後在腦袋回想算是非對話
註一:狗屎運不算狗屎、吃屎也不算狗屎
註二:你他媽的算是他媽的、他媽的不算媽的
註三:王八不算王八蛋、王八烏龜蛋也不算王八蛋
註四:操不算幹
至於為什麼沒有老天、去你的、該死,
因為……
https://i.imgur.com/uXSh2KA.jpg
天殺的,這也太多了吧,該死。
粗略整理的圖表長這樣:
https://i.imgur.com/B6j7RgA.jpg
(計算誤差次數應該在 ±1 內)
事不宜遲,第一條我們就先來看 Shit 與狗屎!
https://i.imgur.com/jOJB0YE.jpg
可能跟部分板友們的印象不同:紅眼的人是會講 Shit的!
並且到系列之五為止,Shit 出現次數多半高過狗屎,僅月光例外。
而溫柔大甜心與酷呆大黑鷹的小黃跟小黑是兩個乖寶寶,
整本書竟然完全沒出現 Shit 跟狗屎!
製圖比較:
https://i.imgur.com/I0JpQy6.jpg
結果是不是稍微有點驚訝呢?
這邊隱約可以感覺得出黑大有漸漸使用「狗屎」多於「Shit」的情況,
因此筆者在此多提供紅眼續作的系列前二供各位參考,
分別是:
深海(上)- Shit 0 次/狗屎 0 次
深海(下)- Shit 2 次/狗屎 1 次
罪愛(上)- Shit 0 次/狗屎 2 次 (某次是真的踩到狗屎,那個不算)
罪愛(下)- Shit 3 次/狗屎 3 次
可見深海是 Shit 派,罪愛是狗屎派,
剩下的我還沒買電子書我不知道,
以下開放板友斗內讓我買齊整系列的電子書(X
接著是我的一些小發現:
幹
1. 講「幹!」講得最多的是壞心大野狼(對話 3 次、非對話 1 次),
其次是美麗大浪子(對話 3 次),
且這兩本使用 Shit+狗屎 的次數亦最高,
剛好這兩本的主角鄉土味都比較重(XDDD)
王八蛋
2. 月光出現大量的「王八蛋」,主要是巴如月在形容前任,
莫森跟巴如月本身口語上較少使用。
3. 賊頭大老闆的「王八蛋」大致上是小嵐罵韓武麒用,
甚至連韓賊頭自己都說:「老是王八蛋來、王八蛋去的,妳罵不厭,我都聽煩了!」
4. 悶燒大天使也出現了大量的「王八蛋」,約一半是紅紅敘述伊凡(+韓賊頭)用,
這本亦出現了極為特別的「王八烏龜蛋」用法一次。
與眾不同的小黃小黑
5. 溫柔大甜心是真的溫柔,粗話統計為 0,連「該死」都用得不多,
僅曾經出現一次「王八」(沒列入統計)。
6. 酷呆大黑鷹是第二少粗話的,裡面出現的「王八蛋」多指壞人,
僅有一次是方水淨在想念屠鷹那個王八蛋。
比較少見的特殊用詞
7. 除前述的王八烏龜蛋以及王八以外,可愛大賤男出現過一次吃屎,
寶貝大猛男(上)出現過王八、寶貝大猛男(中)出現過「操」,
但罵「操」的人不是阿震,是韓賊頭。
天殺的
8. 「天殺的」其實很少出現,密碼最多,有 8 次,後面有越來越少的趨勢。
他媽的
9. 壞心大野狼有滿多「他媽的」,鳳力剛的內心話不時會出現他媽的。
10. 口語上最常使用「他媽的」的是耿野,
事實上,賊頭大老闆裡面出現的「他媽的」有一半是耿野講的,
而耿野帶大的小嵐也會講上幾句,
食物鏈是:耿野到韓武麒這本罵髒話,韓武麒再到其他本罵髒話XDDDD
如果把所有「Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的」加總,
會發現……
https://i.imgur.com/oZTsVtQ.jpg
耿野你他媽的也太髒了吧!
--
Чи
миний
инээмсэглэл
минь
болсон
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.241.245 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Romances/M.1633518654.A.02F.html
推
10/06 19:36,
2年前
, 1F
10/06 19:36, 1F
狗屎,時間都浪費在這上面了!
推
10/06 19:39,
2年前
, 2F
10/06 19:39, 2F
→
10/06 19:39,
2年前
, 3F
10/06 19:39, 3F
鳳力剛的嘴也是滿髒的哈哈哈哈
推
10/06 19:42,
2年前
, 4F
10/06 19:42, 4F
推
10/06 19:57,
2年前
, 5F
10/06 19:57, 5F
推
10/06 20:09,
2年前
, 6F
10/06 20:09, 6F
推
10/06 20:14,
2年前
, 7F
10/06 20:14, 7F
推
10/06 20:38,
2年前
, 8F
10/06 20:38, 8F
推
10/06 20:44,
2年前
, 9F
10/06 20:44, 9F
Oh.My.God.
推
10/06 21:11,
2年前
, 10F
10/06 21:11, 10F
推
10/06 21:29,
2年前
, 11F
10/06 21:29, 11F
推
10/06 21:52,
2年前
, 12F
10/06 21:52, 12F
推
10/06 22:06,
2年前
, 13F
10/06 22:06, 13F
推
10/06 22:09,
2年前
, 14F
10/06 22:09, 14F
大家快來找尋 Shit 的蹤跡(????
推
10/06 22:11,
2年前
, 15F
10/06 22:11, 15F
有興趣的板友可以參考 WRN 上的數字解析專欄,
目前總共有五篇,分別討論了字數、文案、書名跟用字,
我自己寫得滿開心的XDD
https://www.wrn.tw/category/vocabulary14/term/5904
※ 編輯: mugicha (125.224.241.245 臺灣), 10/06/2021 22:52:27
推
10/06 23:01,
2年前
, 16F
10/06 23:01, 16F
推
10/06 23:11,
2年前
, 17F
10/06 23:11, 17F
推
10/07 02:09,
2年前
, 18F
10/07 02:09, 18F
推
10/07 05:50,
2年前
, 19F
10/07 05:50, 19F
推
10/07 06:56,
2年前
, 20F
10/07 06:56, 20F
推
10/07 08:36,
2年前
, 21F
10/07 08:36, 21F
推
10/07 08:56,
2年前
, 22F
10/07 08:56, 22F
推
10/07 11:43,
2年前
, 23F
10/07 11:43, 23F
推
10/07 12:37,
2年前
, 24F
10/07 12:37, 24F
竟然會覺得寫有 Shit 跟狗屎的表格可愛XDDDDD
其實我應該要整理一下「都是誰在說髒話」的,不然把韓武麒算在阿震頭上好無辜XDD
但是這要一句一句看好麻煩,乾脆延到下一次專欄再來寫XDD
如果我之後有把紅眼之七前的書都買齊,就連紅眼的一起統計好了~
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 12:56:20
推
10/07 13:10,
2年前
, 25F
10/07 13:10, 25F
→
10/07 13:10,
2年前
, 26F
10/07 13:10, 26F
噢,該死,該死真的太他媽的多了XDDD
下一篇文我會隨便用電子書功能算一下附上XDDD
推
10/07 13:29,
2年前
, 27F
10/07 13:29, 27F
推
10/07 14:11,
2年前
, 28F
10/07 14:11, 28F
推
10/07 14:47,
2年前
, 29F
10/07 14:47, 29F
推
10/07 16:11,
2年前
, 30F
10/07 16:11, 30F
推
10/07 16:55,
2年前
, 31F
10/07 16:55, 31F
我再往前查了暴躁公爵,沒有 Shit,只有兩次狗屎,
耿叔真的是最髒沒有之一XDDD
推
10/07 17:32,
2年前
, 32F
10/07 17:32, 32F
天啊誠惶誠恐XDDD
其他的讀者:超認真分析魔影角色登場順序跟關係
我:分析紅眼的人到底講了多少次狗屎
XDDDDDDDDDDDDDD
不知道黑大粉專的讀者看不看得到這邊,但我一起回應:
1. 我會用python沒錯,但這篇分析只有簡單用到excel XDD
沒辦法,人工智慧沒辦法幫我算他們講了多少髒話,
只能靠我自己工人智慧用電子書查詢功能慢慢看再登記,
跟紅眼他們家的科技能力差得遠啦XDDDDDDDD
不過我在 WRN 的其他專欄有用到跟機器學習有關的技術,像是斷詞跟分群,
如果要進一步分析什麼作者語言使用,就會牽涉到著作權問題,
也只能找公開的文案或是書名來玩~
2. 整理這個意外地花時間,不過等我買齊紅眼後應該可以再寫一篇!
到時候就會彙整哪些人講了多少次的 Shit 了(???
但該死真的太他媽的多了,可能就隨便整理一下XDD
還有人想看什麼關鍵字也可以說(???
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 18:24:26
推
10/07 17:50,
2年前
, 33F
10/07 17:50, 33F
推
10/07 17:51,
2年前
, 34F
10/07 17:51, 34F
推
10/07 18:25,
2年前
, 35F
10/07 18:25, 35F
推
10/07 18:46,
2年前
, 36F
10/07 18:46, 36F
推
10/07 20:53,
2年前
, 37F
10/07 20:53, 37F
推
10/07 21:57,
2年前
, 38F
10/07 21:57, 38F
推
10/07 22:04,
2年前
, 39F
10/07 22:04, 39F
推
10/07 22:11,
2年前
, 40F
10/07 22:11, 40F
→
10/07 22:31,
2年前
, 41F
10/07 22:31, 41F
嘿嘿(?
推
10/07 22:34,
2年前
, 42F
10/07 22:34, 42F
推
10/07 22:46,
2年前
, 43F
10/07 22:46, 43F
XDDDD
沒錯,帕哥那本也是因為語言不通所以很少髒話XDD
大老粗(下)的兩次 Shit 都是阿浪說的XDDD
→
10/07 22:48,
2年前
, 44F
10/07 22:48, 44F
→
10/07 22:48,
2年前
, 45F
10/07 22:48, 45F
推
10/07 22:48,
2年前
, 46F
10/07 22:48, 46F
((換個位置))
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 23:02:11
推
10/07 23:05,
2年前
, 47F
10/07 23:05, 47F
推
10/08 09:13,
2年前
, 48F
10/08 09:13, 48F
推
10/08 10:14,
2年前
, 49F
10/08 10:14, 49F
推
10/08 13:03,
2年前
, 50F
10/08 13:03, 50F
推
10/08 16:28,
2年前
, 51F
10/08 16:28, 51F
推
10/08 23:53,
2年前
, 52F
10/08 23:53, 52F
推
10/09 03:26,
2年前
, 53F
10/09 03:26, 53F
推
10/09 12:17,
2年前
, 54F
10/09 12:17, 54F
推
10/09 13:09,
2年前
, 55F
10/09 13:09, 55F
我回去補直播了!
然後,對,我上班壓力很大。
哈哈哈哈哈哈哈哈哈哈哈哈哈
推
10/09 19:56,
2年前
, 56F
10/09 19:56, 56F
→
10/09 19:57,
2年前
, 57F
10/09 19:57, 57F
→
10/09 19:57,
2年前
, 58F
10/09 19:57, 58F
哦哦哦!WRN 的 limejuice 同學也提過這本書~
https://www.wrn.tw/comment/46034#comment-46034
透過電腦語言研究人類語言是我很喜歡的事XDDD
機器學習可以做很多研究,也確實做了很多研究,
像是從紅樓夢前後的文字去分析後四十章是否為曹雪芹所筆、
或是去找出作者的獨特寫作手法、常用的文字等等,
牽涉到文字向量化、機率等等等等,好喜歡>////<
《暢銷書密碼》這本書的出版年是 2016,
而自然語言處理 (NLP, natural language processing)領域在 2018 年後有個大躍進,
所以可以玩得東西就又更多了~
所謂大躍進是 google 提出了一個叫 transformer 的 NLP 架構,
此後這個領域直接進入嶄新的一頁XDD
雖然我的專欄之路走得很緩慢(誠徵跟我一樣願意浪費生命做資料前處理的夥伴XD),
但我接下來真的會碰比較多 NLP,可能就足以做這種人工智慧的分析了!
最後的目標甚至是自然語言生成 (NLG, natural language generation),
不過大概明年才會連載到那吧XDDDDD
NLG 的部分可以參考下方這個用語言模型生成金庸小說的例子:
https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html
關於模型運作方式的敘述全部都可以跳過,
重點是結果滿好笑的,我很喜歡XDDDDDDDD
※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 21:05:52
推
10/09 21:12,
2年前
, 59F
10/09 21:12, 59F
→
10/09 21:13,
2年前
, 60F
10/09 21:13, 60F
→
10/09 21:13,
2年前
, 61F
10/09 21:13, 61F
→
10/09 21:14,
2年前
, 62F
10/09 21:14, 62F
→
10/09 21:15,
2年前
, 63F
10/09 21:15, 63F
→
10/09 21:16,
2年前
, 64F
10/09 21:16, 64F
→
10/09 21:16,
2年前
, 65F
10/09 21:16, 65F
→
10/09 21:17,
2年前
, 66F
10/09 21:17, 66F
→
10/09 21:18,
2年前
, 67F
10/09 21:18, 67F
→
10/09 21:18,
2年前
, 68F
10/09 21:18, 68F
推
10/09 23:49,
2年前
, 69F
10/09 23:49, 69F
※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 23:59:16
推
10/10 12:22,
2年前
, 70F
10/10 12:22, 70F
推
10/10 21:08,
2年前
, 71F
10/10 21:08, 71F
推
10/11 22:13,
2年前
, 72F
10/11 22:13, 72F