Re: [討論] 有男生收過騷擾/約砲信嗎

看板sex作者 (北齋)時間7年前 (2016/06/28 15:46), 7年前編輯推噓372(3851330)
留言428則, 415人參與, 最新討論串14/14 (看更多)
※ 引述《blessthefall (花 請聽我說話)》之銘言: : 板上女版友收到的約砲信 : 來來去去大概就是那個樣子八九不離十 : 有沒有男版友收過什麼很特別/意外/恐怖 : 之類的性騷擾或是約砲信啊 : 求眾男神出來分享一下意見 在板上待久,難免會收到一些來信 後來留下深刻印象的,多半來信簡短 像是簡單一句"Hi,我想認識你",或是"單挑?" 當資訊量太少時,會面臨選擇上的困難 是要回信? 還是當做沒看到? 直接忽略,可能會錯失一些什麼 往返聯絡,可能會浪費一些時間 於是我在想,是否有個簡便方式,能自動分析來信者背景資料 因為我很懶惰,懶惰的人只想一勞永逸 稍微查閱網路資料後,寫了程式自動抓站內文章 站內看板數量太多,資源有限,無法每個看板都追蹤 可以先用 google 進階搜尋,看看哪些看板值得納入追蹤 接著將文章一一寫入 SQL 資料庫 這樣就能簡便搜尋 ID、暱稱、文章標題、日期、IP、推文數和內文 有了這些資料,終於可以嘗試解決幾個問題: 1.對方的性別 2.對方的興趣項目 3.對方和哪些項目最有關聯 4.與對方的關聯度 5.依照特定項目篩選對象 先從分析文章內容做起,首先進行中文分詞,這已經有許多開源專案可用 背後原理主要是基於 TF-IDF 演算法提取關鍵詞,並取得每個詞出現的頻率 對於未登錄詞,則用 Hidden Markov model(HMM) 和 Viterbi 演算法挖掘出來 分詞過程將根據詞頻,查找出最大機率路徑,找出基於詞頻的最大機率分詞組合 例如: 西斯板為批踢踢站內討論與性知識、性愛及相關議題之看板 分詞後: 西斯板 為 批踢踢 站內 討論 與 性知識 、 性愛 及 相關 議題 之 看板 將一篇文章分詞後,可以再用 TF-IDF 演算法提取出權重高的關鍵詞 例如將某篇文章提出權重最高的前 15 個關鍵詞,得到: 褲子 / 單挑 / 陰蒂 / 內褲 / 變態 / 寄信 / 可以 / 站內信 / 平胸 / 感覺 / XD / 磨破 / 有圖 / 哩金 / 跪求 / 現在將對方每一篇文章提出前 15 個關鍵詞,加總並排序,可得到類似這樣的結果: ======= 出現次數 ======= 寄信 5 男友 5 主人 4 西斯 3 調教 3 ========================= 然而,每個關鍵詞在每篇文章出現順序不一,也就是權重是有差別 如果考量權重,給予加權計算,那關鍵詞權重次數可能是這樣: ======= 出現權重 ======= 男友 41 寄信 40 調教 28 單挑 28 主人 25 母狗 22 前男友 21 下體 20 ========================= 如此一來,只要看對方有哪些高權重關鍵詞,就可以略知興趣、偏好 有了這份關鍵詞權重表,可以計算自己和對方的關聯度 例如比對關鍵詞,一致則加計關聯度 實務上,分詞系統仍有不完美之處 像可能出現兩個關鍵詞分別是 "輪班星人"、"輪班",兩者有一定的關聯 如果只有關鍵詞完全一致才加計,那會流失一些關聯度 因此,當某一個關鍵詞是另一個關鍵詞子集,可以考慮納入平均化後的關聯度 公式為: 關聯度(A,B) = Σ(FreqA + (FreqA * FreqB /100) + ( (FreqA * FreqBofA + FreqBofA)/(100+100) ) 但有一些人很少貼文章,甚至沒貼過任何文章,此時要如何計算關聯度? 可嘗試篩選對方推過的所有文章,理論上這些文章會與對方的興趣較有關聯 例如某個人文章數只有 3 篇,計算關聯度只有 31.571 但推過的文章有 132 篇,計算關聯度,上升到 97.832 試運算關聯度: ================= 關聯度 ================= 100.278 = Hokusai 與 Hokusai 的關聯度 079.104 = Hokusai 與 g****** 的關聯度 068.253 = Hokusai 與 B****** 的關聯度 065.965 = Hokusai 與 L****** 的關聯度 055.688 = Hokusai 與 n****** 的關聯度 033.252 = Hokusai 與 T****** 的關聯度 028.984 = Hokusai 與 s****** 的關聯度 027.882 = Hokusai 與 a****** 的關聯度 004.734 = Hokusai 與 g****** 的關聯度 ========================================== 關聯度的運用或許可劃分為: a.擷取對方po過的所有文章,"不納入" 底下推文 計算與自己文章的關聯度 = 找出近似文風 假設 文風 = 常見用語 + 獨特用語 如果兩者常見用語和獨特用語都很接近,那可能文章風格接近,甚至可能是同一人 b.擷取對方po過的所有文章,"納入" 底下推文 計算與自己文章的關聯度 = 找出個人特質以及眾人評語 例如: 從推文提取出高權重關鍵詞 "好大"、"想揉",那或許發文者有大胸部 或是 "美腿"、"絲襪",那或許發文者有一雙美腿 c.擷取對方推過的所有文章,"不納入" 底下推文 計算與自己文章的關聯度 = 找出有興趣的主題 例如: 對方完全沒發過文,但推過許多文章,這些文章主題都跟絲襪有關 那或許對方是個絲襪控 d.擷取對方推過的所有文章,"納入" 底下推文 計算與自己文章的關聯度 = 找出有興趣的主題以及眾人評語 例如: 對方推的文章沒什麼內容,只有貼圖或貼網址 但底下推文高權重關鍵詞是 "想要"、"濕了" 或許這些文章都是高度情慾相關,可彰顯出對方的偏好 關鍵詞的另一項運用是計算對方和某些關鍵詞的關聯度 例如設定這些有點糟糕的關鍵字: "主人,調教,奴,肉棒,穴,繩,鞭,屁股" 選定一些對象後,計算可得: ======= 特定關鍵詞關聯度 ======= 050.495 = 與 B***** 的關聯度 050.477 = 與 L***** 的關聯度 050.079 = 與 Hokusai 的關聯度 025.395 = 與 a***** 的關聯度 012.523 = 與 r***** 的關聯度 000.000 = 與 t***** 的關聯度 000.000 = 與 g***** 的關聯度 ================================ 如此一來,就能迅速找出所有板友當中,與特定關鍵詞高度關聯的人 至於該如何得知對方性別呢? 直覺想法是找出對方所有文章,根據文章內容人工解讀 但懶人並不這麼做,懶人想要電腦自動根據演算法計算出對方性別機率 要計算這樣的機率,就得用到詞向量 背後數學原理,有興趣可自行上網找,實作上已經有開源項目,直接使用即可 將西斯板,甚至是全站主要板面所有文章一一分詞,放入神經網路模型訓練 得到的是許多關鍵詞以及它們的詞向量,詞向量相近的詞可能是近似詞,或有關聯 例如: 約炮 ------------------------ 聊色 0.574597835541 一夜情 0.56055521965 把妹 0.559946656227 交朋友 0.558615446091 要約 0.556353271008 約 0.547808170319 各取所需 0.517367005348 炮 0.511242568493 ONS 0.507398724556 ons 0.505300700665 ------------------------ 做愛 ------------------------ 愛愛 0.671514153481 打炮 0.641776919365 親熱 0.593930125237 做愛時 0.582576811314 上床 0.561808824539 作愛 0.537563204765 嘿咻 0.53130030632 愛愛的 0.524368822575 談戀愛 0.522466063499 接吻 0.51542276144 ------------------------ 口爆 ------------------------ 吞精 0.742852449417 顏射 0.692864179611 吞下去 0.651683688164 爆完 0.639664471149 無套 0.617091536522 我口 0.616918921471 內射 0.591554760933 BJ 0.587795376778 口交 0.585938930511 咬咬 0.570394158363 ------------------------ 某個板主 ID ---------------------------- 落* 0.71048951149 b***** 0.682565033436 D***** 0.657407820225 h***** 0.592148303986 板主 0.580929756165 t***** 0.571397483349 箋 0.55707937479 置底 0.544278502464 s***** 0.525196552277 B***** 0.52335613966 ---------------------------- 有了詞向量,可以用來計算男生 / 女生 機率 理論上,男女對於特定用語有偏好 例如男生可能偏好 NBA 這類詞,女生可能偏好 衣服、下午茶 這類詞 使用詞向量,可以得出每一個詞與 男生 / 女生 的向量,該值介於 0 ~ 1 將對方所有文章的詞一一計算與 男生 / 女生 的向量,加總 例如與 男生的總詞向量 = 105.281 ,與 女生的總詞向量 = 310.149 比較加總後的 男生 / 女生 總詞向量大小, 310.149 > 105.281 推測對方性別可能是女生 詞向量的另一個經典運用是向量加減 例如: king + man - woman = queen 應用在西斯板文章上: (ID已用 * 模糊化) B***** + 主人 = ? + 奴 ? = ---------------------------- h***** 0.574705600739 <- 有關聯 t***** 0.540593504906 <- 有關聯 B***** 0.537796854973 L***** 0.524876713753 <- 有關聯 p***** 0.507874965668 ---------------------------- H***** + 肉棒 = ? + 小穴 ? = ---------------------------- h***** 0.459891885519 i***** 0.447974443436 b***** 0.442876279354 t***** 0.439952194691 l***** 0.436598777771 ---------------------------- H***** + 約炮 = ? + 可以 ? = ---------------------------- r***** 0.407647997141 <- 有站內信 k***** 0.391758441925 m***** 0.385969340801 <- 有站內信 z***** 0.380592048168 p***** 0.379261791706 ---------------------------- 運用詞向量加減,確實可以找出一些潛在關聯 例如對方與哪些人互動頻繁,或對方與哪些人有共同興趣 或是對方與哪些人用語類似 (可能是分身帳號) 這有助於擴展可側寫範圍,也能提供一份潛在可接觸名單 最後,TF-IDF 演算法搭配詞向量,可應用在自動推薦對象 例如自動收集熱門交友性質、西斯性質看板 從文章擷取出所有人的關鍵詞權重,計算出與自己的關聯度 並按照設定的幾個關鍵詞,計算出高度關聯的人 接著用詞向量過濾是男是女 就能得到每日推薦接觸對象 其實這些工具經常用在廣告分析 似乎較少人用在約炮上 然後..我覺得研究這些東西,比約炮有意思多了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.196.69.180 ※ 文章網址: https://www.ptt.cc/bbs/sex/M.1467099969.A.1D1.html

06/28 15:46, , 1F
你一定是數學系的
06/28 15:46, 1F
興趣使然罷了

06/28 15:48, , 2F
這種文會有女鄉民寄信給他約炮嗎
06/28 15:48, 2F
應該不會,目前沒有

06/28 15:48, , 3F
好複雜OuO
06/28 15:48, 3F

06/28 15:48, , 4F
媽我在這
06/28 15:48, 4F

06/28 15:49, , 5F
快推 不然人家因為我看不懂
06/28 15:49, 5F

06/28 15:49, , 6F
....J3小
06/28 15:49, 6F

06/28 15:50, , 7F
這不寄不行
06/28 15:50, 7F

06/28 15:50, , 8F
看不懂直接按下了
06/28 15:50, 8F

06/28 15:50, , 9F
寄了 回我
06/28 15:50, 9F

06/28 15:50, , 10F
*___* 看不懂
06/28 15:50, 10F

06/28 15:51, , 11F
先推再說
06/28 15:51, 11F

06/28 15:51, , 12F
J3
06/28 15:51, 12F

06/28 15:52, , 13F
先推,免的被人說不懂
06/28 15:52, 13F

06/28 15:52, , 14F
先推再說
06/28 15:52, 14F

06/28 15:53, , 15F
看不懂,可是感覺好像很膩害XD
06/28 15:53, 15F

06/28 15:53, , 16F
感覺好像data mining的東西
06/28 15:53, 16F

06/28 15:53, , 17F
這三小 我眼花了
06/28 15:53, 17F

06/28 15:54, , 18F
XDDDD
06/28 15:54, 18F

06/28 15:54, , 19F
666666666666666666666666
06/28 15:54, 19F

06/28 15:56, , 20F
快推,免得人家說我不懂
06/28 15:56, 20F

06/28 15:56, , 21F
我看了三小
06/28 15:56, 21F

06/28 15:57, , 22F
不要騙我們鄉下人,雖然我書讀的少但是經驗卻不少(自肥
06/28 15:57, 22F

06/28 15:58, , 23F
靠夭 Data Mining是讓你這樣用的嗎? XDDDD
06/28 15:58, 23F
工具是用來解決問題嘛

06/28 15:58, , 24F
先推 不然人家以為我看不懂
06/28 15:58, 24F

06/28 15:58, , 25F
太扯
06/28 15:58, 25F

06/28 15:59, , 26F
看完都想寄信討論演算法了
06/28 15:59, 26F
直接問 google 收穫會比較多,我的老師是 google

06/28 16:02, , 27F
所以我還是看不懂啊
06/28 16:02, 27F

06/28 16:02, , 28F
專業
06/28 16:02, 28F

06/28 16:03, , 29F
wtf
06/28 16:03, 29F

06/28 16:03, , 30F
我到底看了三小
06/28 16:03, 30F

06/28 16:04, , 31F
06/28 16:04, 31F

06/28 16:05, , 32F
西斯版最專業的文章
06/28 16:05, 32F

06/28 16:05, , 33F
@______@
06/28 16:05, 33F

06/28 16:07, , 34F
分析王是你XD
06/28 16:07, 34F

06/28 16:10, , 35F
嗯嗯我也是這樣想的
06/28 16:10, 35F
還有 354 則推文
還有 10 段內文
06/29 22:17, , 390F
收到一堆阿
06/29 22:17, 390F

06/29 22:19, , 391F
這什麼鬼......XDDDDDDDDDDD
06/29 22:19, 391F

06/29 22:22, , 392F
大數據時代來嘍~不過你到底是想要幹嘛啊
06/29 22:22, 392F

06/29 22:34, , 393F
阿幹 我論文也是研究詞頻的 既視感好重(暈
06/29 22:34, 393F

06/29 23:13, , 394F
分享王
06/29 23:13, 394F

06/29 23:18, , 395F
所以.....這個工具可以丟出來給大家一起用嗎
06/29 23:18, 395F

06/30 00:38, , 396F
這才是big data
06/30 00:38, 396F

06/30 01:42, , 397F
約個炮,這麼搞剛
06/30 01:42, 397F

06/30 01:49, , 398F
太神啦
06/30 01:49, 398F

06/30 02:12, , 399F
87
06/30 02:12, 399F

06/30 02:52, , 400F
這可以放進參考文獻嗎哈哈
06/30 02:52, 400F

06/30 03:29, , 401F
坦白說,看不懂哩勒工蝦米,還是推
06/30 03:29, 401F

06/30 03:38, , 402F
數學建模的典範之一啊啊啊阿 有神快拜 神串留名
06/30 03:38, 402F

06/30 03:40, , 403F
怎麼把machine learning用在這裡XDD
06/30 03:40, 403F

06/30 04:47, , 404F
你到底在專業個屁!
06/30 04:47, 404F

06/30 09:39, , 405F
06/30 09:39, 405F

06/30 10:29, , 406F
推一個
06/30 10:29, 406F

06/30 11:53, , 407F
太強大了...
06/30 11:53, 407F

06/30 11:57, , 408F
雖然看起來很厲害 你應該把模型去做更有意義的事
06/30 11:57, 408F

06/30 13:00, , 409F
有沒有人可以翻譯一下XD
06/30 13:00, 409F
※ 編輯: Hokusai (24.196.69.180), 06/30/2016 13:35:43

06/30 14:10, , 410F
太神啦~
06/30 14:10, 410F

06/30 16:03, , 411F
殺小 看不懂
06/30 16:03, 411F

06/30 17:20, , 412F
...我好像突然覺得我的論文有希望了
06/30 17:20, 412F

06/30 22:05, , 413F
這太狂了xDDDDD
06/30 22:05, 413F

07/01 01:04, , 414F
突然又興起了寫程式的動力
07/01 01:04, 414F

07/01 03:44, , 415F
不推是文組
07/01 03:44, 415F

07/01 17:37, , 416F
嗯 我同意你的想法
07/01 17:37, 416F

07/01 22:41, , 417F
三小啊
07/01 22:41, 417F

07/01 22:50, , 418F
太強了xDD
07/01 22:50, 418F

07/02 00:26, , 419F
男生也可以寄嗎?約打球XD
07/02 00:26, 419F

07/03 08:26, , 420F
good
07/03 08:26, 420F

07/03 10:24, , 421F
我決定把天賦帶到西斯
07/03 10:24, 421F

07/04 23:16, , 422F
你在供三小呀!!!
07/04 23:16, 422F

07/05 14:57, , 423F
推。看完頭暈了
07/05 14:57, 423F

07/05 20:19, , 424F
好難啊啊啊啊啊啊啊
07/05 20:19, 424F

07/06 00:44, , 425F
一直按下一頁按到結束然後跟著推文就對了
07/06 00:44, 425F

07/16 14:03, , 426F
慘了 我也想寫一個了
07/16 14:03, 426F

09/29 22:01, , 427F
靠背 看到數字我就投降了
09/29 22:01, 427F

06/29 16:53, , 428F
淦,我完全看的懂這篇
06/29 16:53, 428F
文章代碼(AID): #1NSYj17H (sex)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 14 之 14 篇):
文章代碼(AID): #1NSYj17H (sex)