Re: [討論] 有男生收過騷擾/約砲信嗎
※ 引述《blessthefall (花 請聽我說話)》之銘言:
: 板上女版友收到的約砲信
: 來來去去大概就是那個樣子八九不離十
: 有沒有男版友收過什麼很特別/意外/恐怖
: 之類的性騷擾或是約砲信啊
: 求眾男神出來分享一下意見
在板上待久,難免會收到一些來信
後來留下深刻印象的,多半來信簡短
像是簡單一句"Hi,我想認識你",或是"單挑?"
當資訊量太少時,會面臨選擇上的困難
是要回信? 還是當做沒看到?
直接忽略,可能會錯失一些什麼
往返聯絡,可能會浪費一些時間
於是我在想,是否有個簡便方式,能自動分析來信者背景資料
因為我很懶惰,懶惰的人只想一勞永逸
稍微查閱網路資料後,寫了程式自動抓站內文章
站內看板數量太多,資源有限,無法每個看板都追蹤
可以先用 google 進階搜尋,看看哪些看板值得納入追蹤
接著將文章一一寫入 SQL 資料庫
這樣就能簡便搜尋 ID、暱稱、文章標題、日期、IP、推文數和內文
有了這些資料,終於可以嘗試解決幾個問題:
1.對方的性別
2.對方的興趣項目
3.對方和哪些項目最有關聯
4.與對方的關聯度
5.依照特定項目篩選對象
先從分析文章內容做起,首先進行中文分詞,這已經有許多開源專案可用
背後原理主要是基於 TF-IDF 演算法提取關鍵詞,並取得每個詞出現的頻率
對於未登錄詞,則用 Hidden Markov model(HMM) 和 Viterbi 演算法挖掘出來
分詞過程將根據詞頻,查找出最大機率路徑,找出基於詞頻的最大機率分詞組合
例如: 西斯板為批踢踢站內討論與性知識、性愛及相關議題之看板
分詞後:
西斯板 為 批踢踢 站內 討論 與 性知識 、 性愛 及 相關 議題 之 看板
將一篇文章分詞後,可以再用 TF-IDF 演算法提取出權重高的關鍵詞
例如將某篇文章提出權重最高的前 15 個關鍵詞,得到:
褲子 / 單挑 / 陰蒂 / 內褲 / 變態 / 寄信 / 可以 / 站內信 /
平胸 / 感覺 / XD / 磨破 / 有圖 / 哩金 / 跪求 /
現在將對方每一篇文章提出前 15 個關鍵詞,加總並排序,可得到類似這樣的結果:
======= 出現次數 =======
寄信 5
男友 5
主人 4
西斯 3
調教 3
=========================
然而,每個關鍵詞在每篇文章出現順序不一,也就是權重是有差別
如果考量權重,給予加權計算,那關鍵詞權重次數可能是這樣:
======= 出現權重 =======
男友 41
寄信 40
調教 28
單挑 28
主人 25
母狗 22
前男友 21
下體 20
=========================
如此一來,只要看對方有哪些高權重關鍵詞,就可以略知興趣、偏好
有了這份關鍵詞權重表,可以計算自己和對方的關聯度
例如比對關鍵詞,一致則加計關聯度
實務上,分詞系統仍有不完美之處
像可能出現兩個關鍵詞分別是 "輪班星人"、"輪班",兩者有一定的關聯
如果只有關鍵詞完全一致才加計,那會流失一些關聯度
因此,當某一個關鍵詞是另一個關鍵詞子集,可以考慮納入平均化後的關聯度
公式為:
關聯度(A,B) =
Σ(FreqA + (FreqA * FreqB /100) + ( (FreqA * FreqBofA + FreqBofA)/(100+100) )
但有一些人很少貼文章,甚至沒貼過任何文章,此時要如何計算關聯度?
可嘗試篩選對方推過的所有文章,理論上這些文章會與對方的興趣較有關聯
例如某個人文章數只有 3 篇,計算關聯度只有 31.571
但推過的文章有 132 篇,計算關聯度,上升到 97.832
試運算關聯度:
================= 關聯度 =================
100.278 = Hokusai 與 Hokusai 的關聯度
079.104 = Hokusai 與 g****** 的關聯度
068.253 = Hokusai 與 B****** 的關聯度
065.965 = Hokusai 與 L****** 的關聯度
055.688 = Hokusai 與 n****** 的關聯度
033.252 = Hokusai 與 T****** 的關聯度
028.984 = Hokusai 與 s****** 的關聯度
027.882 = Hokusai 與 a****** 的關聯度
004.734 = Hokusai 與 g****** 的關聯度
==========================================
關聯度的運用或許可劃分為:
a.擷取對方po過的所有文章,"不納入" 底下推文
計算與自己文章的關聯度 = 找出近似文風
假設 文風 = 常見用語 + 獨特用語
如果兩者常見用語和獨特用語都很接近,那可能文章風格接近,甚至可能是同一人
b.擷取對方po過的所有文章,"納入" 底下推文
計算與自己文章的關聯度 = 找出個人特質以及眾人評語
例如: 從推文提取出高權重關鍵詞 "好大"、"想揉",那或許發文者有大胸部
或是 "美腿"、"絲襪",那或許發文者有一雙美腿
c.擷取對方推過的所有文章,"不納入" 底下推文
計算與自己文章的關聯度 = 找出有興趣的主題
例如: 對方完全沒發過文,但推過許多文章,這些文章主題都跟絲襪有關
那或許對方是個絲襪控
d.擷取對方推過的所有文章,"納入" 底下推文
計算與自己文章的關聯度 = 找出有興趣的主題以及眾人評語
例如: 對方推的文章沒什麼內容,只有貼圖或貼網址
但底下推文高權重關鍵詞是 "想要"、"濕了"
或許這些文章都是高度情慾相關,可彰顯出對方的偏好
關鍵詞的另一項運用是計算對方和某些關鍵詞的關聯度
例如設定這些有點糟糕的關鍵字:
"主人,調教,奴,肉棒,穴,繩,鞭,屁股"
選定一些對象後,計算可得:
======= 特定關鍵詞關聯度 =======
050.495 = 與 B***** 的關聯度
050.477 = 與 L***** 的關聯度
050.079 = 與 Hokusai 的關聯度
025.395 = 與 a***** 的關聯度
012.523 = 與 r***** 的關聯度
000.000 = 與 t***** 的關聯度
000.000 = 與 g***** 的關聯度
================================
如此一來,就能迅速找出所有板友當中,與特定關鍵詞高度關聯的人
至於該如何得知對方性別呢?
直覺想法是找出對方所有文章,根據文章內容人工解讀
但懶人並不這麼做,懶人想要電腦自動根據演算法計算出對方性別機率
要計算這樣的機率,就得用到詞向量
背後數學原理,有興趣可自行上網找,實作上已經有開源項目,直接使用即可
將西斯板,甚至是全站主要板面所有文章一一分詞,放入神經網路模型訓練
得到的是許多關鍵詞以及它們的詞向量,詞向量相近的詞可能是近似詞,或有關聯
例如:
約炮
------------------------
聊色 0.574597835541
一夜情 0.56055521965
把妹 0.559946656227
交朋友 0.558615446091
要約 0.556353271008
約 0.547808170319
各取所需 0.517367005348
炮 0.511242568493
ONS 0.507398724556
ons 0.505300700665
------------------------
做愛
------------------------
愛愛 0.671514153481
打炮 0.641776919365
親熱 0.593930125237
做愛時 0.582576811314
上床 0.561808824539
作愛 0.537563204765
嘿咻 0.53130030632
愛愛的 0.524368822575
談戀愛 0.522466063499
接吻 0.51542276144
------------------------
口爆
------------------------
吞精 0.742852449417
顏射 0.692864179611
吞下去 0.651683688164
爆完 0.639664471149
無套 0.617091536522
我口 0.616918921471
內射 0.591554760933
BJ 0.587795376778
口交 0.585938930511
咬咬 0.570394158363
------------------------
某個板主 ID
----------------------------
落* 0.71048951149
b***** 0.682565033436
D***** 0.657407820225
h***** 0.592148303986
板主 0.580929756165
t***** 0.571397483349
箋 0.55707937479
置底 0.544278502464
s***** 0.525196552277
B***** 0.52335613966
----------------------------
有了詞向量,可以用來計算男生 / 女生 機率
理論上,男女對於特定用語有偏好
例如男生可能偏好 NBA 這類詞,女生可能偏好 衣服、下午茶 這類詞
使用詞向量,可以得出每一個詞與 男生 / 女生 的向量,該值介於 0 ~ 1
將對方所有文章的詞一一計算與 男生 / 女生 的向量,加總
例如與 男生的總詞向量 = 105.281 ,與 女生的總詞向量 = 310.149
比較加總後的 男生 / 女生 總詞向量大小, 310.149 > 105.281
推測對方性別可能是女生
詞向量的另一個經典運用是向量加減
例如: king + man - woman = queen
應用在西斯板文章上: (ID已用 * 模糊化)
B***** + 主人 = ? + 奴
? =
----------------------------
h***** 0.574705600739 <- 有關聯
t***** 0.540593504906 <- 有關聯
B***** 0.537796854973
L***** 0.524876713753 <- 有關聯
p***** 0.507874965668
----------------------------
H***** + 肉棒 = ? + 小穴
? =
----------------------------
h***** 0.459891885519
i***** 0.447974443436
b***** 0.442876279354
t***** 0.439952194691
l***** 0.436598777771
----------------------------
H***** + 約炮 = ? + 可以
? =
----------------------------
r***** 0.407647997141 <- 有站內信
k***** 0.391758441925
m***** 0.385969340801 <- 有站內信
z***** 0.380592048168
p***** 0.379261791706
----------------------------
運用詞向量加減,確實可以找出一些潛在關聯
例如對方與哪些人互動頻繁,或對方與哪些人有共同興趣
或是對方與哪些人用語類似 (可能是分身帳號)
這有助於擴展可側寫範圍,也能提供一份潛在可接觸名單
最後,TF-IDF 演算法搭配詞向量,可應用在自動推薦對象
例如自動收集熱門交友性質、西斯性質看板
從文章擷取出所有人的關鍵詞權重,計算出與自己的關聯度
並按照設定的幾個關鍵詞,計算出高度關聯的人
接著用詞向量過濾是男是女
就能得到每日推薦接觸對象
其實這些工具經常用在廣告分析
似乎較少人用在約炮上
然後..我覺得研究這些東西,比約炮有意思多了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.196.69.180
※ 文章網址: https://www.ptt.cc/bbs/sex/M.1467099969.A.1D1.html
推
06/28 15:46, , 1F
06/28 15:46, 1F
興趣使然罷了
推
06/28 15:48, , 2F
06/28 15:48, 2F
應該不會,目前沒有
→
06/28 15:48, , 3F
06/28 15:48, 3F
推
06/28 15:48, , 4F
06/28 15:48, 4F
推
06/28 15:49, , 5F
06/28 15:49, 5F
推
06/28 15:49, , 6F
06/28 15:49, 6F
推
06/28 15:50, , 7F
06/28 15:50, 7F
推
06/28 15:50, , 8F
06/28 15:50, 8F
推
06/28 15:50, , 9F
06/28 15:50, 9F
推
06/28 15:50, , 10F
06/28 15:50, 10F
推
06/28 15:51, , 11F
06/28 15:51, 11F
推
06/28 15:51, , 12F
06/28 15:51, 12F
推
06/28 15:52, , 13F
06/28 15:52, 13F
推
06/28 15:52, , 14F
06/28 15:52, 14F
推
06/28 15:53, , 15F
06/28 15:53, 15F
推
06/28 15:53, , 16F
06/28 15:53, 16F
推
06/28 15:53, , 17F
06/28 15:53, 17F
推
06/28 15:54, , 18F
06/28 15:54, 18F
推
06/28 15:54, , 19F
06/28 15:54, 19F
推
06/28 15:56, , 20F
06/28 15:56, 20F
推
06/28 15:56, , 21F
06/28 15:56, 21F
噓
06/28 15:57, , 22F
06/28 15:57, 22F
推
06/28 15:58, , 23F
06/28 15:58, 23F
工具是用來解決問題嘛
推
06/28 15:58, , 24F
06/28 15:58, 24F
推
06/28 15:58, , 25F
06/28 15:58, 25F
推
06/28 15:59, , 26F
06/28 15:59, 26F
直接問 google 收穫會比較多,我的老師是 google
推
06/28 16:02, , 27F
06/28 16:02, 27F
推
06/28 16:02, , 28F
06/28 16:02, 28F
推
06/28 16:03, , 29F
06/28 16:03, 29F
推
06/28 16:03, , 30F
06/28 16:03, 30F
推
06/28 16:04, , 31F
06/28 16:04, 31F
推
06/28 16:05, , 32F
06/28 16:05, 32F
推
06/28 16:05, , 33F
06/28 16:05, 33F
推
06/28 16:07, , 34F
06/28 16:07, 34F
推
06/28 16:10, , 35F
06/28 16:10, 35F
還有 354 則推文
還有 10 段內文
推
06/29 22:17, , 390F
06/29 22:17, 390F
推
06/29 22:19, , 391F
06/29 22:19, 391F
推
06/29 22:22, , 392F
06/29 22:22, 392F
推
06/29 22:34, , 393F
06/29 22:34, 393F
推
06/29 23:13, , 394F
06/29 23:13, 394F
推
06/29 23:18, , 395F
06/29 23:18, 395F
推
06/30 00:38, , 396F
06/30 00:38, 396F
推
06/30 01:42, , 397F
06/30 01:42, 397F
推
06/30 01:49, , 398F
06/30 01:49, 398F
推
06/30 02:12, , 399F
06/30 02:12, 399F
推
06/30 02:52, , 400F
06/30 02:52, 400F
推
06/30 03:29, , 401F
06/30 03:29, 401F
推
06/30 03:38, , 402F
06/30 03:38, 402F
推
06/30 03:40, , 403F
06/30 03:40, 403F
推
06/30 04:47, , 404F
06/30 04:47, 404F
推
06/30 09:39, , 405F
06/30 09:39, 405F
推
06/30 10:29, , 406F
06/30 10:29, 406F
推
06/30 11:53, , 407F
06/30 11:53, 407F
推
06/30 11:57, , 408F
06/30 11:57, 408F
推
06/30 13:00, , 409F
06/30 13:00, 409F
※ 編輯: Hokusai (24.196.69.180), 06/30/2016 13:35:43
推
06/30 14:10, , 410F
06/30 14:10, 410F
→
06/30 16:03, , 411F
06/30 16:03, 411F
推
06/30 17:20, , 412F
06/30 17:20, 412F
推
06/30 22:05, , 413F
06/30 22:05, 413F
推
07/01 01:04, , 414F
07/01 01:04, 414F
推
07/01 03:44, , 415F
07/01 03:44, 415F
推
07/01 17:37, , 416F
07/01 17:37, 416F
推
07/01 22:41, , 417F
07/01 22:41, 417F
推
07/01 22:50, , 418F
07/01 22:50, 418F
推
07/02 00:26, , 419F
07/02 00:26, 419F
推
07/03 08:26, , 420F
07/03 08:26, 420F
推
07/03 10:24, , 421F
07/03 10:24, 421F
推
07/04 23:16, , 422F
07/04 23:16, 422F
推
07/05 14:57, , 423F
07/05 14:57, 423F
推
07/05 20:19, , 424F
07/05 20:19, 424F
推
07/06 00:44, , 425F
07/06 00:44, 425F
推
07/16 14:03, , 426F
07/16 14:03, 426F
推
09/29 22:01, , 427F
09/29 22:01, 427F
→
06/29 16:53, , 428F
06/29 16:53, 428F
討論串 (同標題文章)