Re: [新聞] 蘋果將偵測兒童色情影像 用戶上傳iCloud就舉報

看板MobileComm作者 (pupu)時間2年前 (2021/08/09 00:26), 2年前編輯推噓5(507)
留言12則, 7人參與, 2年前最新討論串8/8 (看更多)
※ 引述《s25g5d4 (function(){})()》之銘言: : : - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複 : : 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值 : : 為了要避免他們儲存太多重複的檔案 : : 有兩個用戶上傳一樣hash的檔案可以只存一份就好 : : (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間) 六七年前在讀研究所的時候,因為主題是影像分析比對,所以有找了許多論文 我就看過幾篇google 發表的論文 透過快速比對 hash 值來快速搜尋圖片 論文中就提到他們把 原先比較距離使用的 兩個值相減平方 這類的概念 直接改成把所有資料簡化成0與1 利用 OR XOR 的方法 來高速比對 當然 論文中並沒有提到 google 是如何對圖片做hash的 或是 用什麼方法取特徵點的 但我不認為 那個hash 是單純用來比較檔案完整性的那種,一定還保留了一定程度的圖片特徵 資訊 例如我在實驗用的廠景資料庫中,就是儲存把圖片處理過的特徵點資訊 我們在研究的 就是找訓更高效率的特徵點比較方式或是更精準更有效的擷取特徵點 : 用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同 : 我覺得蘋果不會做這種智障系統,否則這系統根本沒用 : 所以去翻了一下相關文件 : https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf : 看起來是用蘋果自己開發的新演算法 NeuralHash : 看名字就知道一定跟神經網路有關 : 大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵 : 最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值 : LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化 : 以避免相似的資料產生一樣的 hash : LSH 則否,越相似的資料產生相同 hash 的機率越高 : 以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash : 是很厲害的技術 這大概是我前面說的那個吧 反正我當時沒找到相關論文,論文說用了xx hash計算 再轉化成32位二進位資料 ,但我相信GOOGLE也有自己的一套方法,有效率的擷取每張圖片的特徵資訊 我認為 這類技術對google來說並不難,他們在搜尋引擎上本來就有以圖搜圖的功能 而運用在雲端儲存功能來說可能更為輕鬆,他們甚至可以把每張圖片的預處理工作 讓各位的手機/電腦 幫你算好一定程度的資料,google 只需要去做比對即可 再說了 google 都可以幫你把照片中的 人物/場景 標記出來 或是自動幫你把多張照片合成一張環景圖 順手檢查一下 幼女什麼的 沒啥難度吧 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.99.235 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/MobileComm/M.1628439964.A.B9D.html

08/09 01:26, 2年前 , 1F
用hash判讀你覺得有可能?相當於解hash^-1再丟AI
08/09 01:26, 1F
我前面就說了 google 所使用的hash 並不是 我們通常使用只是用來比對檔案相同性的 而是一種 用來擷取圖片特徵資訊的演算法,在雜湊的過程中 保留了圖片比對所需的資訊 只是我看到的論文 只介紹了 hash過後 如何大幅度加快比對速度,並沒有說明hash 的 細節 至於效果google都已經展示給你看了

08/09 07:24, 2年前 , 2F
對啊。總之就是會侵犯隱私嘛,應該可以有其他方法
08/09 07:24, 2F

08/09 07:24, 2年前 , 3F
08/09 07:24, 3F

08/09 08:57, 2年前 , 4F
youtube 都有辦法推薦你類似影片了,何況圖片?
08/09 08:57, 4F

08/09 09:16, 2年前 , 5F
yt推薦影片是因為你點過類似影片啊,你是有看過你D
08/09 09:16, 5F

08/09 09:17, 2年前 , 6F
槽的影片被yt推薦過嗎
08/09 09:17, 6F

08/09 09:58, 2年前 , 7F
一樓這不是傳統的hash上..而是神經網路吐出來的embe
08/09 09:58, 7F

08/09 09:58, 2年前 , 8F
dding
08/09 09:58, 8F
※ 編輯: pupuliao (220.133.208.141 臺灣), 08/09/2021 10:38:35

08/09 11:58, 2年前 , 9F
google圖搜有時候不好用,要用yandex才可以找到…
08/09 11:58, 9F

08/09 16:48, 2年前 , 10F
08/09 16:48, 10F

08/09 21:42, 2年前 , 11F
不是傳統高強度hash很容就能破解吧,相當於資料外洩
08/09 21:42, 11F

08/10 10:14, 2年前 , 12F
08/10 10:14, 12F
文章代碼(AID): #1X40MSkT (MobileComm)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 8 之 8 篇):
文章代碼(AID): #1X40MSkT (MobileComm)