Re: [情報] 蘋果新的照片審查機制

看板iOS作者 (ㄅㄧ)時間2年前 (2021/08/08 23:40), 2年前編輯推噓58(624142)
留言208則, 66人參與, 2年前最新討論串2/3 (看更多)
原文恕刪 因為覺得兒童色情及用戶隱私是相當重要的議題,但使用者對於其技術的誤解容易造成議 題失焦,所以希望透過這篇回文拋磚引玉吸引更多人的討論,也懇請各位大神對於我說錯 的地方不吝指教QQ。 在討論運作方式前,先來看看幾個技術文件提到的大前提XD 1. 蘋果不會知道任何 unmatched 照片的任何資訊。 2. 除非到達一定的閥值,蘋果不會取得任何 matched 照片的 metadata 或視覺資訊。 3. 系統誤判的機率非常的低(文件下方說誤判帳號的機率是一兆分之一),且每個被點 名的嫌疑帳號都會被人工審核後才回報給 NCMEC。 首先,先從官方的技術文件來了解系統的大致的運作方式。蘋果並不是單純的用 AI 影像辨識的方式偵測,而是在先本機取得圖片的 NeuralHash 值後跟資料庫中已知 的雜湊值比對,且比對的動作是在本機執行。比對的結果也會經過加密後才上傳到 iCloud,故在解密之前連蘋果也不知道比對的結果與內容,要直到達到一定的閥值後蘋果 才會將 matched 的照片解密並將帳戶回報給 NCMEC。其步驟可以參考下方圖片。 https://imgur.com/Cwn2828
那麼,這個做法跟單純的 AI 影像辨識究竟有何不同?有人會誤以為蘋果是運用大量的兒 童色情圖片訓練出一個分類模型來判斷照片是否屬於兒童色情。然而,蘋果並不是用這樣 的方式來判斷圖片「像不像」兒童色情,其技術中的神經網路只是用來提取圖片的特徵值 (描述符 descriptor),特徵值經過雜湊後再與「已知的」非法圖片進行比對,而匹配與 否是看有無與已知的圖片「近乎相同」(nearly identical)。所以它的概念比較 類似以圖搜圖,而不是 google 相簿的場景/人物辨識。故重點在於已知的資料庫內容 ,理論上要明確被列入資料庫的非法照片才有可能 match。 至於到底什麼樣的照片叫做「近乎相同」?根據蘋果的技術文件,原始圖片即使 經過輕度的裁切、變形、灰階化、改變解析度,甚至轉檔,都會被視為與原圖近乎相同 ,換句話說,修改後的圖片會與原圖產生相同或相似的雜湊值。下圖即是技術文件內 的例子。 https://imgur.com/nRmh7z5
但是,即便兩張圖片視覺上看起來相同,它們依舊是不同的兩張圖片,怎麼會產生相同或 相似的雜湊值?這有兩個關鍵的地方,其一是提取圖片描述符(descriptor)所使用的神經 網路。從文件可以得知,蘋果使用自監督學習(self-supervised training)的方式來訓練 模型。模型的 input data 非常簡單,共有兩種組合,第一種是由原圖與稍微修改的原圖 形成的組合(original/perturbed pair);第二種是由原圖以及一張與原圖不相同的圖片 形成的組合(original/distractor pair)。而模型的目標是遇到相似的圖片組合時產生相 似的描述符,反之在遇到不相似的圖片組合時要產生不同的描述符。總之,這個神經網路 被訓練成在遇到近乎相似的圖片時會產生相似的描述符。 然而,有相似的描述符還不夠,第二個關鍵是取得描述符後會使用 LSH (Locality- sensitive hashing) 算法進行雜湊,這部分請參考此篇 #1X3huscy (MobileComm) , 簡單來說相似的輸入值會有高機率被 hash 到相同的 bucket,這就是為什麼近乎相同的 圖片會產生相同的 NeuralHash。 以下是幾個我覺得很有趣問題,也附上我的看法,如有說錯請大大多多指教 Q1: 蘋果要怎麼判斷照片是未成年的?如果自拍小 GG 會不會被誤判? A1: 如第一段所述,蘋果並不是用 AI 來判斷圖片「像不像」未成年,所以圖片看起來像 不像未成年並不重要,重要的是有無與資料庫匹配。 Q2: 家長拍攝自家小孩的照片會不會被誤判持有兒童色情? A2: 其判斷的重點在於已知的資料庫內容,除非家長拍的照片被列入資料庫,不然理論上 不會因此誤判。 Q3: 那麼二次元的部分呢? A2: 如同Q2,除非哪天 NCMEC 把二次元視為兒童色情並將圖片列入資料庫中,不然不會 因此誤判。 Q4: 廢話這麼多?所以蘋果到底有沒有掃描且看過我的相簿? A4: Well..yes, but actually no。蘋果確實在「本機」掃描了圖片,但是掃描得到的描 述符、NeuralHash,與判斷結果都會以加密的方式上傳到 iCloud,所以除非是超過閥值 而被解密的照片,不然蘋果不會知道任何 unmatched 圖片的 metadata 或視覺上的訊, 也就是說,蘋果並沒有「看過」你的照片。 Q5: 這樣看來蘋果有解密照片的能力,那加密不就是唬爛的嗎? A5: 該加密技術是採用 PSI 加密協議(原理好複雜我也還沒完全看懂XD),但就我的理 解,蘋果解密圖片需要兩把鑰匙,其中一把鑰匙為伺服器持有,而另一把在本機計算 NeuralHash 時產生,然而,本機所產生的鑰匙只有在圖片 matched 時才是有效的鑰匙, 換句話說,圖片在 unmatched 的情況下本機產生的鑰匙是無效的,所以蘋果沒辦法單方 面解密照片。 總結來說,我覺得蘋果這個做法在保護未成年的部分是立意良善,也儘可能做到維護使用 者的隱私,但仍有幾個需要探討的點: 1. 蘋果如何保證這個機制只會用來偵測兒童色情?這整個機制最重要的部分就是資料庫 的內容,只要放入資料庫的照片就能夠被偵測到。也就是說,如果有政府單位或是其他組 織要求在資料庫放入其他照片,那麼這個機制便可能淪為政府內容審查的工具,蘋果要如 何保證這點? 2. 繼然被點名的帳戶會經過蘋果的人工審查,那麼蘋果是否會保證審查人員的心理健康 ?且人工審核時審查人員是否知道照片與帳戶持有人之間的關聯? 3. 所有機制都會有誤判的時候,那麼遇到 false positive 時會如何處理? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.38.86.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/iOS/M.1628437206.A.F94.html

08/08 23:43, 2年前 , 1F
第一次發長文,排版有點混亂,敬請見諒QQ
08/08 23:43, 1F

08/09 00:17, 2年前 , 2F
推一個
08/09 00:17, 2F

08/09 00:17, 2年前 , 3F
先推推再看
08/09 00:17, 3F

08/09 00:21, 2年前 , 4F
08/09 00:21, 4F

08/09 00:24, 2年前 , 5F
08/09 00:24, 5F

08/09 00:25, 2年前 , 6F
08/09 00:25, 6F

08/09 00:50, 2年前 , 7F
Reddit 有在討論蘋果這做法確實是掃瞄 iPhone 本機的圖片
08/09 00:50, 7F

08/09 00:50, 2年前 , 8F
,這跟蘋果是不是真的「看過」是兩個問題。有看法認為今天
08/09 00:50, 8F

08/09 00:50, 2年前 , 9F
你蘋果可以因為美國法案而監控使用者手機內的內容,那蘋果
08/09 00:50, 9F

08/09 00:50, 2年前 , 10F
以往強調的 Privacy 將成為笑話。加上蘋果說會依不同國家
08/09 00:50, 10F

08/09 00:50, 2年前 , 11F
的法律規定來調整做法,那在中國會發生什麼事情?
08/09 00:50, 11F

08/09 01:02, 2年前 , 12F
專業推
08/09 01:02, 12F

08/09 01:03, 2年前 , 13F
專業推,不過覺得兒童色情監管已經整個歪掉了
08/09 01:03, 13F

08/09 01:04, 2年前 , 14F
本來是立意良善,現在是扣個帽子就直接吃光你人權
08/09 01:04, 14F

08/09 01:28, 2年前 , 15F
跟台灣有關係嗎?
08/09 01:28, 15F

08/09 01:29, 2年前 , 16F
也是覺得為了極少數犯罪者監控全使用者不妥
08/09 01:29, 16F

08/09 01:40, 2年前 , 17F
專業推,我覺得這個技術好神奇喔,
08/09 01:40, 17F

08/09 01:40, 2年前 , 18F
經過後製的圖片Hash值還能跟原本的相同
08/09 01:40, 18F

08/09 01:40, 2年前 , 19F
而且完全不經手AI,無法想像
08/09 01:40, 19F

08/09 02:08, 2年前 , 20F
推 專業
08/09 02:08, 20F

08/09 02:32, 2年前 , 21F
純噓蘋果自己號稱最保障客戶隱私卻自打臉
08/09 02:32, 21F

08/09 02:41, 2年前 , 22F
專業推,不過變態犯罪根本不會因為有審查就能減少
08/09 02:41, 22F

08/09 02:56, 2年前 , 23F
08/09 02:56, 23F

08/09 02:58, 2年前 , 24F
還在噓蘋果保護隱私的只能說偉哉
08/09 02:58, 24F

08/09 03:26, 2年前 , 25F
樓上這麼不介意建議以後你家門都不要關,攘別人有事沒事
08/09 03:26, 25F

08/09 03:26, 2年前 , 26F
都進去檢查不用搜索令
08/09 03:26, 26F

08/09 04:45, 2年前 , 27F
我有疑問,你雖然說是用已知資料去做特徵值比對,但這樣
08/09 04:45, 27F

08/09 04:45, 2年前 , 28F
已知資料裡面還不是一樣要有兒童色情圖片才行嗎?沒有一
08/09 04:45, 28F

08/09 04:45, 2年前 , 29F
開始的兒童色情圖片,要怎麼繼續抓出後續的資料?結果不
08/09 04:45, 29F

08/09 04:45, 2年前 , 30F
是跟原本一樣,只是換個說法。
08/09 04:45, 30F
對你說的沒錯,資料庫裡面當然有兒童色情圖片,不然就無法做比對XD。但我想強調的是 ,資料庫的圖片並不是用來訓練影像辨識模型,因為有些人會誤以為蘋果是拿兒童照片訓 練出一個分類模型,但實際上資料庫的作用並非如此。另外你提到要如何抓出後續的資料 ,這其實就是這個機制的盲點之一,如果該照片是尚未被列入資料庫的「第一手照片」, 那麼這個機制就無法偵測到它,這點只能等NCMEC或其他組織找出更多兒童受害的資訊, 並將它列入資料庫中。

08/09 04:45, 2年前 , 31F
二來是,你說用特徵值比對,但google搜尋除非有一樣的圖
08/09 04:45, 31F

08/09 04:45, 2年前 , 32F
片,基本上搜尋的圖片常常出入很大,而大家的照片又不可
08/09 04:45, 32F

08/09 04:45, 2年前 , 33F
能一樣,你說這樣失誤率會很低,我抱持的疑問?
08/09 04:45, 33F
我用以圖搜圖這個詞主要是想強調用已知的圖片去比對的概念,並不是說它的效果像是 以圖搜圖一樣會吐一個出入很大的搜尋結果。所以就像你說的,除非圖片真的近乎相同, 要比對成功的機會很低。

08/09 04:45, 2年前 , 34F
同上,如果失誤的時候,一樣還不是要人工審核,這樣不就
08/09 04:45, 34F

08/09 04:45, 2年前 , 35F
一樣侵犯了隱私?
08/09 04:45, 35F
的確目前似乎還沒有看到蘋果說明人工審核的詳細運作方式,這是需要注意的點。

08/09 04:45, 2年前 , 36F
基本上,不管再怎樣強調沒有主動去瀏覽,但監控跟有能力
08/09 04:45, 36F
還有 132 則推文
還有 9 段內文
08/09 22:54, 2年前 , 169F
疑犯,沒有理由把儲存在線上空間的資料給人看,誰決定
08/09 22:54, 169F

08/09 22:54, 2年前 , 170F
資料庫特徵碼就不算隱私的一部份。這種搜索是有罪推論
08/09 22:54, 170F

08/09 22:54, 2年前 , 171F
的,使用者必須開放自己空間的特徵碼證明自己「無罪」
08/09 22:54, 171F

08/10 01:02, 2年前 , 172F
台灣應該馬上會跟進了.
08/10 01:02, 172F

08/10 10:15, 2年前 , 173F
08/10 10:15, 173F

08/10 10:53, 2年前 , 174F
中國:Interesting
08/10 10:53, 174F

08/10 12:47, 2年前 , 175F
閾值啦 幹
08/10 12:47, 175F

08/10 20:52, 2年前 , 176F
中國:樂觀其成,感謝蘋果
08/10 20:52, 176F

08/10 21:26, 2年前 , 177F
美國政府使用兒童色情的名義擴權早已行之有年
08/10 21:26, 177F

08/10 21:26, 2年前 , 178F
現在是比對已建檔的兒童色情影音
08/10 21:26, 178F

08/10 21:26, 2年前 , 179F
但在技術跟程序上,有什麼能阻止/避免政府or蘋果拿其他
08/10 21:26, 179F

08/10 21:26, 2年前 , 180F
任意項目的影音來做比對,以得知用戶有沒有持有任意圖片
08/10 21:26, 180F

08/10 21:26, 2年前 , 181F
08/10 21:26, 181F

08/10 21:26, 2年前 , 182F
eg:中國政府比對找出持有64坦克人照片的用戶
08/10 21:26, 182F

08/10 21:26, 2年前 , 183F
先打預防針 我堅決反對兒童色情
08/10 21:26, 183F

08/10 21:28, 2年前 , 184F
另外,github上已經有人實作了可以產生相同neural hash
08/10 21:28, 184F

08/10 21:28, 2年前 , 185F
的方式 雖然不知道蘋果的實際implementation,但顯然誤
08/10 21:28, 185F

08/10 21:28, 2年前 , 186F
判絕對是會發生
08/10 21:28, 186F

08/10 21:33, 2年前 , 187F
補推
08/10 21:33, 187F

08/10 21:39, 2年前 , 188F
補補
08/10 21:39, 188F

08/10 22:20, 2年前 , 189F
這年頭你總是要把資料交給某家公司的 除非你什麼都自己架
08/10 22:20, 189F

08/10 22:21, 2年前 , 190F
差別只在你交給誰了 google也對gmail, google pay的交易內
08/10 22:21, 190F

08/10 22:21, 2年前 , 191F
容掃描阿 美其名都立意良善 真的要絕對隱私 請自己做手機
08/10 22:21, 191F

08/11 00:33, 2年前 , 192F
推推~~~是既然唷~
08/11 00:33, 192F

08/11 06:27, 2年前 , 193F
看起來不是拿圖片binary去hash 是經過一些簡單的NN
08/11 06:27, 193F

08/11 06:27, 2年前 , 194F
得到feature去跟資料庫裡的比對,這些feature 對人
08/11 06:27, 194F

08/11 06:27, 2年前 , 195F
來說就是一堆數字而已沒什麼意義,所以應該不能算看
08/11 06:27, 195F

08/11 06:27, 2年前 , 196F
過,而當feature跟資料庫裡的非常相似時才會上傳照
08/11 06:27, 196F

08/11 06:27, 2年前 , 197F
片得到原始圖檔 以上只是猜想
08/11 06:27, 197F

08/12 17:08, 2年前 , 198F
能被拿來做比對就不能算無意義的數字,用戶空間內任何
08/12 17:08, 198F

08/12 17:08, 2年前 , 199F
一段數據包含客戶刪除檔案的碎片都應屬於個人資產
08/12 17:08, 199F

08/12 18:13, 2年前 , 200F
不管你轉了幾層 你先假設所有使用者是罪犯 利用使用者
08/12 18:13, 200F

08/12 18:13, 2年前 , 201F
本身的資源去做運算怎麼想都有問題 更別說會有誤判需
08/12 18:13, 201F

08/12 18:13, 2年前 , 202F
要人工介入部分 憑什麼我沒犯法的照片因為你的誤判就
08/12 18:13, 202F

08/12 18:13, 2年前 , 203F
給你看?
08/12 18:13, 203F

08/12 20:28, 2年前 , 204F
蘋果就是假定所有人都有嫌疑才會去把照片跟資料庫掃
08/12 20:28, 204F

08/12 20:28, 2年前 , 205F
描阿!這點就站不住腳了
08/12 20:28, 205F

08/14 13:22, 2年前 , 206F
為了防止兒童色情一個公司可以看東西
08/14 13:22, 206F

08/14 13:23, 2年前 , 207F
那政府為了維穩可不可以隨意搜索你家呢?
08/14 13:23, 207F

08/14 23:39, 2年前 , 208F
好文推!
08/14 23:39, 208F
文章代碼(AID): #1X3_hM-K (iOS)
文章代碼(AID): #1X3_hM-K (iOS)