Re: [討論] Face ID將會有非常多不方便的地方
*修正一些語意不清還有錯誤
看到大家討論這東西就想到我在前公司任職時有參與產業轉型,
課程中要各事業體去收集並分析新產業的發展性與可能性。
小弟當時提出的就是一個含深度探測 結合 AR / VR 的裝置。
昨天看到影片的時候,就特別有感。
想到在當時把重心放在具備空間掃描的照相(錄影)機上...最後無疾而終
我絕對不會說都是 Google Project Tango害的!
來看看Apple如何巧妙地解決(規避)了一些問題。
1. 硬體限制
數年前紅外線光源、矩陣投影還有攝影機等模組不論是體積還是解析度都不夠理想
另外就是micro processor不夠強,當空間資訊太多的時候就會變得極慢。
上述元件無法整合的狀況下光靠現有的資源根本沒辦法讓這些元件互相溝通。
2. 演算法
這部分一直是個超大的門檻!
空間描繪如果沒有演算法輔助,很容易會出現黑洞(也就是破碎的空間)
出現非連續面的結果就是要再用人工補足。
市面上的3D掃描器為求精準,不論是白光還是雷射;最好要有定位點來協助。
再輔以演算法去把非連續面補齊,或者是重複掃描來描述空間。
我們詢問過相關產業,大多數都推薦要找東歐的工程師來幫忙,他們是佼佼者!
但前公司沒有相關背景的人才,就算合作了也是雞同鴨講。
3. 商業模式
這點也是最後沒繼續做下去的原因,到底要怎麼賣這產品。
是消費型電子,還是專業用途。
如果是消費型電子就必須要有足夠的行銷力還有很棒的產品外觀,但很難
如果是專業用途的確可以把各種條件設死,但老闆認為這商業規模不足以投資。
----------------- 好 廢話講完 來談談 iPhone X 的 FaceID ----------------
A. 僅限於手機正前方的用途
這點非常非常重要!因為這樣就可以很明確的制定硬體規格。
手機前方我們要辨識的物體距離最近不會低於10公分,最長不會超過手臂長度
所以紅外線攝影機功率,還有深度攝影機的解析度是可以被推估出來的
再者,要被測定的物體是人臉。所以需要多少參考點才能精確判斷也是能算出來的。
假設在手機前方的這個範圍內要能準確地把臉辨識出來只要三萬點。
那就不需要去建構要投射十萬個參考點的投影機。
三萬點要在0.1秒內(假設)辨識出來需要多少的計算力?
當空間模型與資料量都定下來之後,計算力不過就是一個很簡單的算術問題。
簡單的說,把使用環境設定在手機前方的人臉辨識,那這樣就不會有人靠夭:
解析度不足
辨識距離不夠遠
處理速度超慢
相當聰明的作法!
另外一點就是...他那個前鏡頭模組根本神!超小的體積,超猛的硬體規劃 OTZ
B. 用Machine Learning 讓演算法更強大
數年前我一直落入一個很難脫困的問題:
要做空間掃描,那這個掃描體如果不能設限的話,有沒有一種演算法可以通吃呢?
那如果做成像是相機的內建模式,要掃人臉、小物體、房間就切不同的模式呢?
當這樣想的時候產品就會死掉了,因為想做的太多,但真的可以做的只有一樣。
而且我當時也還沒有花時間去了解所謂的machine learning到底可以多強
很無知地認為應該要有很猛處理器,還要不斷地餵資料給機器才會變聰明。
直到阿法GO.......
Apple FaceID 之所以是個非常適合 Machine Learning的用途在於:
ㄅ. 學習的對象很單一,就是使用者的那張臉,不必多學太多東西
ㄆ. 學習的資料量絕對夠大,因為人一天要解鎖手機數十次
ㄇ. 初期學習的時間Apple已經先幫你節省下來了
ㄈ. 綜合以上幾項規範,那顆Binonic要設計成怎樣的架構就非常EEEEZ
C. 商業模式
這不必多談了,iPhone使用者的Base超大,所以量體絕對足以支撐這個產業
再者,Apple也知道這新玩具可能會有疑慮,所以還是有iPhone 8/8+。
簡單的說如果普羅大眾沒買單也可以說是賣信仰,但是老本行還是可以賣。
但如果不小心有人跳坑了,那就賺到啦!
D. 超強的軟硬體結合
蘋果這次連GPU都自己設計,更別說他們家的軟體工程師更是強大。
---------------- 再來談一下深度攝影機 --------------------
大家如果有注意到,其實這次iPhone 8+ 後相機還支援深度感測。
我認為他就是利用雙鏡頭的相位差來做距離偵測。
(詳細的作法讓專業人士去解答,這邊不限醜)
所以也只有iPhone 8+ 跟 X 雙鏡頭相機支援光源模式 :D
幾年前 iPhone #+ 的雙鏡頭我就一直很好奇為什麼不拿來做距離偵測?
這種視距差的測距演算已經非常成熟。不做偵測很可惜啊!
看完昨天的影片,我認為跟前面提到的『處理器』有很大的關係。
現在iPhone 8+ 跟 X 的測距模式僅限於人像然後做影像處理(也就是Portrait mode)
所以廣義來看也是屬於有限制性的用途,而且是Beta XXXD
前幾年的處理器應該是負擔不了,一旦開啟AR後整隻手機可能會比初代iPhone還慢。
也因此這次的A11整顆由APPLE包辦,這樣才能滿足使用需求
----------------- 補充一下深度攝影機用途 -----------------
如果從發表會各種AR遊戲的效果來推估,這深度攝影的範圍應該不小。
所以如果iPhone的SDK有開放的話,基本上以後iPhone 8+ / X 就能當3D掃描器。
雖然現在也可以靠手機拍攝數十張照片,後送到雲端幫你算出模型。
但是解析度受限、物體受限、演算法也是靠雲端計算力幫你處理。
但雙鏡頭就不同了,鏡頭焦距、間距是定值,加上四顆LED的光源可以做變化。
基本上要拿來做3D掃描器的硬體基礎都有了,剩下的就是看要怎麼搞而已。
而且解析度應該是可以接受的範圍。
不脫這兩種
1. 非即時性的需求:掃描的資料記錄之後丟回雲端計算
或者是把資料丟回自己的電腦運算
2. 即時性的需求就是直接CPU運算,但是不可能給出多精細的結果
但是至少有預覽的效果。
好啦說道這,我用了五年的iPhone 5,應該可以X了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.168.203.234
※ 文章網址: https://www.ptt.cc/bbs/iPhone/M.1505289422.A.0BB.html
推
09/13 16:02, , 1F
09/13 16:02, 1F
推
09/13 16:03, , 2F
09/13 16:03, 2F
推
09/13 16:04, , 3F
09/13 16:04, 3F
推
09/13 16:04, , 4F
09/13 16:04, 4F
推
09/13 16:04, , 5F
09/13 16:04, 5F
→
09/13 16:05, , 6F
09/13 16:05, 6F
這篇文我僅對FaceID做技術、市場跟趨勢發表心得。
我個人猜想 iPhone X 他就是打定主意要做四個角落都滿版的OLED。
如果刻意在上方弄一塊長條形,那麼他做圓邊框就真的成了脫褲子放屁...
最後一點就是我個人第八感直覺 X 應該賣得會比 8+ 還好
推
09/13 16:05, , 7F
09/13 16:05, 7F
推
09/13 16:05, , 8F
09/13 16:05, 8F
推
09/13 16:05, , 9F
09/13 16:05, 9F
→
09/13 16:05, , 10F
09/13 16:05, 10F
※ 編輯: snowanimal (118.168.203.234), 09/13/2017 16:10:29
推
09/13 16:09, , 11F
09/13 16:09, 11F
推
09/13 16:11, , 12F
09/13 16:11, 12F
推
09/13 16:11, , 13F
09/13 16:11, 13F
推
09/13 16:12, , 14F
09/13 16:12, 14F
推
09/13 16:12, , 15F
09/13 16:12, 15F
→
09/13 16:12, , 16F
09/13 16:12, 16F
推
09/13 16:13, , 17F
09/13 16:13, 17F
→
09/13 16:13, , 18F
09/13 16:13, 18F
→
09/13 16:17, , 19F
09/13 16:17, 19F
→
09/13 16:17, , 20F
09/13 16:17, 20F
→
09/13 16:18, , 21F
09/13 16:18, 21F
推
09/13 16:19, , 22F
09/13 16:19, 22F
→
09/13 16:21, , 23F
09/13 16:21, 23F
推
09/13 16:27, , 24F
09/13 16:27, 24F
→
09/13 16:28, , 25F
09/13 16:28, 25F
推
09/13 16:42, , 26F
09/13 16:42, 26F
→
09/13 16:46, , 27F
09/13 16:46, 27F
推
09/13 16:51, , 28F
09/13 16:51, 28F
推
09/13 16:51, , 29F
09/13 16:51, 29F
推
09/13 16:57, , 30F
09/13 16:57, 30F
→
09/13 16:57, , 31F
09/13 16:57, 31F
→
09/13 16:59, , 32F
09/13 16:59, 32F
→
09/13 17:08, , 33F
09/13 17:08, 33F
推
09/13 17:14, , 34F
09/13 17:14, 34F
推
09/13 17:21, , 35F
09/13 17:21, 35F
→
09/13 17:21, , 36F
09/13 17:21, 36F
推
09/13 17:45, , 37F
09/13 17:45, 37F
推
09/13 17:53, , 38F
09/13 17:53, 38F
推
09/13 17:54, , 39F
09/13 17:54, 39F
→
09/13 17:55, , 40F
09/13 17:55, 40F
→
09/13 17:57, , 41F
09/13 17:57, 41F
推
09/13 17:59, , 42F
09/13 17:59, 42F
→
09/13 18:02, , 43F
09/13 18:02, 43F
推
09/13 18:05, , 44F
09/13 18:05, 44F
→
09/13 18:05, , 45F
09/13 18:05, 45F
→
09/13 18:06, , 46F
09/13 18:06, 46F
推
09/13 18:06, , 47F
09/13 18:06, 47F
→
09/13 18:07, , 48F
09/13 18:07, 48F
→
09/13 18:08, , 49F
09/13 18:08, 49F
→
09/13 18:10, , 50F
09/13 18:10, 50F
→
09/13 18:11, , 51F
09/13 18:11, 51F
→
09/13 18:12, , 52F
09/13 18:12, 52F
→
09/13 18:12, , 53F
09/13 18:12, 53F
→
09/13 18:24, , 54F
09/13 18:24, 54F
推
09/13 18:24, , 55F
09/13 18:24, 55F
→
09/13 18:24, , 56F
09/13 18:24, 56F
→
09/13 18:28, , 57F
09/13 18:28, 57F
→
09/13 18:29, , 58F
09/13 18:29, 58F
推
09/13 18:31, , 59F
09/13 18:31, 59F
→
09/13 18:39, , 60F
09/13 18:39, 60F
→
09/13 18:39, , 61F
09/13 18:39, 61F
→
09/13 18:40, , 62F
09/13 18:40, 62F
→
09/13 18:41, , 63F
09/13 18:41, 63F
→
09/13 18:42, , 64F
09/13 18:42, 64F
推
09/13 18:47, , 65F
09/13 18:47, 65F
推
09/13 18:54, , 66F
09/13 18:54, 66F
推
09/13 20:52, , 67F
09/13 20:52, 67F
推
09/13 21:20, , 68F
09/13 21:20, 68F
推
09/13 21:35, , 69F
09/13 21:35, 69F
推
09/13 22:06, , 70F
09/13 22:06, 70F
推
09/13 22:57, , 71F
09/13 22:57, 71F
推
09/13 23:27, , 72F
09/13 23:27, 72F
→
09/13 23:27, , 73F
09/13 23:27, 73F
推
09/13 23:32, , 74F
09/13 23:32, 74F
Hi 是的,我的確外行。很抱歉造成誤會
推
09/13 23:37, , 75F
09/13 23:37, 75F
推
09/14 00:11, , 76F
09/14 00:11, 76F
→
09/14 11:37, , 77F
09/14 11:37, 77F
→
09/14 11:37, , 78F
09/14 11:37, 78F
7+的相機沒有 depth 感測模組...
看了WWDC 2017的介紹,他那個是用雙鏡頭(類似人眼)視差然後利用三角演算。
然後WWDC 2017提到APPLE有API可以把深度資訊存起來讓你做其他事情。
簡單的說把深度資訊傳到後台(雲端)去做加工,
而且API提供 16bit跟32bit兩種資料格式,分別是要給GPU跟CPU使用...
就如同我前面提到的為什麼雙鏡頭不用視距差來做距離偵測。
原文如下"
"The iPhone 7 dual carama is not a time of flight carema, instead it is a
disparity based system"
https://www.youtube.com/watch?v=kbsDyTf7k2I&t=7m10s
至於我提到的處理器問題推論理由是:
1. 相機的畫數很高 (12MP)。簡單的說就是一張圖就是要對12MP做距離運算。
因此對於靜態的照片來說,要呈現深度不難。
但對於攝影,或者是開著預覽模式一直掃,這很吃處理器運算能力。
2. 在當時所謂的AR/VR 看屋都是處理過後才丟到手機給你看。
即時影像的解析度都嘛降到很低,不然裝置都會很燙很卡
3. 對於對比太小(如一面牆)的東西,視距幾乎是得不到空間資訊。
現實生活中的確會有這種狀況,人能分辨是因為大腦幫你把資訊補起來
但對於機器來說就是個洞,所以API還根據周圍環境幫你補洞。
這些東西要即時處理,還是很吃處理器運算能力
推
09/14 16:14, , 79F
09/14 16:14, 79F
→
09/14 16:48, , 80F
09/14 16:48, 80F
→
09/14 16:53, , 81F
09/14 16:53, 81F
推
09/15 02:01, , 82F
09/15 02:01, 82F
→
09/17 19:44, , 83F
09/17 19:44, 83F
如果我的資料沒錯,Sony用的是單鏡頭模式:
https://www.youtube.com/watch?&v=VzLkjZnIeuQ
單鏡頭當然也能做3D掃描,大概的原理如下:
1. 初始參考點,所以你可以看到要掃人臉要先找到耳朵之類的
2. 利用陀螺儀跟加速儀導引你往哪個定點拍照(下一個參考點)
3. 然後利用鄰近參考點做"視距運算"幫你把空間資訊描繪起來
4. 正因為是單鏡頭,所以他在掃描不同類型的東西時要用不同的"模式"
簡單的說就是套用不同的演算法啦,不然你讓機器直接掃看看會出甚麼事情...
跟主動式的深度攝影機,差很多
※ 編輯: snowanimal (118.168.200.108), 09/19/2017 10:45:39
討論串 (同標題文章)
完整討論串 (本文為第 2 之 6 篇):