[自介] 語音相關背景而想嘗試創業的人

看板toberich作者 (...)時間12年前 (2011/10/13 03:33), 編輯推噓7(7068)
留言75則, 6人參與, 最新討論串1/5 (看更多)
各位好,初來這個版發現這裡臥虎藏龍 所以想來這裡分享一些發展語音辨識/語音合成相關產業的想法 目前IPhone、Google、Vlingo已經有算成熟的語音協助軟體 除了Vlingo有支援簡體中文外,其餘服務還沒有中文版 另外,這些軟體的服務還是以個人化應用為主(語音查詢、語音簡訊、行事曆) 並沒有以商家為主的應用(如發展客制化的語音客服系統) 我想,將語音嵌入各種個人化應用以外的服務以目前來看是很好的機會 且目前中文語音辨認在這三家公司的發展上還算非常薄弱 地域性的中文語音服務功能在目前來看也許是一個很好的切入時機 之所以會有以中文語音切入市場的想法 主要是因為英文等其他語言的語音市場看起來即將被那幾個大廠獨佔了 只有中文這一塊看起來還有一些發展的空間 另外,文化和語言的區隔讓一些客制化服務變得較有發展的可能 當然有人可能會覺得,以過去一些語音詢問系統失敗的例子 (如x華電信之前推出的語音客服系統) 不禁會懷疑語音服務真的發展得起來嗎?使用者不會為那些笨拙的機器回答感到厭煩嗎? 但我想目前是發展語音服務較好的切入時間點 理由有以下幾點: 1. 智慧型手機/平版電腦/3G網路的崛起 以往那種只能靠打電話到客服中心的時代過去了 當語音查詢發生在網頁介面時,那些討人厭的「等候語音回報」的過程消失了 就算有再多的資訊要回報給使用者,不用像以往必須用破爛的語音合成逐字念稿 尤其是那些不重要的資訊(重聽請按一,確認請按二,轉接客服請按九) 在當初是徹底毀滅了語音應用的可能性 以目前平版、智慧型手機行動上網的普及度來說 語音查詢變得可以隨時隨地,且不需要老是用很多步驟尋找商家網頁 並在五花八門的網頁裡找尋那個隱藏在莫名其妙地方的按鈕 (譬如有時想找個營業時間還不見得找得到) 2. 語音辨認技術/語意擷取技術逐漸成熟 這裡說的「成熟」並不是指已經成熟到能達到「機械公敵」那樣的境界 而是指在「資訊查詢」這個角度上,以現在的技術一定可以做得到 而且並不如想像中的困難 (除了詢問商品種類、規格、商家資訊、服務據點、服務時間及內容、人才招募外 一般人還會想對一個企業問些什麼?) 如果能讓商家擁有自己的語音查詢系統 並依企業型態及需求設計出各種語音查詢環境及回應方式 我想語音查詢服務可以是一個企業入口網站的好用介面 3. 提供客制化服務 對一個企業/政府網站來說,網站所提供的每一項資訊都很重要 (不重要就不會擺上網頁了) 也因此造成各個企業網站通常摻雜了太多的連結、動畫及隱藏在眾連結下的資訊 但是對於使用者來說,除了使用者想知道的資訊外,其他資訊都不重要 譬如我們想找某分店的營業時間、訂位資訊 通常會先上官網、點選「門市資訊」、找到分店地址(有些時候還真不知道地址) 幸運的話在地址上方就有門市電話,然後打到門市詢問 用語音的話,直接在語音應用程式介面說 「想查新竹陶x屋訂位資訊」,然後介面呈現的是新竹各分店訂位狀況 似乎比起在網頁上逐一點選有效率許多 如果有一個語音服務系統能夠集結各類店家資訊 並且針對不同店家的語音服務需求,設計各種語境上的語音、網頁等回應 模擬線上客服系統,又不需打字或點選各種按鈕、各種連結 語音服務似乎會是另一個不錯的選擇 能否客制化是一個重點,以apple/google等語音搜尋方式所找到的資訊 這些終究是由網頁搜尋而來的,不一定是最重要或最即時的資訊 商家就算想提供使用者更多資訊也沒有辦法,除非商家與google直接簽合約 但客制化語音查詢系統可以做到的,就是提供一些可供企業調整的互動模式 在某些規格化的互動語境下提供客制化的回應 (譬如同樣問有無職缺,不同公司可以選擇以不同方式呈現) 免去客戶老是必須找電話、打電話詢問的過程 我想語音服務應該可以成為將來產業服務的另一種趨勢 雖然有人會說,以上各種服務都可以用網頁搭配搜尋做到 但一般網頁為了把商家各種資訊擺上,通常都被設計成很多層的選單模式 使用語音之後,那些複雜的多層次選單,可以只靠簡單的語音指令直接略過 直接得到所需的資訊 有人會說,其實把每個網頁都外掛站內搜尋引擎就好 但對於使用手持裝置的人來說,與其在點選搜尋引擎、想關鍵字上花費力氣 不如直接點選那些選單來得方便(雖然有時需要一點運氣) 如果能在語音服務上提供規格化+客制化的互動模式 那所有查詢就變得直覺多了 第一次發文又是大半夜的,如果有不周全或者太過妄想的成分 還請各位多包涵 也希望大家能為這個想法提供一些改進的建議 至於中文語音辨認技術上的問題、語意擷取的問題 我想以現階段的中文語音辨認及文件分析技術大約能解決七成問題 剩下的就是投入更多專業能力和時間的問題了 謝謝大家! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.116.222.22 ※ 編輯: jerk2 來自: 122.116.222.22 (10/13 04:05)

10/13 07:53, , 1F
如果您有這方面的技術 我倒是有東西想委託開發說~ ^^
10/13 07:53, 1F

10/13 10:12, , 2F
我只有這個技術的雛形,有基本的單字、短句辨認能力
10/13 10:12, 2F

10/13 10:13, , 3F
我的程式能力不像各位程式高手那樣強,對於網頁開發、平台等
10/13 10:13, 3F

10/13 10:14, , 4F
是不太行的,但對語音所需要的數學基礎和演算法多少瞭解一些
10/13 10:14, 4F

10/13 10:50, , 5F
我認為要成熟還有一段不短的距離..
10/13 10:50, 5F

10/13 10:52, , 6F
我手上有個已經商品化的電路.不用os的
10/13 10:52, 6F

10/13 11:16, , 7F
TTS的價值可能比較大。單單輸入控制用的辨識已有太多了
10/13 11:16, 7F

10/13 11:40, , 8F
這個應用已經不只是控制,而是後端的服務
10/13 11:40, 8F

10/13 11:41, , 9F
目前辨識電路能做的差不多就是關鍵字,頂多簡單的文法
10/13 11:41, 9F

10/13 11:42, , 10F
且電路很難依據客戶需求隨時調整,難道要為每個企業單獨設計
10/13 11:42, 10F

10/13 11:42, , 11F
一套辨識流程嗎?
10/13 11:42, 11F

10/13 11:44, , 12F
有些事不是光控制就能解決的,語意解析和人性化回應也很重要
10/13 11:44, 12F

10/13 12:10, , 13F
所以就是TTS不是嗎。
10/13 12:10, 13F

10/13 12:11, , 14F
Do Information Audible需要的技術突破更大價值也更大。
10/13 12:11, 14F

10/13 12:13, , 15F
Use Case: Information use in hands-busy ~ eyes-busy
10/13 12:13, 15F

10/13 12:13, , 16F
的狀況。 因為資訊都得read。靠的是眼睛。
10/13 12:13, 16F

10/13 12:14, , 17F
Voice Recognition / Voice Synthesis / Text-to-speech
10/13 12:14, 17F

10/13 12:15, , 18F
我說的是recognition的進入障礙比較多。技術可得性比較
10/13 12:15, 18F

10/13 12:16, , 19F
高的問題。如果只是電話語音系統的雲端化。得看看成本
10/13 12:16, 19F

10/13 12:16, , 20F
效益比是否比現有的建置方法便宜。價格更具競爭力。
10/13 12:16, 20F

10/13 12:17, , 21F
Big O會是問題。當雲端化後、你需要的計算能力跟request
10/13 12:17, 21F

10/13 12:17, , 22F
幾乎成平方比。
10/13 12:17, 22F

10/13 12:19, , 23F
人性化回應不見得一定要用TTS,初期甚至只要能跳出正確的
10/13 12:19, 23F

10/13 12:20, , 24F
除非到達一個breaking point。有了網路外部性的特質。
10/13 12:20, 24F

10/13 12:20, , 25F
文字或網頁頁面就好。語音辨識雲端化是必須做的事情,初期
10/13 12:20, 25F

10/13 12:20, , 26F
你需要的不只是有能力coding的partner。還得有可以設計
10/13 12:20, 26F

10/13 12:21, , 27F
可以只辨認關鍵字,運算量會小非常多。它取代的不是鍵盤
10/13 12:21, 27F

10/13 12:21, , 28F
計算架構的人。當然實作語音辨識相關軟體的人也需要。
10/13 12:21, 28F

10/13 12:21, , 29F
加上machine learning。以及UX design。
10/13 12:21, 29F

10/13 12:21, , 30F
取代的也不是觸控,而是省略繁瑣點選步驟的過程
10/13 12:21, 30F

10/13 12:22, , 31F
所有的產業背後當然都有困難的進入門檻,太容易就大家都能做
10/13 12:22, 31F

10/13 12:23, , 32F
我是實做語音辨認的人,目前辨認有多少能耐我大概有個譜
10/13 12:23, 32F

10/13 12:23, , 33F
至於機器學習,於特定領域的機器學習一直比不特定領域好很多
10/13 12:23, 33F

10/13 12:25, , 34F
我舉個例子好了。語音辨識尤其用來輸入指令控制已經很久
10/13 12:25, 34F

10/13 12:26, , 35F
你要解決的問題是就算好久以前行動電話就有此功能、但使
10/13 12:26, 35F

10/13 12:26, , 36F
我想我的重點可能不在「控制」,只做控制沒什麼市場
10/13 12:26, 36F

10/13 12:26, , 37F
用者接受度不大的問題是?絕對不是辨識度技術以往落後的
10/13 12:26, 37F

10/13 12:27, , 38F
的問題。也不是輸入太煩瑣的問題。試問我對著話筒念一個
10/13 12:27, 38F

10/13 12:27, , 39F
名字需要多久的功夫。因此一定有其它問題導致它一直被
10/13 12:27, 39F

10/13 12:28, , 40F
閒置在手機中沒有被廣泛採用。
10/13 12:28, 40F

10/13 12:28, , 41F
就電話服務語音系統而言某種程度我會使用。但也不是語音
10/13 12:28, 41F

10/13 12:28, , 42F
輸入。除了查號。
10/13 12:28, 42F

10/13 12:28, , 43F
以往手機受限於計算能力的不足,在您所說的應用上有他的侷限
10/13 12:28, 43F

10/13 12:29, , 44F
電話語音服務系統最大的問題是等待時間,等TTS把那些蠢問題
10/13 12:29, 44F

10/13 12:30, , 45F
講完。以往的語音應用著重在控制,沒什麼搞頭,頂多做做玩具
10/13 12:30, 45F


10/13 12:32, , 47F
我想做的不是控制,而是和siri市場區隔的服務應用
10/13 12:32, 47F

10/13 12:33, , 48F
siri定位在個人秘書,我想定位在企業服務上
10/13 12:33, 48F

10/13 12:57, , 49F
恕直言
10/13 12:57, 49F

10/13 12:57, , 50F
這聽起來像是新科技的研發,還不到具體產品,離創業還有相當
10/13 12:57, 50F

10/13 12:58, , 51F
距離。還是要想一想,把 "技術研發"、"發明"、"創業" 這三個
10/13 12:58, 51F

10/13 12:58, , 52F
概念做清楚區別
10/13 12:58, 52F

10/13 13:17, , 53F
這不是新科技...
10/13 13:17, 53F

10/13 13:18, , 54F
語音辨認早就等在那裡待命,語意分析在特定領域上沒那麼複雜
10/13 13:18, 54F

10/13 13:19, , 55F
一個人對於星巴客客服人員能問的東西有多少?
10/13 13:19, 55F

10/13 13:19, , 56F
有沒有折扣/優惠、目前有沒有座位、有職缺嗎、開到幾點...
10/13 13:19, 56F

10/13 13:20, , 57F
只是要取代這些本來要上官網/104/打電話/親臨店家的動作
10/13 13:20, 57F

10/13 13:21, , 58F
關鍵字辨認率很早就達到九成五以上(pc環境)
10/13 13:21, 58F

10/13 13:22, , 59F
手機環境下,以往為了克服計算能力,都把浮點運算換成整數
10/13 13:22, 59F

10/13 13:22, , 60F
辨認效果當然又差又慢。加上傳統手機減噪的設計很差
10/13 13:22, 60F

10/13 13:23, , 61F
辨識最怕的聲音品質問題一直克服不了
10/13 13:23, 61F

10/13 13:24, , 62F
現在智慧型手機在硬體上改善不少,噪音銳減..
10/13 13:24, 62F

10/13 13:26, , 63F
是"新科技"也沒關係呀,只是聽起來,除了技術還是技術,連稍
10/13 13:26, 63F

10/13 13:27, , 64F
微具體的產品(雛形)還有距離,不是來吐槽,只是提供想法
10/13 13:27, 64F

10/13 13:27, , 65F
會一直談技術是因為一直被問到技術怎麼克服的問題
10/13 13:27, 65F

10/13 13:27, , 66F
讓我不得不一直回答技術
10/13 13:27, 66F

10/13 13:27, , 67F
詳細請見下篇
10/13 13:27, 67F

10/13 13:28, , 68F
我推文內有說已經有辨認雛形系統,我不可能一個人完成系統
10/13 13:28, 68F

10/13 13:28, , 69F
正是如此,所以寫了下面這篇,換個話題,不聊技術
10/13 13:28, 69F

10/13 13:31, , 70F
雛形系統聽起來是技術的雛形,並不是能夠拿出去銷售的產品雛
10/13 13:31, 70F

10/13 13:31, , 71F
形。總是要有東西可以銷售,才有得玩呀
10/13 13:31, 71F

10/13 13:59, , 72F
您對我的期待未免太高了
10/13 13:59, 72F

10/13 16:37, , 73F
如果只是幫忙做的話 沒加入這個的創業打算 有多少錢
10/13 16:37, 73F

10/13 16:45, , 74F
$0
10/13 16:45, 74F

10/13 16:45, , 75F
目前都還沒起頭呢
10/13 16:45, 75F
文章代碼(AID): #1EbUjrSz (toberich)
討論串 (同標題文章)
文章代碼(AID): #1EbUjrSz (toberich)