Google與詞義辨識的人工智能化

看板CLUB_KABA作者 (hanekuriboo)時間19年前 (2005/03/20 22:35), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/1
http://www.sciscape.org/ 以Google搜尋不同字詞同時出現在同一網頁的頻率來定義字詞間的關聯性,人工智 能或許能夠開始了解字詞的義意。 對文字工作者而言,無論是寫作或譯述,Google已經是不可或缺的重要工作利器了 ,比方說在翻譯一個陌生的英文字詞時,許多人都會將想要轉譯的字詞google幾次 (“to google”已經變成一個動詞了),然後從搜尋到的千百筆資料中,研判哪個 中文意思最接近。例如我壓根兒不知“fluorescence microscopy”是啥意,於是 把“fluorescence microscopy”丟入Google,google出了好多筆資料都提到螢光 顯微鏡,而且出現的頻率很高,於是很篤定的認為“fluorescence microscopy” 就是螢光顯微鏡。所以許多人除了以Google搜尋資料之外,亦以Google進行文字意 義的處理與辨識。 一個字詞的意義經常能從其他與它並用的字眼而獲得,例如"rider"這個英文字, 經常與"horse"以及"saddle"一道出現,所以從horse、saddle、rider此些字眼的 關聯性可以推測出rider的意思了,於是八九不離十,rider和馬、馬鞍有關。當然 企圖從上千萬的字詞關係析出其意義,需要一個龐大、詳盡的資料庫,否則怎知 rider與horse、saddle一起出現的頻率很高,thanks god,我們有一個現成且免費 的Google。 荷蘭阿姆斯特丹數學與電腦科學學院的Paul Vitanyi與Rudi Cilibrasi發現Google 搜尋引擎能用來檢測兩個字詞之間的關聯性,例如電腦想要知道“hat”為啥,首 先得建立一個字詞樹狀結構,亦即一個足以顯現字詞之間關聯性的資料庫,此種樹 狀結構資料庫可以從任兩個字詞開始,去了解其間的關聯性,例如於google鍵入hat 與head此兩個字詞,幾乎可以搜尋到8,800,000筆資料,不過若鍵入hat與banana此 兩個字詞,則僅有576,000筆資料,很明顯的,hat與head之間的關聯性較hat與 banana為強。 為了要量測其關聯性,Vitanyi 與Cilibrasi基於搜尋到的資料筆數發展了一種統 計指標,能顯示一對字詞之間的邏輯距離,並稱之為正常化的Google距離(normalized Google distance, NGD),NGD越低,兩個字詞之間的關聯性越緊密。對許多的字詞 對(pairs of words)重複上述統計過程,即可能建立字詞對之間的關聯性距離圖譜 ,顯示此些字詞之間的關聯性,電腦由此即能推測出某個字詞的意義。Vitanyi.認 為此即電腦的字詞意義萃取機制,能讓電腦辨識字詞。研究人員根據其在Google搜 尋到的資料筆數與出現頻率,已經能利用電腦辨識出顏色、數字與不同宗教等字詞 的意義。 Stand on the shoulders of giants~ Google help you to find the journals more quickly!! http://scholar.google.com/ "Roses are red. Violets are blue. OS X rocks. Homage to you." Another interesting Google~ http://labs.google.com/googlex/ Reverse Google!! http://www.alltooflat.com/geeky/elgoog/m/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 203.203.152.58 ※ 編輯: stupidduck 來自: 203.203.152.58 (03/20 22:36)

210.85.0.92 03/21, , 1F
姑茍萬歲。
210.85.0.92 03/21, 1F
文章代碼(AID): #12FOf9-A (CLUB_KABA)