[裝死] 很不幸的要麻煩大家了
有meeting的人應該有注意到本週三老師開始注意SS的進度
明天在Aaron學長修正完Transcription的錯誤之後,就有一個可以開始跑實驗的東西了
那接下來需要大家的通力配合才能完成這個龐大的工程
我大略規劃了步驟如下:
1.Train Language Model(哈密瓜)
使用的Lexicon在李宏毅學長的建議下,採用DSP的Lexicon加上在SS課程中出現的英文單
字,以此Lexicon生成Language Model。將Language Model交給葉青峰及李宏毅。
2.Train Acoustic Model(葉青峰)
使用哈密瓜Train好的Language Model,Lexicon及課程音檔生成Acoustic Model,並作
Forced Alignment。將Acoustic Model交給李宏毅,Forced Alignment交給黃宥。
3.Retrieval System(李宏毅)
使用Language Model & Acoustic Model生成Retrieval 系統。
4.Slide Segment Part 1(左晉恆,劉又誠)
根據完整版Transcription和Slide,以人工方式先將每一堂課的投影片Segment標出來(
即每堂課從何投影片開始到何投影片結束),可以得到每一堂課的投影片範圍。(比方說
3/24第一堂課是由第2-3到2-17投影片所構成)
5.Slide Segment Part 2(碩一)
在確定每一堂課的投影片範圍之後,以人工方式將課程內容一一對應,完成投影片分割的
部份。
6.Key Term Extraction(黃宥)
根據Transcription和葉青峰提供的Forced Alignment生成Key Term。這可以分成兩部份
,每一堂課,每一張投影片各自生成Key Term。(先前的系統是,章的投影片就是每張投
影片的Key Term的集合,這次改為使用兩種素材)
7.Summarization(陳蘊儂)
根據Transcription生成Summarization,與Key Term一樣每堂課和每張投影片的
Summarization是各自生成,和先前並不相同。
有任何問題歡迎發問,有建議也請不吝提出
每個單張的投影片都在home/RA/的SS_Slide裡面
抱歉 麻煩大家了
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.21.32
推
11/26 23:46, , 1F
11/26 23:46, 1F
推
11/27 08:53, , 2F
11/27 08:53, 2F
推
11/27 10:20, , 3F
11/27 10:20, 3F
推
11/30 00:41, , 4F
11/30 00:41, 4F
討論串 (同標題文章)