Fw: [請益] 將英文文章 軟換成單字的程式.軟體

看板Soft_Job作者 (alex)時間4年前 (2019/07/22 23:38), 4年前編輯推噓6(7124)
留言32則, 14人參與, 4年前最新討論串1/1
※ [本文轉錄自 Eng-Class 看板 #1TDTTUZS ] 作者: unknow3121 (alex) 看板: Eng-Class 標題: [請益] 將英文文章 軟換成單字的程式.軟體 時間: Mon Jul 22 23:33:48 2019 本人最近欲學習某一領域英文,若手邊有數篇該領域文章的話,請問有沒有 “軟體/程式/APP”可以直接自動“轉換or分類or排序or解析”文章內出現的所有單字? 抱歉! 講得有點攏統,實在不知道該怎麼描述... 以下用條列的方式簡單敘述: 1. 一篇上千字的某領域文章 2. 直接將該篇文章貼至需求的"軟體" 3. 該軟體自動將文章內出現的所有單字依序排列(例如從a-z) 4. 排列完後,將這些單字解析成 (a)中文 (b)詞性 (c)音標 ...等等 例如: <文章> I have a pen I have an apple Ugh Apple pen I have a pen I have pineapple Ugh Pineapple pen <解析> a-z排序 a 一個 冠詞 該字音標 an 一個 冠詞 該字音標 apple 蘋果 名詞 該字音標 have 擁有 及物動詞 該字音標 I 我 代名詞 該字音標 pen 筆 名詞 該字音標 pineapple 鳳梨 名詞 該字音標 Ugh 呃 詞性 該字音標 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.49.22 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Eng-Class/M.1563809630.A.8DC.htmlx ※ 編輯: unknow3121 (150.116.49.22 臺灣), 07/22/2019 23:37:30 ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: unknow3121 (150.116.49.22 臺灣), 07/22/2019 23:38:45

07/22 23:40, 4年前 , 1F
我是原po, 若有違反版規請告知, 謝謝!
07/22 23:40, 1F

07/22 23:46, 4年前 , 2F
簡單的字串處理跟爬蟲啊,整篇文章去掉標點符號之後根據空
07/22 23:46, 2F

07/22 23:47, 4年前 , 3F
格做 split 出單字,根據單字去爬意思、詞性跟音標,最後
07/22 23:47, 3F

07/22 23:47, 4年前 , 4F
排序。
07/22 23:47, 4F

07/22 23:48, 4年前 , 5F
就算不用程式語言,單純用 Excel 或 Google Spreadsheet 也
07/22 23:48, 5F

07/22 23:48, 4年前 , 6F
能做到。
07/22 23:48, 6F

07/23 00:05, 4年前 , 7F
你聽過 Linggle Booster 嗎? https://b.linggle.com
07/23 00:05, 7F

07/23 00:28, 4年前 , 8F
推二樓
07/23 00:28, 8F

07/23 00:50, 4年前 , 9F
07/23 00:50, 9F

07/23 07:17, 4年前 , 10F
google斷詞系統
07/23 07:17, 10F

07/23 12:58, 4年前 , 11F
推二樓
07/23 12:58, 11F

07/23 13:18, 4年前 , 12F
連標題都打不好
07/23 13:18, 12F

07/23 13:37, 4年前 , 13F
2f 還需要再多做 Stemming/Lemmatization
07/23 13:37, 13F

07/23 16:02, 4年前 , 14F
jieba
07/23 16:02, 14F

07/23 18:19, 4年前 , 15F
2F已給答案。這真的不難QQ
07/23 18:19, 15F

07/24 08:00, 4年前 , 16F
想學就自己寫啊,這用chrome套件寫就行了
07/24 08:00, 16F

07/26 10:36, 4年前 , 17F
請搜索Spacy或是nltk tool,翻譯可以用wiktionary api
07/26 10:36, 17F

07/27 01:30, 4年前 , 18F
反推二樓,這其實並不簡單。蠻好奇推二樓的人是否真的有做
07/27 01:30, 18F

07/27 01:30, 4年前 , 19F
過。事實上字串處理部分就有一堆細節,包含大小寫、時態轉
07/27 01:30, 19F

07/27 01:30, 4年前 , 20F
換、專有名詞(get/gets/got)(Joe,Joe's)(don't) 等等等非
07/27 01:30, 20F

07/27 01:30, 4年前 , 21F
常多無法備載。
07/27 01:30, 21F

07/27 01:30, 4年前 , 22F
再來你還要去抓字典檔、把斷詞後的單字套用上去。
07/27 01:30, 22F

07/27 01:30, 4年前 , 23F
總之這不是一個五小時內能做完的簡單的東西,如果二三十小
07/27 01:30, 23F

07/27 01:30, 4年前 , 24F
時可能可以吧。
07/27 01:30, 24F

07/27 01:30, 4年前 , 25F
不過如果有好用的library就另當別論。總之反推二樓。
07/27 01:30, 25F

07/29 15:55, 4年前 , 26F
如果說要考慮到 morphology 當然就麻煩許多了,我說的做法
07/29 15:55, 26F

07/29 15:55, 4年前 , 27F
只是陽春的處理。我會這樣推文是針對於這篇發文者可能要做
07/29 15:55, 27F

07/29 15:57, 4年前 , 28F
到的成果。其中比如你提到的大小寫跟時態轉換,甚至我說的
07/29 15:57, 28F

07/29 15:57, 4年前 , 29F
構詞方法,目前部分的網路字典所提供的 API 是可以處理的。
07/29 15:57, 29F

07/29 15:59, 4年前 , 30F
以這篇他所要的結果來說,我的推文應該是可以 fit 他需求的
07/29 15:59, 30F

07/29 16:00, 4年前 , 31F
。至於是要做成一個實際的產品要考慮到的東西,應該不是發
07/29 16:00, 31F

07/29 16:00, 4年前 , 32F
文者要的吧?
07/29 16:00, 32F
文章代碼(AID): #1TDTY6JI (Soft_Job)