Re: [問題] 格式不太正確的csv檔
※ 引述《minksable ()》之銘言:
: 在csv檔中 字串性質的欄位應該會加上""
: e.g. "string", number, date
: 不然字串裡如果有「,」要怎麼辦? (假設這裡是以,為欄位分隔)
: 結果我手上拿到一堆沒有用雙引號區隔的檔案
: 以致於我沒有辦法匯入這些檔案
: 我試過寫程式判斷什麼時候是逗號 什麼時候是分隔
: 但我想需要很不錯的NLP技術才行......
: 我想請問一下遇到這樣的問題要怎麼解決?
: 原則上是不可能請人家重新匯出給我
: 因為公家單位跑個文應該要一個月吧
: 而且我很擔心他們不懂我的問題所在
: (如果懂的話 當初就不會給格式不符的檔案了吧....)
: ps. 因為字串性質的欄位中算是一些口語的紀錄
: 所以用到逗號的機率頗高
: 而資料至少上萬筆 我不想一筆一筆幫它們加雙引號 >"<
: 如果能救我 我會很感謝的 <(_ _)>
公司單位給你文件 可以用Excel開啟嗎?
(TXT?CSV?XLS?)
有招很笨 請笑小力點=口=||
是我第一次要轉資料的時候自己研究出來的
不過欄位很多的時候好像也很麻煩
我是用Excel做排版
在每個欄位的前後插入一欄 加上分隔符號跟雙引號 整列套用儲存格內容
搞定後 資料全選複製 開新的記事本貼上
這時候會發現有多的TAB縮排
所以先複製TAB縮排 利用記事本的取代功能 全部取代成空值
存成CSV(選UTF8囉) 搞定!
當廠商給我500筆甚至1000筆EXCEL或TXT資料的時候
我都是這樣處理的
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.221.128.182
推
09/02 10:26, , 1F
09/02 10:26, 1F
→
09/02 10:31, , 2F
09/02 10:31, 2F
→
09/02 10:34, , 3F
09/02 10:34, 3F
討論串 (同標題文章)