Re: [問題] 格式不太正確的csv檔

看板Database作者 (貓奴一隻)時間16年前 (2009/09/02 09:47), 編輯推噓1(102)
留言3則, 2人參與, 最新討論串2/2 (看更多)
※ 引述《minksable ()》之銘言: : 在csv檔中 字串性質的欄位應該會加上"" : e.g. "string", number, date : 不然字串裡如果有「,」要怎麼辦? (假設這裡是以,為欄位分隔) : 結果我手上拿到一堆沒有用雙引號區隔的檔案 : 以致於我沒有辦法匯入這些檔案 : 我試過寫程式判斷什麼時候是逗號 什麼時候是分隔 : 但我想需要很不錯的NLP技術才行...... : 我想請問一下遇到這樣的問題要怎麼解決? : 原則上是不可能請人家重新匯出給我 : 因為公家單位跑個文應該要一個月吧 : 而且我很擔心他們不懂我的問題所在 : (如果懂的話 當初就不會給格式不符的檔案了吧....) : ps. 因為字串性質的欄位中算是一些口語的紀錄 : 所以用到逗號的機率頗高 : 而資料至少上萬筆 我不想一筆一筆幫它們加雙引號 >"< : 如果能救我 我會很感謝的 <(_ _)> 公司單位給你文件 可以用Excel開啟嗎? (TXT?CSV?XLS?) 有招很笨 請笑小力點=口=|| 是我第一次要轉資料的時候自己研究出來的 不過欄位很多的時候好像也很麻煩 我是用Excel做排版 在每個欄位的前後插入一欄 加上分隔符號跟雙引號 整列套用儲存格內容 搞定後 資料全選複製 開新的記事本貼上 這時候會發現有多的TAB縮排 所以先複製TAB縮排 利用記事本的取代功能 全部取代成空值 存成CSV(選UTF8囉) 搞定! 當廠商給我500筆甚至1000筆EXCEL或TXT資料的時候 我都是這樣處理的 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.221.128.182

09/02 10:26, , 1F
問題就在於也許上一行某格有三個逗號 下一行某格有四個逗號
09/02 10:26, 1F

09/02 10:31, , 2F
我猜給的CSV是用EXCEL轉過去的 應該有辦法回到原來狀態
09/02 10:31, 2F

09/02 10:34, , 3F
如果資料全亂~只能說沒救了吧= =" 只能用人腦判斷了
09/02 10:34, 3F
文章代碼(AID): #1AdSwZDh (Database)
文章代碼(AID): #1AdSwZDh (Database)