[問題] SAS讀取巨量資料問題

看板Statistics作者 (......)時間2年前 (2021/08/11 00:18), 編輯推噓2(2012)
留言14則, 2人參與, 2年前最新討論串1/2 (看更多)
如果是跟統計軟體有關請重發文章,使用程式做為分類。 統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類 請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。 為避免版面混亂,請勿手動置底問題,善用E做檔案編輯 工作上使用SAS的 Proc Import這個指令讀取一個非常龐大的文字檔(約400 GB) 並轉存成SAS的資料檔。 居然發現兩台電腦所匯入後的資料筆數居然會不一樣,基本上兩台電腦空間都足夠。 一樣的程式碼,一樣的來源檔。 電腦A:工作站等級 INTEL 32核CPU / RAM:16GB 匯入之後的資料筆數是七千多萬多筆 電腦B: 家用桌機 AMD Ryzen 3800 / RAM:32GB 匯入之後的筆數是八億多筆 差異非常大,SAS 的LOG沒見到任何錯誤或警示訊息。 兩台都跑了三遍結果一樣。 匯入過程透過工作管理員去檢視記憶體使用情形,也大都在6-9GB之間,並沒有吃滿。 請問這是什麼問題呢?? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.194.85 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1628612305.A.798.html

08/11 01:48, 2年前 , 1F
sas軟體版本,sas編碼,os編碼都一樣嗎?匯入的檔案格式
08/11 01:48, 1F

08/11 01:48, 2年前 , 2F
是什麼?七千萬跟八億哪個答案才是對的?
08/11 01:48, 2F

08/11 01:50, 2年前 , 3F
另外,直接檢視兩個檔案的前幾十筆資料彼此是否相同,跟
08/11 01:50, 3F

08/11 01:50, 2年前 , 4F
raw data又是否相同,可能就直接可以看出問題是什麼了
08/11 01:50, 4F

08/11 14:03, 2年前 , 5F
後來找到問題了,記憶體不足SAS會將資料切割,沒注意到NOTE
08/11 14:03, 5F

08/11 14:04, 2年前 , 6F
在log裡面有一行提醒資料是被truncated。所以八億多是正確
08/11 14:04, 6F

08/11 14:06, 2年前 , 7F
所以看來SAS內部有記憶體使用的限制,不會用到滿。
08/11 14:06, 7F

08/11 14:42, 2年前 , 8F
可能會因應硬體的最大值做一定比例的運用??
08/11 14:42, 8F

08/12 03:32, 2年前 , 9F
cofig檔中有一個memsize的參數會限制sas的記憶體使用量
08/12 03:32, 9F

08/12 03:32, 2年前 , 10F
,有需要可以改
08/12 03:32, 10F

08/12 03:32, 2年前 , 11F

08/12 03:32, 2年前 , 12F
.5/hostwin/n0srij4mcdpzv2n1vtphltb00xjw.htm
08/12 03:32, 12F

08/13 13:16, 2年前 , 13F
感覺不完全是這個問題,軟體預設是2G,但是兩台電腦都遠大
08/13 13:16, 13F

08/13 13:17, 2年前 , 14F
於2G,如果是這個限制的話,應該兩台都會切資料。
08/13 13:17, 14F
文章代碼(AID): #1X4gRHUO (Statistics)
文章代碼(AID): #1X4gRHUO (Statistics)