Re: [問題] SAS跑大量資料所需的時間
※ 引述《liton (歐吉桑留學生)》之銘言:
: ※ 引述《fairwind (應天風)》之銘言:
: : 我今天有請人測了一下
: : data5G
: : 筆數80萬筆
43
小弟我也是在處理超大量資料
之前都是抓出一些樣本來試作
程序結果ok 耗費時間也短~
可是...就在我要一次全部原始資料下去run時
我才驚覺事情大條了@@
這也是現在十分困擾我的地方
原始資料: 6年交易紀錄76,113,236筆 (不用懷疑!)
光是用一個PROC SQL篩出一個帳戶的資料就耗掉快3分鐘
簡化的程序如下:
PROC SQL ;
CREATE TABLE no39 AS
SELECT *,
PUT(var1,DATE9.) AS time1 LENGTH=9 LABEL="時間1" ,
PUT(var2,MONYY7.) AS time2 LENGTH=7 LABEL="時間2" ,
var3 AS time3 FORMAT=TIME. LABEL="時間3" ,
var4 AS time4 FORMAT=TIME. LABEL="時間3"
FROM readall49
WHERE acc_no=39;
QUIT;
PROC SORT DATA=no39 ;
by var1 var2 var3 var4 ;
RUN;
以上看的懂的人就看的懂 沒有ERROR
其中readall49就是原始資料
var1--var4都是SAS時間
*部分有13個變數
PROC SQL的real time約2.5分鐘
PROC SORT的real time約0分鐘(連1秒都不到)
我不知道還能再精簡什麼? 有辦法使系統再處理快一點嗎?
總共有近30萬個帳戶呀~
--
硬體等級:
CPU:INTEL E7200
RAM:創見4GB
HDD:WD6400AAKS(系統碟)
HDD:WD6400AAKS(資料碟) SAS軟體及資料都放在這顆
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.115.220.209
※ 編輯: azimuth 來自: 140.115.220.209 (03/18 00:57)
討論串 (同標題文章)