这是仍然在困扰我的一个数据导入问题,为了避免数值缺失等种种问题,我把一个文件夹中的每个文件用proc import都导入成字符型,然后再改成需要的类型,最后用data步写入到一个文件中。现在问题是这样做每次运行到“data file; set file file1; run; ”这一步的时候就会非常慢,特别是我的数据量还比较大,文件夹中大约有200个左右的数据文件,每个文件包含5w条observations。
请大家帮我看看如何优化这个程序,能使这个过程快一点?谢谢!
我的程序如下:
[code:qcsqoz5d]
data file; run;
filename folder pipe 'dir f:\DATA /b';
data filelist;
infile folder truncover;
input fname $15.;
filename=scan(fname,1,'.');
run;
%macro imp(filename);
proc import datafile="f:\DATA\&filename..tsv" out=file1 dbms=tab replace;
getnames=no;
DATAROW=2;
GUESSINGROWS=1000;
RUN;
data file1;
date=&filename.;
set file1;
******************************************************
including some steps to revise the variables
******************************************************;
run;
data file; set file file1; run; *把每个file1写到一个总file中;
%mend;
data _null_;
set filelist;
call execute('%imp('||filename||')');
run;