海蓝无魂 发表于 2019-8-14 15:43:05

通过DATA步读取外部文本文件中的数据


通过DATA步读取外部文本文件中的数据
1、基本形式如下:
data 数据集名称;
   infile 数据文件位置;
   input 变量列表;
run;

data语句指定数据集名称;

infile语句指定原始数据的位置和名称。原始数据文件可以是在filename语句中定义的文件引用形式或操作系统下的文件路径。

input语句用于指定SAS读取数据的方式。



2、SAS三种基本输入方式
(1)列表输入
用于读取原始数据记录中每个字段由至少一个分隔符隔开,并且数据值中不包含该分隔符的原始数据。

注意:

① 默认分隔符为空格,分隔符可以通过infile语句的选项dlm=“指定分隔符”来设置。连续的分隔符会当成一个分隔符处理。

②列表输入不能用于原始数据包含字段之间分隔符的情况

③使用列表输入时,字符变量默认长度为8个字节。当输入数据长度超过默认长度时,读入PDV的数据会被截断。

如何解决上面的问题呢?

针对①②,通过infile语句的选项dsd,将默认的分隔符设置为逗号,如果数据值是由引号引起来的,可以将数据值中的分隔符当成是数据值的一部分读入,字符值中的引号在读入PDV时会被删除。如果有两个连续的逗号,将被当做缺失值。

针对③,可以通过在input语句前使用length语句指定该变量的长度来解决。

示例数据(存储在'd:\sas\data'的customer_dsd.txt文件中):
C001,,"14 Bridge St. San Francisco, CA"
C002,Emily Cooker,"42 Rue Marston"
C003,,"52 Rue Marston Paris"
示例代码:
filename extfiles 'd:\sas\data';
data saslib.customer;
   length Name $20 Address $40;
   infile extfiles(customer_dsd) dsd;
   input Customer_ID $ Name $ Address $
run;
proc print data=saslib.customer noobs;
run;



(2)按列输入
当原始数据记录中的数据值在每条记录中占据相同列时,可用按列输入方式。读入数据值由制定的列号确定,不需指定变量长度,可以以任何顺序读入列,还可跳过一些列。
示例数据(存储在'd:\sas\data'的customer.txt文件中):

C001                        14 Bridge St. San Francisco,CA 

C002  Emily Cooker  42 Rue Marston 

C003                        52 Rue Marston Paris 

示例代码:
filename extfiles 'd:\sas\data';
data saslib.customer;
   infile extfiles(customer) ;
   input Customer_ID $ 1-4 Name $ 7-20 Address $ 22-51;
run;
proc print data=saslib.customer noobs;
run;



(3)格式化输入
可以读取特殊格式的数字数据,如二进制数据、日期时间或包含货币符号的数据。
示例数据(存储'D:\Program Files(x86)\SASData'的mixinput.txt文件中):

p001 SAS Base Programing 22Oct2013

p002 SAS Base                  01JAN2013

示例代码:
filename extfiles 'D:\Program Files (x86)\SASData';
libname saslib 'D:\Program Files (x86)\SASData';
data saslib.mixedinput;
    infile extfiles(mixedinput.txt) ;
        input course_id $ 1-4
              course_name $ 6-24
              +1 date date9.;
run;
其中用到了相对列控制符号+1,表示将列控制指针后移一位。
@是绝对列控制符号,可以直接将列指针移到所指位置。
页: [1]
查看完整版本: 通过DATA步读取外部文本文件中的数据