SAS中文论坛

标题: 请教:以下两种方式进行逻辑回归 [打印本页]

作者: shiyiming    时间: 2009-8-4 15:39
标题: 请教:以下两种方式进行逻辑回归
请教:

以下两种方式进行逻辑回归,有什么不同之处
1、 1、 给每个变量不同特征值产生虚拟变量后进行回归(不使用Class语句);
2、2、  不做虚拟变量,在MODEL Y=X1 X2 X3 语句之前加个CLASS语句。
   据我肉眼观察第二种方法的output,一个变量中只要有一个特征值组的P显著,则该变量进入方程,其他特征值虽然 不显著但也给出了Estimate。

谢谢!
作者: shiyiming    时间: 2009-8-4 20:47
标题: Re: 请教:以下两种方式进行逻辑回归
有时候肉眼的观察是不充分的。两种方法应该是无异的。不同的结果源于不同的parameterization。
如果舍弃class,你用的是glm,而SAS class的缺省是effect。
你可以从输出的相同的odds ratio得到验证
作者: shiyiming    时间: 2009-8-5 09:49
标题: Re: 请教:以下两种方式进行逻辑回归
谢谢jingju11 !

两种方式的ODDS RATIO结果不太一样,应该怎么比较。截取变量“教育程度”的情况举例。
下面第一个表格是生成虚拟变量后逻辑回归的结果,
第二个表格是使用CLASS 语句变量有几个特征值(1,2,3……)

表一
Odds Ratio Estimates                       
Effect             Point Estimate             95% Wald       
                                Confidence Limits       
education1        2.01        1.559        2.593
education2        1.844        1.613        2.107
education4        0.638        0.468        0.871


表二
Odds Ratio Estimates                       
Effect                             Point Estimate              95% Wald       
                                                Confidence Limits       
education_seg 1 vs 4                3.847        2.478        5.972
education_seg 2 vs 4                3.514        2.43        5.082
education_seg 3 vs 4                  1.87        1.298        2.695
作者: shiyiming    时间: 2009-8-5 10:36
标题: Re: 请教:以下两种方式进行逻辑回归
两种方法一样
你的结果有区别重要原因,x  的设计举证不一样(Class Level Information)
一种是以整体X判断对模型的贡献,令一种则分别判断x的属性对模型的显著性。
作者: shiyiming    时间: 2009-8-5 22:05
标题: Re: 请教:以下两种方式进行逻辑回归
"...一种是以整体X判断对模型的贡献,令一种则分别判断x的属性对模型的显著性。" 不是很理解这句话。但是我想这句话应该是有出处的。

下面是一个改造过的sas示例:

Data Neuralgia;
      input Treatment $ Sex $ Age Duration Pain $ @@;
                t1=( Treatment='A' );
                t2=( Treatment='B' );
                t3=( Treatment='P' );
      datalines;
   P  F  68   1  No   B  M  74  16  No  P  F  67  30  No
   P  M  66  26  Yes  B  F  67  28  No  B  F  77  16  No
   A  F  71  12  No   B  F  72  50  No  B  F  76   9  Yes
   A  M  71  17  Yes  A  F  63  27  No  A  F  69  18  Yes
   B  F  66  12  No   A  M  62  42  No  P  F  64   1  Yes
   A  F  64  17  No   P  M  74   4  No  A  F  72  25  No
   P  M  70   1  Yes  B  M  66  19  No  B  M  59  29  No
   A  F  64  30  No   A  M  70  28  No  A  M  69   1  No
   B  F  78   1  No   P  M  83   1  Yes B  F  69  42  No
   B  M  75  30  Yes  P  M  77  29  Yes P  F  79  20  Yes
   A  M  70  12  No   A  F  69  12  No  B  F  65  14  No
   B  M  70   1  No   B  M  67  23  No  A  M  76  25  Yes
   P  M  78  12  Yes  B  M  77   1  Yes B  F  69  24  No
   P  M  66   4  Yes  P  F  65  29  No  P  M  60  26  Yes
   A  M  78  15  Yes  B  M  75  21  Yes A  F  67  11  No
   P  F  72  27  No   P  F  70  13  Yes A  M  75   6  Yes
   B  F  65   7  No   P  F  68  27  Yes P  M  68  11  Yes
   P  M  67  17  Yes  B  M  70  22  No  A  M  65  15  No
   P  F  67   1  Yes  A  M  67  10  No  P  F  72  11  Yes
   A  F  74   1  No   B  M  80  21  Yes A  F  69   3  No
   ;

run;

/*1*/
   proc logistic data=Neuralgia;
      class Treatment Sex/param=glm;
      model Pain= Treatment Sex Duration / expb;
   run;

/*2*/
proc logistic data=Neuralgia;
      class Sex/param=glm;
      model Pain= t1 t2 t3 Sex Duration / expb;
   run;
---------------------------------------------------------
*results from model 1;
Analysis of Maximum Likelihood Estimates

                                         Standard          Wald
        Parameter      DF    Estimate       Error    Chi-Square    Pr > ChiSq    Exp(Est)

        Intercept       1     -2.5728      0.9140        7.9230        0.0049       0.076
        Treatment A     1      2.5900      0.8481        9.3266        0.0023      13.330
        Treatment B     1      2.5430      0.8511        8.9268        0.0028      12.718
        Treatment P     0           0           .         .             .            .
        Sex       F     1      1.7889      0.7173        6.2190        0.0126       5.983
        Sex       M     0           0           .         .             .            .
        Duration        1      0.0240      0.0297        0.6525        0.4192       1.024


                                       Odds Ratio Estimates

                                              Point          95% Wald
                       Effect              Estimate      Confidence Limits

                       Treatment A vs P      13.330       2.529      70.263
                       Treatment B vs P      12.718       2.398      67.442
                       Sex       F vs M       5.983       1.467      24.406
                       Duration               1.024       0.966       1.086
-------------------------------------------------
*results from model 2;
Analysis of Maximum Likelihood Estimates

                                         Standard          Wald
        Parameter      DF    Estimate       Error    Chi-Square    Pr > ChiSq    Exp(Est)

        Intercept       1     -2.5728      0.9140        7.9230        0.0049       0.076
        t1              1      2.5900      0.8481        9.3266        0.0023      13.330
        t2              1      2.5430      0.8511        8.9268        0.0028      12.718
        t3              0           0           .         .             .            .
        Sex       F     1      1.7889      0.7173        6.2190        0.0126       5.983
        Sex       M     0           0           .         .             .            .
        Duration        1      0.0240      0.0297        0.6525        0.4192       1.024


                                      Odds Ratio Estimates

                                             Point          95% Wald
                       Effect             Estimate      Confidence Limits

                       t1                   13.330       2.529      70.263
                       t2                   12.718       2.398      67.442
                       Sex      F vs M       5.983       1.467      24.406
                       Duration              1.024       0.966       1.086
*--------------------------------------------------------------------------------------------------;

*两种结果无有任何不同;如果有表面上的不同, 是源于差异的参数化;
作者: shiyiming    时间: 2009-8-5 22:09
标题: Re: 请教:以下两种方式进行逻辑回归
“。。。据我肉眼观察第二种方法的output,一个变量中只要有一个特征值组的P显著,则该变量进入方程,其他特征值虽然 不显著但也给出了Estimate。”

这种显著性的不同归因于不同的estimates。因为p是检测estimate是否无异于0.




欢迎光临 SAS中文论坛 (https://mysas.net/forum/) Powered by Discuz! X3.2