[程式] SAS刪除特定資料、極端值、panel data

看板Statistics作者 (神秘的麥田圈)時間14年前 (2011/12/13 21:46), 編輯推噓1(105)
留言6則, 1人參與, 最新討論串1/1
[使用軟體] SAS [程式問題]: 資料處理、panel data regression [軟體熟悉度]: 新手 [問題敘述]: 1.我的資料是以公司代碼(code)來排列,由於某些公司資料不完全因此要將他們刪除 ex.刪除公司代碼為002001~002359...這幾間的資料,請問我該怎麼做? 2.我想用Winsorized方法刪除<1%及>99%的極端值,但試不出來? 3.我的資料是panel data,有1000多家公司,每家公司有6個年度的資料 y變數(BIG)是0、1的形式,要用logistic 來做 另外,有兩個X變數是Dummy variable,分別是industry(22個類別)和year(6個年度) 請問考慮matrix,我的資料形式應該怎麼排列,我才可以跑panel data regression? 目前我資料合併起來的形式是長這樣:(變數沒有全部打完,空格是數值沒有打出來) CODE YEAR BIG LNTA GROWTH ROA LEV 000001 0 0 000001 1 0 000001 2 1 000001 3 1 000001 4 1 000001 5 1 000002 0 0 000002 1 0 000002 2 0 000002 3 1 000002 4 1 000002 5 1 [程式範例] 1.data total1; if 002001<=CODE<=002359 then delete; 2.proc univariate data=d winsorized=.01; var LNTA GROWTH ROA LEV ARINV; 不好意思,問題有點多...但是一直找不到解決方法 麻煩請會的人可以指點一下,謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.184.54

12/13 23:27, , 1F
proc tscsreg; 可以跑panel data
12/13 23:27, 1F

12/13 23:27, , 2F
不需要例外設dummy variable
12/13 23:27, 2F

12/13 23:29, , 3F
你的資料不完全 不應該用code刪 而是用變項的條件
12/13 23:29, 3F

12/13 23:30, , 4F
if nmiss(lnta,growth,roa,lev)>0 then delete;
12/13 23:30, 4F

12/13 23:31, , 5F
winsorized 基本上請用橫斷面的方式來做 而非全樣本
12/13 23:31, 5F

12/13 23:32, , 6F
不然最大值都在 2010年 最小值都在2005年 假設都是成長
12/13 23:32, 6F
文章代碼(AID): #1EvrSqS9 (Statistics)