SELEKSI MODEL REGRESI LINIER
Oleh
Nuryadi, S.Pd.Si
PROGRAM STUDI PENDIDIKAN MATEMATIKA
FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS MERCU BUANA YOGYAKARTA
2011
SELEKSI MODEL REGRESI
A. ASUMSI DASAR ANALISIS REGRESI BERGANDA
1. Variabel pengganggu e adalah variabel random
2. Homoskedastisitas yaitu varians masing-masing e adalah sama untuk setiap xi
3. Normalitas data
Uji normalitas data untuk mengetahui distribusi data pada tiap-tiap peubah. Dalam analisis regresi linier, data yang harus berdistribusi normal adalah data yang berasal dari peubah terikatnya.
Uji Hipotesis
a. Menentukan Hipotesis :
H0 : data berasal dari populasi yang berdistribusi normal
H1 : data berasal dari populasi yang berdistribusi normal
b. Menentukan Signifikansi(α)
c. Statistik uji : menggunakan uji kolmogorov-Smirnov
d. Kriteia Pengujian
Terima H0 jika nilai signifikan ≥ α
Tolak H0 jika nilai signifikan < α
4. Uji linieritas
a. Menentukan Hipotesis :
H0 : persamaan regresi tidak linier
H1 : persamaan regresi linier
b. Menentukan Signifikansi(α)
c. Statistik uji :
d. Kriteia Pengujian
Terima H0 jika nilai Fhit ≤ Ftab atau nilai signikansi ≥ α
Tolak H0 jika nilai Fhit > Ftab atau nilai signikansi < α
5. Tidak ada multikolinieritas
Multikolinieritas adalah suatu kondisi dimana satu atau lebih peubah bebas berkorelasi dengan peubah bebas lainnya, atau dengan kata lain suatu peubah bebas merupakan fungsi linier dari peubah bebas lainnya. Teknik untuk mendeteksi multikolinieritas adalah sebagai berikut :
Variance Inflation factor(VIF)
Rumus VIF untuk regresi berganda dengan peubah bebasnya lebih dari atau sama dengan dua, yaitu :
dengan :
k = banyaknya peubah bebas
= koefisien determinasi
Jika = 0 artinya antar peubah bebas tidak berkorelasi, maka nilai VIF = 1
Jika ≠ 0 artinya ada korelasi antar peubah bebas, maka nilai VIF > 1
Jika > 5 artinya model dianggap tidak mempunyai kolinieritasi jika korelasi antar peubah bebas hanya mencapai 0,8. Oleh karena itu, kolinieritas tidak ada nilai VIF mendekati angka 5.
e. Nonautocorrelaion
Autokorelasi adalah keadaan di mana terdapat trend di dalam variabel yang diteliti, sehingga akibatnya e juga mengandung trend. Autokorelasi dalam konsep regresi linier berarti komponen error berkorelasi berdasarkan urutan waktu (pada data timeseries) atau urutan ruang (pada data cross-sectional). Sering terjadi pada pengamatan yang dilakukan pada data runtun waktu.
Autokorelasi terjadi jika antara et dan et-1 terdapat korelasi yang tinggi, jika terdapat autokorelasi, maka parameter b yang diperoleh tetap linier dan tidak bias, tetapi Sb bias akibatnya uji signifikansi variabel yang dilakukan dengan uji-t tidak bisa dilakukan.
Contoh:
Data timeseries (terdapat urutan waktu) misalnya pengaruh biaya iklan terhadap penjualan dari bulan januari hingga bulan desember.
Data cross-sectional adalah data yang tidak ada urutan waktu, misal pengaruh konsentrasi zat X terhadap kecepatan reaksi suatu senyawa kimia.
Mendeteksi keberadaan autokorelasi dapat dilakukan menggunakan statistik uji Durbin-Watson.
Kriteria nilai D-W berada di sekitar angka 2, berarti model regresi kita aman dari kondisi autokorelasi.
Kriteria DW
d < dL : menolak H0 (autokorelasi positif)
d > 4 - dL : menolak H*0 (autokorelasi negatif)
Atau
dU < d < 4 – dU : menerima H0 atau H*0
dL ≤ d ≤dU atau 4 - dU ≤d ≤ 4 – dL (pengujian tidak meyakinkan).
B. KRITERIA PEMILIHAN MODEL REGRESI
Jika antar variabel prediktor saling berkorelasi satu sama lain, dikatakan terjadi kasus multicolinear. Hal ini dapat mengakibatkan beberapa variabel prediktor tidak significant berada dalam model walaupun sesungguhnya variabel tersebut berhubungan sangat erat dengan variabel respon Y. Untuk mendapatkan model yang diinginkan terdapat dua pertimbangan dalam pembentukan model, diantaranya:
v Agar persamaan regresi bermanfaat untuk tujuan prediksi, serigkali diinginkan model yang memuat sebanyak-banyaknya variabel X (prediktor) yang mempengaruhi variabel Y (respon)
v Kareena pertimbangan biaya untuk mendapatkan informasi, maka digunakan sesedikit mungkin variabel X (prediktor) yang mempengaruhi variabel Y (respon)
Untuk itu dibutuhkan metode untuk dapat mengakomodasikan dua kepentingan di atas dengan cara Selecting the best regression equation. Berikut ini adalah cara-cara yang sering digunakan dalam memilih model terbaik.
Metode-metode Dalam Pemilihan Model Regresi
1. Enter
Dalam metode enter semua variabel independen dimasukkan ke dalam persamaan dan dicari R2 nya(t-value atau F-value)
2. Seleksi Maju (Forward)
Mengkaitkan lebih dulu antara Y dengan Xi yang r2 paling besar, kemudian langkah berikutnya ditambahkan lagi X lainyang korelasi parsialnya paling besar dan akan berhenti bila ditambahkan lagi X lain yang tidak menambah r2-nya((t-value atau F-value))
3. Penyisihan /Mundur
Memasukkan semua explanasi variabel, kemudian langkah beriktunya mengurangi peran x yang paling kecil perannya menentukan r2-nya. Penghentian akan dilakukan bila mencapai nilai r2 yang berkurang secara berarti. Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter-parameternya dengan menggunakan partial F test. Nilai partial F-test(FL) terkecil dibandingkan dengan F0 tabel :
- Jika FL< F0 maka x yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variabel tersebut.
- Jika FL> F0 maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih.
4. Stepwise Regression
Model dibuat dengan memasukkan variabel prediktor satu persatu (secara bertahap) mulai dari variabel X yang memiliki korelasi tinggi
Langkah-langkahnya:
a. Cari variabel X yang berkorelasi paling tinggi dengan Y, kemudian buat regresinya
b. Pemilihan variabel berikutnya adalah variabel yag memiliki korelasi parsial terbesar dengan Y dan buat model dengan memasukkan variabel tersebut
c. Uji parameter yang telah ada di dalam model
d. Begitu seterusnya ulangi langkah 2-3 sampai diperoleh model terbaik
5. Semua Kombinasi yang mungkin
Model persamaan yang terbentuk sebanyak 2n, dimana n adalah variabel bebas (independen). Model-model persamaan tersebut adalah :
No | Model persamaan | Jumlah variabel |
1 | Y = β0 | Tanpa Variabel Xi |
2 | Y = β0 + β1X1 | 1 Variabel Xi |
3 | Y = β0 + β1X2 | |
4 | Y = β0 + β1X3 | |
5 | Y = β0 + β1X1 + β2X2 | Variabel Xi |
6 | Y = β0 + β1X1 + β2X3 | |
7 | Y = β0 + β1X2 + β2X3 | |
8 | Y = β0 + β1X1 + β2X2 + β3X3 Y = β0 + β1X1 + β2X2 +β3X+ei | 3 Variabel Xi n Variabel Xi |
6. R2 Maksimum (MAXR)
Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas.
Kriteria yang digunakan adalah:
R2 terbesar
MS residual terkecil
Cp yang mendekati jumlah parameter,
, dimana s2 residual variance untuk model yang dievaluasi, estimasi residual variance yang mendasari model sepenuhnya.
R2 terbesar
MS residual terkecil
Cp yang mendekati jumlah parameter,
, dimana s2 residual variance untuk model yang dievaluasi, estimasi residual variance yang mendasari model sepenuhnya.
Perbedaan Ketiga Metode
Metode enter | Metode regresi dengan memasukkan semua variabel bebas ke dalam model dan mengabaikan besar kecil pengaruh setiap variabel bebas terhadap variabel terikat | Model regresi yang ditawarkan adalah : LnY = a + b1X1 + b4X4 | Metode enter hanya memberikan satu penawaran model terbaik. |
Metode forwards | Metode analisis dari depan , semua variabel bebas awalnya dianggap tidak berpengaruh .Selanjutnya secara bertahap di masukan variabel-variabel yang berpengaruh). | Model regresi yang ditawarkan adalah : LnY = a + b1X1 + b4X4 | Metode maju menyediakan beberapa model terbaik yang ditawarkan sesuai dengan keadaan yang kita inginkan .misalnya menggunakan model berdasarkan R- squarenya maka model kedua yang di pilih. |
Metode Backwards | Metode regresi dari belakang dengan membuat model secara bertahap .Model akhir dengan membuang variabel yang tidak berpengaruh). | Model regresi yang ditawarkan adalah : LnY = a + b1X1 + b4X4 | Metode backwards dapat menyediakan beberapa model terbaik yang ditawarkan sesuai dengan keadaan yang kita inginkan .misalnya menggunakan model berdasarkan R- squarenya maka model pertama yang di pilih |
C. UJI MODEL REGRESI
Uji model regresi sebaiknya dilakukan dengan dua macam, yaitu :
1. Uji serentak.
Uji serentak merupakan uji terhadap nilai-nilai koefisien regresi (b) secara bersama-sama dengan hipotesa :
H0 : β1 = β2 = ... = βp = 0
H1 : Minimal ada 1 β yang tidak sama dengan nol.
Statistik uji yang dipakai untuk melakukan uji serentak ini adalah statistik uji F
2. Uji individu
Jika hasil pada uji serentak menunjukkan bahwa H0 ditolak, maka perlu dilakukan uji individu dengan hipotesa :
H0 : βi = 0
H1 : βi ≠ 0
Untuk pengujian ini digunakan statistik uji t
D. Aplikasi Model Seleksi dengan Program SPSS
Akan diselidiki hubungan antara pengelolaan kelas, aktivitas belajar, dan pemanfaatan waktu luang dengan prestasi belajar matematika dari data berikut:
Prestasi belajar matematika | Pengelolaan kelas | Aktivitas belajar | Pemanfaatan waktu luang |
12 | 72 | 91 | 61 |
15 | 76 | 91 | 63 |
20 | 85 | 101 | 67 |
21 | 86 | 106 | 79 |
18 | 67 | 94 | 56 |
19 | 77 | 94 | 65 |
22 | 80 | 110 | 71 |
11 | 56 | 74 | 47 |
15 | 69 | 81 | 69 |
13 | 70 | 71 | 71 |
17 | 71 | 95 | 70 |
14 | 79 | 93 | 63 |
22 | 92 | 112 | 86 |
21 | 83 | 110 | 82 |
21 | 88 | 112 | 64 |
16 | 76 | 86 | 64 |
21 | 82 | 92 | 76 |
20 | 73 | 92 | 68 |
19 | 67 | 91 | 69 |
13 | 75 | 80 | 55 |
16 | 79 | 89 | 59 |
18 | 73 | 91 | 70 |
12 | 70 | 67 | 56 |
17 | 75 | 89 | 69 |
18 | 71 | 96 | 66 |
18 | 84 | 91 | 63 |
20 | 83 | 90 | 65 |
18 | 72 | 86 | 68 |
20 | 70 | 111 | 77 |
15 | 81 | 90 | 69 |
15 | 79 | 96 | 62 |
16 | 72 | 82 | 63 |
21 | 75 | 101 | 71 |
22 | 96 | 109 | 77 |
19 | 84 | 87 | 75 |
14 | 69 | 94 | 72 |
11 | 70 | 83 | 67 |
16 | 78 | 92 | 70 |
Pertanyaan
- Lakukan pengujian model dengan Metode Maju! Model apa yang di rekomendasikan?
- Lakukan pengujian model dengan Metode mundur! Model apa yang direkomendasikan?
- Lakukan pengujian model dengan Metode bertahap! Model apa yang direkomendasikan?
- Pilihlah model terbaik dari hubungan antara Y dengan X1, X2, dan X3 berdasar 3 metode yang anda lakukan tersebut!
Sebelum melakukan pengujian regresi berganda, lakukan dulu pengujian Korelasi bivariate!
Jawaban
Pengujian Korelasi Bivariat
1) Menyelidiki korelasi (hubungan) antar variabel
Correlations
[DataSet1] I:\Darurat\mutiara\anreg\tugas anreg\data skripsi.sav
Dari tabel di atas, didapati bahwa:
- Terdapat korelasi antara pengelolaan kelas dengan aktivitas belajar siswa, pengelolaan kelas dengan pemanfaatan waktu luang, dan pengelolaan kelas dengan prestasi belajar matematika.
- Terdapat korelasi antara aktivitas belajar siswa dengan pengelolaan kelas, aktivitas belajar siswa dengan pemanfaatan waktu luang, dan aktivitas belajar siswa dengan prestasi belajar matematika.
- Terdapat korelasi antara pemanfaatan waktu luang dengan pengelolaan kelas, pemanfaatan waktu luang dengan aktivitas belajar siswa, dan pemanfaatan waktu luang dengan prestasi belajar matematika.
- Terdapat korelasi antara prestasi belajar matematika dengan pengelolaan kelas, prestasi belajar matematika dengan aktivitas belajar siswa, dan prestasi belajar matematika dengan pemanfaatan waktu luang.
2) Menyelidiki besarnya pengaruh antar variabel
a) Menggunakan METODE ENTER
Dengan metode enter, diperoleh hasil sebagai berikut:
Regression
[DataSet1] I:\Darurat\mutiara\anreg\tugas anreg\data skripsi.sav
Tabel ini menunjukkan bahwa variabel bebas memberikan pengaruh 68.3% terhadap variabel terikat.
Pada tabel koefisien tersebut, tampak bahwa nilai sig dari pengelolaan kelas adalah 0.163 > 0.05. Jadi, pengelolaan kelas harus diabaikan.
Berikut ini hasil yang diperoleh tanpa variabel pengelolaan kelas.
Regression
[DataSet1] I:\Darurat\mutiara\anreg\tugas anreg\data skripsi.sav
Tabel ini menunjukkan bahwa variabel bebas memberikan pengaruh 66.4% terhadap variabel terikat.
Kesimpulan:
Persamaan regresi antara pengelolaan kelas, aktivitas belajar, dan pemanfaatan waktu luang dengan prestasi belajar matematika adalah y=-532.721+6.302X2+3.814X3
b) Menggunakan METODE MAJU
Dengan metode maju, diperoleh hasil sebagai berikut:
Regression
[DataSet1] I:\Darurat\mutiara\anreg\tugas anreg\data skripsi.sav
Tabel ini menunjukkan bahwa variabel bebas (aktivitas belajar siswa) memberikan pengaruh 61.9% terhadap variabel terikat (prestasi belajar matematika) dan variabel bebas (pemanfaatan waktu luang) memberikan pengaruh 66.4% terhadap variabel terikat (prestasi belajar matematika).
Kesimpulan:
Persamaan regresi antara pengelolaan kelas, aktivitas belajar, dan pemanfaatan waktu luang dengan prestasi belajar matematika adalah y=-532.721+6.302X2+3.814X3
c) Menggunakan METODE MUNDUR
Dengan metode mundur, diperoleh hasil sebagai berikut
Regression
[DataSet1] I:\Darurat\mutiara\anreg\tugas anreg\data skripsi.sav
Tabel ini menunjukkan bahwa variabel bebas (aktivitas belajar siswa) memberikan pengaruh 68.3% terhadap variabel terikat (prestasi belajar matematika) dan variabel bebas (pemanfaatan waktu luang) memberikan pengaruh 66.4% terhadap variabel terikat (prestasi belajar matematika).
Kesimpulan:
Persamaan regresi antara pengelolaan kelas, aktivitas belajar, dan pemanfaatan waktu luang dengan prestasi belajar matematika adalah y=-532.721+6.302X2+3.814X3
keterangan:
- X1=pengelolaan kelas
- X2=aktivitas belajar siswa
- X3=pemanfaatan waktu luang
- Y=prestasi belajar matematika dan Y sebagai variabel dependen
d) Metode stepwise
Regression
[DataSet0] E:\KULIAH S2\STATISTIKA\dataku bosss.sav
Tabel ini menunjukkan bahwa variabel bebas (aktivitas belajar siswa) memberikan pengaruh 60.4% terhadap variabel terikat (prestasi belajar matematika) dan variabel bebas (pemanfaatan waktu luang) memberikan pengaruh 64.9% terhadap variabel terikat (prestasi belajar matematika).
Kesimpulan :
Persamaan regresi antara pengelolaan kelas, aktivitas belajar, dan pemanfaatan waktu luang dengan prestasi belajar matematika adalah y=-7,414+0,184X2+0,113X3