Sabtu, 07 Mei 2011

Mengevaluasi Koefisien Reliabilitas


A.      Mengevaluasi Koefisien Reliabilitas
Pertanyaan penting lain ketika mempertimbangkan koefisien reliabilitas adalah “seberapa besar seharusnya koefisien reliabilitas?” mengingat, kita mengatakan uji koefisien reliabilitas dapat diartikan sebagai tafsiran proporsi varian skor tes yang di akibatkan oleh varian skor murni.
Idealnya koefisien reliabilitas adalah  1.0 sebab hal ini mengindikasikan bahwa 100 % dari skor  tes varian  adalah mutlak karena perbedaan antara individu. Akan tetapi, karena kesalahan pengukuran, reliabilitas yang sempurna tidak dapat dicapai. Koefisien reliabilitas dipengaruhi oleh  beberapa faktor yaitu  Konstruk yang di ukur, jumlah waktu yang tersedia untuk testing, cara pemberian skor, dan metode estimasi reliabilitas. 
1.      Konstruk. Beberapa konstruk lebih sulit untuk diukur dari pada konstruk lain karena daerah pokok lebih sulit untuk menyampel secara memadai. Kebiasaan pada umumnya, variabel – variabel personal lebih sulit untuk di ukur dari pada pengetahuan akademik. Akibatnya, level reliabilitas yang diterima untuk  mengukur “dependency / ketergantungan” dianggap ditolak untuk mengukur komprehensi/pemahaman  membaca. Dalam mengevaluasi penerimaan suatu koefisien reliabilitas  harus mempertimbangkan sifat dari variabel  penelitian dan bagaimana kesulitan  dalam mengukurnya. Dengan meninjau dan membandingkan estimasi reliabilitas dari instrumen – instrumen  yang tersedia untuk mengukur suatu konstruk, dapat ditentukan mana ukuran konstruk yang paling dipercaya.
2.      Waktu yang tersedia untuk testing. Jika waktu yang tersedia untuk testing terbatas, jumlah item yang bisa diatur terbatas pula dan sampling dari domain tes membuka peluang bagi terjadinya error yang lebih besar. Ini dapat terjadi dalam sebuah proyek penelitian yang kepala sekolahnya mengijinkan anda untuk melakukan study disekolahnya tetapi waktu yang diperkenankan  untuk mengukur semua variabel dalam penelitian anda hanya 20 menit. Contoh lain,  penyaringan untuk  masalah membaca yang dihadapi siswa dimana waktu yang diberikan tiap siswa hanya 15 menit. Sedangkan seorang psikolog mungkin butuh waktu  2 jam untuk tes kecerdasan individual yang terstandarisasi. Adalah tidak mungkin diharapkan level reliabilitas yang sama dari perbedaan signifikan proses pengukuran yang berbeda. Namun demikian, membandingkan koefisien reliabilitas yang terkait dengan instrumen yang dapat diatur dalam parameter situasi  testing  bisa membantu  seseorang memilih instrumen  yang terbaik untuk situasi ini.
3.      Penggunaan skor tes. Cara penggunaan skor tes merupakan pertimbangan pokok lainnya ketika mengevaluasi kecukupan koefisien reliabilitas. Tes diagnostik yang membentuk dasar untuk keputusan – keputusan utama tentang individu harus dilakukan dengan standar yang lebih tinggi  dari pada tes yang digunakan pada penelitian kelompok atau untuk penyaringan sejumlah besar individu. Contoh, diberikan tes kecerdasan individual yang digunakan dalam diagnosis keterbelakangan mental akan diharapkan untuk menghasilkan skor level reliabilitas yang sangat tinggi. Dalam konteks ini, kinerja pada tes kecerdasan memberikan informasi kritis yang digunakan untuk menentukan apakah seseorang memenuhi kriteria diagnostik. Sebaliknya, tes yang digunakan untuk menyaring semua siswa di sekolah dalam masalah membaca, diadakan untuk standar yang  kurang ketat. Dalam keadaan ini, instrumen yang digunakan hanya untuk tujuan penyaringan dan tidak ada  keputusan yang dibuat. Hal ini mengingatkan walaupun reliabilitas tinggi yang diinginkan dalam semua penilaian, standar yang dapat diterima bervariasi dengan cara tes skor yang bisa digunakan. Keputusan yang tinggi menuntut reliabilitas yang tinggi.
4.      Metode estimasi reliabilitas. Ukuran koefisien reliabilitas juga berhubungan dengan cara memilih pada estimasi reliabilitas. Beberapa metode cenderung menghasilkan estimasi yang tinggi dari pada metode lain. Sebagai akibatnya, ini sangat penting untuk mempertimbangkan metode yang akan digunakan untuk menghasilkan korelasi koefisien ketika mengevaluasi dan membandingkan reliabilitas tes – tes yang berbeda. Contoh, KR-20 dan koefisien tipe alfa biasanya menghasilkan reliabilitas estimasi lebih kecil dari pada yang diperoleh dengan menggunakan metode split – half (bagi dua). dalam tabel 4.5, reliabilitas bentuk alternatif  yang pelaksanaannya ditunda/tertunda memiliki banyak sumber eror dari pada metode lain yang  dan biasanya menghasilkan koefisien reliabilitas yang rendah. Ringkasnya, beberapa metode estimasi reliabilitas lebih tepat dan cenderung menghasilkan koefisien yang lebih besar, dan variabel ini seharusnya menjadi pertimbangan ketika mengevaluasi koefisien reliabilitas.
Pedoman Umum. Meskipun sudah jelas bahwa banyak faktor pertimbangan yang pantas ketika mengevaluasi koefisien reliabilitas, kita akan tetap menyediakan / memberikan beberapa pedoman umum.
1.      Jika sebuah tes digunakan dalam mengambil keputusan penting yang berdampak secara  signifikan terhadap seseorang, koefisien reliabilitasnya 0.90 atau 0.95.
Jika sebuah tes digunakan dalam mengambil keputusan penting yang memungkinkan pengaruh signifikan terhadap seseorang dan tidak mudah sebaliknya, itu layak untuk mengira koefisien reliabilitasnya 0.90 atau 0.95.
Level ini secara teratur bisa diperoleh dalam tes kecerdasan individual. Contoh, reliabilitas skala kecerdasan orang – orang dewasa wechsler- edisi ketiga (wechsler, 1997), hasil tes kecerdasan individual diperoleh 0.98.
2.      Estimasi reliabilitas 0.80 atau lebih, dapat diterima dalam situasi  tes apapun  dan biasanya pada laporan – laporan dari tes prestasi dan kepribadian menunjukkan hal ini. Contoh, The California Achievement Test/5 (CAT/5)(CTB/Macmillan/McGraw-Hill, 1993), sebuah kumpulan grup pengaturan tes prestasi yang sering digunakan dalam sekolah umum, koefisien reliabilitasnya melebihi 0.80 untuk sebagian besar sub tes.
3.      Tes kelas yang dibuat oleh guru dan tes yang digunakan untuk penyaringan, reliabilitas estimasi sekurang - kurangnya 0.70. Tes dalam kelas sering dikombinasikan untuk membentuk gabungan  dari hasil tes untuk menentukan nilai akhir, dan reliabilitas gabungan tersebut diharapkan menjadi lebih besar dari pada reliabilitas tes individu. Koefisien sebesar 0.70an  juga dapat diterima ketika  prosedur pendugaan yang diteliti tersedia berkaitan dengan kasus-kasus individual.
Menurut beberapa penulis koefisien reliabilitas 0.60 masih bisa diterima untuk penelitian grup, penilaian, dan pengukuran proyektif, tapi kami tidak menyarankan penggunaan penilaian – penilaian  yang menghasilkan skor estimasi reliabilitasnya dibawah 0.70. untuk diingat kembali, koefisien reliabilitas 0.60 mengindikasikan bahwa 40 % dari varian yang di observasi dapat merupakan  random erorr.  Seberapa besar kepercayaan anda terhadap hasil sebuah penilaian ketika anda tahu  bahwa 40 % dari varian merupakan random error?
Petunjuk terdahulu dalam koefisien reliabilitas dan besarnya keputusan kualitatif juga menjadi pertimbangan dalam konteks ini. Beberapa konstruk  lebih sulit diukur secara reliabel dari pada yang lain. Dari sudut pandang/perspektif pembangunan atau perkembangan, kita tahu bahwa munculnya ketrampilan - ketrampilan atau sikap dalam diri anak lebih sulit di ukur dari pada orang dewasa atau perkembangan ketrampilannya. Ketika suatu konstruk sulit di ukur, beberapa koefisien reliabilitas lebih besar dari 0.50 mungkin baik diterima karena masih terdapat lebih banyak lagi varian skor murni yang berkaitan dengan error varian. Namun demikian, sebelum memilih untuk mengukur dengan koefisien reliabilitas dibawah 0.70, pastikan memang tidak ada instrumen pengukuran yang lebih baik yang tersedia.
B.       Bagaimana Meningkatkan Reliabilitas
Pertanyaan pokok pada poin ini adalah “apa yang bisa kita lakukan untuk meningkatkan reliabilitas hasil penilaian kita?” pada intinya kita bertanya langkah – langkah apa yang dapat di ambil untuk memaksimalkan skor varian murni dan meminimalkan varian error, bisa jadi pendekatan  yang paling umum untuk meningkatkan reliabilitas pengukuran adalah dengan menambah jumlah item tes. Dalam konteks tes individu, Jika penambahan jumlah item tes dilakukan sambil tetap menjaga kesamaan kualitas dengan item aslinya, maka kita bisa meningkatkan  reliabilitas tes. Konsep ini telah diperkenalkan sebelumnya pada saat membahas tentang reliabilitas belah dua dan presentasi Formula Spearman-Brown. Pada kenyataannya, fariasi Formula Spearman-Brown dapat digunakan untuk memprediksi efek penambahan item tes terhadap  reliabilitas tes:
r  =  n    x     rxx
       1 + (n-1)rxx
Dimana:
            r           :  Estimasi reliabilitas dalam tes dengan item baru
            n          :  Faktor yang menunjukkan penambahan item tes
            rxx       :  Reliabilitas  tes awal (sebelumnya)
Untuk contoh, digunakan 25 bentuk soal tes matematika. Jika reliabilitas tesnya ada 0.80 dan kita mengestimasi untuk  meningkatkan reliabilitas kita dengan cara menambah 30 bentuk tes (faktor 1.2) rumusnya menjadi :
r  = 1,2   x   0,80     =    0,96  = 0,83
       1+(1,2-1)0,80         1,16

Tabel 4.6  menyediakan  contoh – contoh lain yang menggambarkan  akibat dari penambahan item tes terhadap reliabilitas. Pada baris pertama dari tabel tersebut terlihat bahwa penambahan jumlah item tes pada tes yang  reliabilitasnya  0.50 dengan faktor 1.25 menghasilkan reliabilitas prediksi  sebesar 0.56. Menambah jumlah item dengan faktor 2.0 (i.e., menggandakan jumlah item tes)  meningkatkan reliabilitas menjadi 0.67.


Table 4.6 reliability expected when increasing the number of items
Current reliability
The reliability expected when the number of items is increased by:
× 1,25
× 1,50
× 2,0
× 2,5
0,50
0,56
0,60
0,67
0,71
0,55
0,60
0,65
0,71
0,75
0,60
0,65
0,69
0,75
0,79
0,65
0,70
0,74
0,79
0,82
0,70
0,74
0,78
0,82
0,85
0,75
0,79
0,82
0,86
0,88
0,80
0,83
0,86
0,89
0,91
0,85
0,88
0,89
0,92
0,93
0,90
0,92
0,93
0,95
0,96

Dalam situasi tertentu beberapa faktor akan membatasi jumlah item yang bisa dimasukkan dalam sebuah tes. Contoh, guru pada umumnya mengembangkan tes yang diselenggarakan dalam interval waktu tertentu, biasanya waktu yang di alokasikan untuk jam pelajaran tertentu. Dalam situasi tersebut, reliabilitas dapat ditingkatkan dengan menggunakan beberapa pengukuran yang dikombinasikan untuk memperoleh skor rata – rata atau skor gabungan. Sebagaimana yang  telah dikemukakan sebelumnya, mengkombinasikan beberapa tes multipel dalam sebuah komposit linear akan meningkatkan reliabilitas pengukuran komponen tes.  Singkatnya,  apapun yang kita lakukan untuk memperoleh sample yang memadai akan meningkatkan reliabilitas pengukuran kita.
Pada chapter 6 kita akan membahas prosedur – prosedur secara bersama tentang  “bentuk – bentuk analisis” prosedur tersebut membantu kita untuk memilih, mengembangkan dan mempertahankan karakteristik pengukuran dengan baik. Sebelum diskusi tentang prosedur – prosedur secara detail, harus dicatat bahwa pilihan atau pengembangan bentuk yang bagus merupakan hal penting dalam tahap pengembangan tes yang baik. Memilih dan mengembangkan bentuk tes yang baik akan mempertinggi karakteristik pengukuran dari penilaian yang anda gunakan.
Cara lain untuk mengurangi akibat error pengukuran adalah apa yang Ghiselli, Campbell, dan Zedeck (1981) kemukakan mengenai “prosedur berumah tangga yang baik”. Menurut mereka  pengembang tes seharusnya mengembangkan item tes dengan seksama dan jelas. Mereka harus mengembangkan prosedur  - prosedur yang tepat mengenai pelaksanaan dan pemberian skor tes. Contohnya  memasukan instruksi yang jelas untuk penyelenggaraan terstandar, mengembangan rubrik dengan kualitas tinggi  untuk memfasilitasi skor yang reliabel, dan menuntut pelatihan yang luas sebelum seseorang dapat menyelenggarakan, memeriksa, atau menafsirkan tes.
C.    Masalah-Masalah Spesifik dalam Mengestimasi Reliabilitas
1.      Reliabilitas Tes Kecepatan. Sebuah tes kecepatan umumnya terdiri dari item-item yang relatif mudah namun dengan waktu yang terbatas sehingga tidak memungkinkan bagi setiap peserta tes untuk dapat menjawab dengan benar seluruh pertanyaan. Akibatnya, skor peserta tes pada tes kecepatan pada dasarnya merefleksikan kecepatan performans. Pada saat mengestimasi reliabilitas dari hasil tes kecepatan, estimasi yang diturunkan dari sebuah tes tunggal adalah tidak tepat. Karena itu,  tes ulang atau reliabilitas bentuk paralel dalam tes kecepatan adalah tepat, sedangkan tes belah dua, koefisien alpha, dan KR 20 harus dihindarkan.

2.      Reliabilitas sebagai fungsi level skor. Meski merupakan sesuatu yang sangat diharapkan, namun sebuah tes tidaklah selalu dapat mengukur dengan tingkat ketelitian yang sama dalam keseluruhan range skor. Jika suatu kelompok individu diberikan tes yang terlalu mudah atau terlalu sulit bagi mereka, sangat mungkin terjadi kita akan memiliki tambahan eror dalam skor. Akurasi yang rendah terjadi pada distribusi yang ekstrim di mana skor tes yang diperoleh menunjukan hasil yang semua benar atau semua salah. Dalam situasi seperti ini, adalah tidak cermat jika kita kemudian mengambil kesimpulan bahwa siswa yang gagal menjawab dengan benar semua pertanyaan yang diberikan pada tes intelektual adalah siswa yang tidak memiliki kecerdasan intelektual. Karena bisa saja yang terjadi adalah tes yang digunakan ternyata tidak cukup memadai untuk memberikan penilaian atas “kecakapan tingkat rendah” (low-level skill) yang diperlukan untuk mengukur kecerdasan intelektual anak. Hal ini berhubungan dengan kedaaan dimana tes tidak memiliki “lantai” (batas bawah) yang memadai. Sebaliknya, adalah juga tidak cermat jika membuat laporan bahwa siswa yang mampu menjawab dengan benar semua pertanyaan pada tes intelektual adalah siswa yang memiliki kecerdasan luar biasa. Bisa saja terjadi bahwa tesnya benar-benar terlalu mudah untuk sebuah pengukuran yang memadai,  berkaitan dengan situasi dimana tes tidak memiliki “plafon” (batas atas) yang cukup. Jadi, untuk kedua kasus ini kita membutuhkan tes yang lebih cocok. Pada umumnya, tes bakat dan tes prestasi dirancang untuk digunakan pada individu dengan level kemampuan tertentu. Ketika sebuah tes digunakan pada individu, baik dengan hasil yang ekstrim  maupun di luar itu, skornya mungkin tidak akan seakurat estimasi reliabilitas yang ditunjukkan. Dalam situasi seperti ini, studi lebih lanjut tentang reliabilitas dari skor ditunjukan pada level ini.

3.      Pembatasan rentangan (range). Nilai yang kita peroleh ketika menghitung koefisien reliabilitas tergantung pada karakteristik sampel atau kelompok individu yang menjadi basis analisis. Salah satu karakteristik sampel yang berpengaruh signifikan (penting) terhadap koefisien reliabilitas adalah “tingkat/derajat variasi yang ditunjukan” (varian). Lebih tepatnya, koefisien reliabilitas yang didasarkan pada sampel dengan varian yang besar (mengacu pada heterogenitas sampel) umumnya akan menghasilkan estimasi reliabilitas yang lebih tinggi daripada koefisien reliabilitas yang berbasis pada sampel dengan varian yang lebih kecil (berhubungan dengan homogenitas sampel). Ketika koefisien reliabilitas didasarkan pada sampel dengan range (rentangan) variabilitas yang dibatasi, koefisien mungkin  sebenarnya lebih rendah dari perkiraan reliabilitas pengukuran. Sebagai contoh, jika anda mendasarkan analisis reliabilitas pada siswa di kelas anak - anak berbakat di mana praktis semua skor menunjukan hasil yang patut dicontoh (misalnya >90% benar), anda akan mendapatkan estimasi reliabilitas yang lebih rendah ketimbang analisis yang sama yang dilakukan pada kelas dengan distribusi skor yang lebih luas dan mendekati normal.

4.      Tes Penguasaan (Mastery Testing).
Tes yang mengacu pada criteria tertentu (criterion-referenced test) digunakan untuk membuat interpretasi relatif  terhadap level performance tertentu. Contoh dari tes ini adalah tes penguasaan untuk mengevaluasi performance dalam arti lebih sebagai pencapaian suatu skor yang dipotong daripada sekedar mengukur tingkat pencapaian. Perhatian dari tes ini lebih kepada klasifikasi. Setiap peserta, baik yang memiliki skor yang sama dengan skor yang dipotong maupun yang memiliki skor di atasnya,  diklasifikasikan sebagai telah menguasai skill atau domain. Sebaliknya, mereka yang memiliki skor di bawah skor yang dipotong diklasifikasikan sebagai belum menguasai. Tes penguasaan sering menghasilkan variabilitas terbatas antar peserta tes juga antar hasil performance dengan koefisien reliabilitas yang kecil. Akibatnya, estimasi reliabilitas yang didiskusikan pada bab ini tidak cukup untuk menilai reliabilitas skor tes penguasaan. Dengan penekanan pada klasifikasi tersebut, pendekatan yang direkomendasikan adalah dengan menggunakan indeks yang merefleksikan konsistensi klasifikasi (AERA, dkk, 1999).


D.    Standar Kesalahan Pengukuran
Koefisien Reliabilitas diinterpretasikan dalam bentuk  proporsi dari variansi pengamatan yang terkait dengan variansi kebenaran dan cara yang bermanfaat untuk membandingkan skor realibitas yang dihasilkan dari prosedur penilaian yang berbeda. Hal lain dijadikan sama, kamu akan meyeleksi tes yang menghasilkan   skor dengan  reliabilitas yang terbaik. Akan tetapi, segera setelah tes itu diseleksi dan fokusnya pada menafsirkan skor, standar kesalahan  Pengukuran (SEM) adalah suatu cara statistik yang lebih praktis. SEM adalah  standar deviasi dari distribusi skor yang diperoleh dari seseorang jika dites dalam jumlah yang tak terbatas, dan dari bentuk test paralel yang terdiri dari item-item yang secara random dijadikan sampling dari kandungan/isi domain yang sama. Dengan kata lain jika kita mengkreasikan jumlah yang tidak terbatas dari bentuk paralel sebuah test dan  memiliki orang yang sama tanpa efek2 yang dibawa, kehadiran dari kesalahan pengukuran mencegah seseorang dalam memperoleh skor yang sama setiap waktu. Meskipun setiap tes kemungkinannya memiliki kandungan domain yang sama,  pengambil tes akan tampil lebih baik pada beberapa tes dan lebih buruk pada tes lainnya, hal ini disebabkan karena  kesalahan random. Pengambilan skor yang diperoleh  pada semua tes akan menghasilkan distribusi skor. Pengertian dari distribusi tersebut di atas adalah skor individual sebenarnya (T) dan SEM adalah deviasi standar dari distribusi skor yang eror. Jelasnya, kita tidak akan mudah untuk mengikuti prosedur-prosedur ini dan harus mengestimasi SEM menggunakan informasi yang tersedia untuk kita.
1.      Mengevaluasi Standar Kesalahan Pengukuran
SEM adalah fungsi dari reliabilitas (rxx) dan deviasi standar (SD) dari test. Ketika mengkalkulasi SEM, koefisien reliabilitas mempertimbangkan pengukuran eror yang terdapat  dalam skor test, dan deviasi standar merefleksikan variabilitas dari skor-skor dalam sebuah distribusi. SEM diestimasikan menggunakan formula berikut :
SEM = SD√1-rxx
Dimana SD  =  deviasi standar  dari skor-skor yang diperoleh
               rxx  = reliabilitas dari tes
Mari  melalui 2 contoh. Pertama, mari kita anggap sebuah test dengan deviasi standar 10 dan reliabilitas 0,90.
Contoh 1: SEM = √1- 0,90
                         =√0,10
                       SEM = 3,2
Sekarang mari kita anggap sebuah test dengan deviasi standar 10 dan reabilitas 0,80. Standar Deviasi sama dengan contoh sebelumnya, tetapi reliabilitas lebih rendah.
Contoh 2: SEM = √ 1- 0,80
                         = √ 0,20
                 SEM = 4,5
Perhatian, bahwa reliabilitas dari sebuah skor test menurun , SEM meningkat, Karena koefisien reliabilitas bagian dari variansi skor yang diamati , karena variansi skor yang benar dan SEM adalah sebuah estimasi  jumlah yang eror dalam skor test, hubungan terbalik ini yang diharapkan dalam ketelitian sebuah skor tes. Semakin bagus realibilitas skor test semakin kecil SEM dan semakin kita yakin atau percaya akan ketelitian dari sebuah test, semakin besar SEM, dan semakin kita tidak yakin atau percaya akan ketelitian sebuah skor test.
Tabel 4.7. menunjukan SEM sebagai sebuah fungsi dari deviasi standard dan reliabilitas. Pada baris pertama dalam tabel menunjukan bahwa sebuah tes dengan deviasi standar 30 dan koefisien reabilitas dari skor test 0.90 SEM adalah 9,5; jika realibilitas dari test 0,85, SEM 11,6; dan sebagainya. SEM digunakan dalam menghitung interval-interval  atau merek (brand) disekitar skor yang diamati dimana skor yang  benar diperkirakan turun. Sekarang kita akan beralih ke aplikasi SEM.
Table 4.7 Standard Error of Measurement for Values of reliability and Standard Deviation
SD
Reliability Coefficients
0,95
0,90
0,85
0,80
0,75
0,70
30
6,7
9,5
11,6
13,4
15,0
16,4
28
6,3
8,9
10,8
12,5
14,0
15,3
26
5,8
8,2
10,1
11,6
13,0
14,2
24
5,4
7,6
9,3
10,7
12,0
13,1
22
4,9
7,0
8,5
9,8
11,0
12,0
20
4,5
6,3
7,7
8,9
10,0
11,0
18
4,0
5,7
7,0
8,0
9,0
9,9
16
3,6
5,1
6,2
7,2
8,0
8,8
14
3,1
4,4
5,4
6,3
7,0
7,7
12
2,7
3,8
4,6
5,4
6,0
6,6
10
2,2
3,2
3,9
4,5
5,0
5,5
8
1,8
2,5
3,1
3,6
4,0
4,4
6
1,3
1,9
2,3
2,7
3,0
3,3
4
0,9
1,3
1,5
1,8
2,0
2,2
2
0,4
0,6
0,8
0,9
1,0
1,1


2.      Menghitung Interval Kepercayaan.
Interval kepercayaan mencerminkan kisaran skor dimana mengandung skor individual yang benar dengan probabilitas yang ditentukan (AERA, dkk,1999). Kita menggunakan SEM untuk mengkalkulasi interval kepercayaan. Ketika memperkenalkan SEM, kita mengatakan SEM menyediakan informasi  tentang distribusi dari skor yang diamati disekitar skor yang benar. Lebih tepatnya, kita mendefenisikan SEM sebagai deviasi standar dari distribusi skor-skor yang eror. Seperti deviasi standar lainnya SEM dapat diinterpretasikan ke dalam bentuk frekuensi-frekuensi yang dipresentasikan dalam bentuk distribusi normal.
Pada bab sebelumnya kita tunjukan bahwa kira2 68% dari skor dalam distribusi normal terletak diantara satu deviasi standar dibawah rata-rata (mean) dan satu deviasi standar diatas rata (mean). Hasilnya kira-kira 68% dari waktu skor individual yang diamati diharapkan menjadi ± 1 SEM dari skor yang benar. Contohnya, jika seorang memiliki skor yang benar yaitu 70 dalam sebuah test dengan SEM 3 kemudian kita mengharapkan orang itu memperoleh skor diantara 67 dan 73, (skor yang diperoleh ±1 SEM) 68% dari waktu. Jadi kita dapat berharap skornya diantara 64,12 dan 75,88 dengan interval kepercayaan 95% (diperoleh skor ± 1,96 SEM).
Hal ini menjadi catatan akan hubungan antara reliabilitas dari skor tes, SEM, dan interval kepercayaan. Ingat,  kita mencatat bahwa skor reliabilitas bertambah, SEMnya berkurang. Hubungan yang sama terjadi antara  reliabilitas tes dan interval kepercayaan. Bila reliabilitas skor tes bertambah (menunjukkan kurangnya kesalahan pengukuran), interval kepercayaan menjadi lebih kecil. (menunjukkan ketelitian dalam pengukuran).
Keuntungan dari SEM dan penggunaan interval kepercayaan adalah bahwa mereka menyajikan dan mengingatkan kita bahwa kesalahan pengukuran ada dalam semua skor dan kita seharusnya menginterpretasikan skor dengan hati-hati. Suatu skor tunggal sering diinterpresatikan jika itu tepat dan tidak terkait dengan eror. Contoh, jika Susie memiliki skala IQ 113, orangtuanya mungkin menyatakan secara tidak langsung IQnya Susie persis 113. Jika kita menggunakan tes IQ tingkat tinggi seperti Wechsler Intelligence Scale for Children- edisi IV atau Reynolds Intellectual Assessment Scales, kemungkinan diperoleh estimasi yang bagus dari IQnya tersebut. Akan tetapi, instrument penilaian yang baik diperoleh skor yang  mengandung beberapa tingkat kesalahan dan SEM, dan interval kepercayaan membantu kita mengilustrasikan itu. Informasi ini dapat dilaporkan dengan cara yang berbeda dalam laporan-laporan tertulis. Contohnya, Kaufman dan Lichtenberger (1999) merekomendasikan format berikut ini:

Susie memperoleh skala IQ 113 ( antara 108 dan 118 dengan kepercayaan 95%).
Kamphaus (2001) merekomendasikan format yang sedikit berbeda: Susie memperoleh skala IQ  diatas rata-rata, dengan 95% kemungkinan  IQnya turun antara 108 dan 118.
Terlepas dari format tepat yang digunakan, cakupan interval kepercayaan menyoroti fakta bahwa skor tes mengandung beberapa derajat kesalahan pengukuran dan harus diinterpretasikan dengan hati-hati. Kebanyakan tes profesional yang dipublikasikan baik skor-skor yang dilaporkan di mana  pengambil skor tes kemungkinan surut atau memberikan informasi dalam menghitung interval kepercayaan ini.

E.  Reliabilitas: Strategi Praktis untuk Guru
Sekarang Anda menyadari pentingnya reliabilitas pengukuran, pertanyaan mendasar adalah "Bagaimana saya bisa mengestimasi reliabilitas skor pada tes kelas saya?" Kebanyakan guru memiliki beberapa pilihan untuk mengestimasi reliabilitas skor tes. Pertama, jika Anda menggunakan tes pilihan ganda atau lainnya yang bisa dinilai oleh sebuah program komputer penilaian, hasil cetak skor biasanya akan melaporkan beberapa estimasi reliabilitas (misalnya, koefisien alpha atau KR-20). Jika Anda tidak memiliki akses ke skor komputer, tetapi item pada tes adalah kesulitan kurang lebih sama dan nilai / skor (yaitu, benar / salah), ), Anda dapat menggunakan estimasi reliabilitas konsistensi internal yang dikenal sebagai rumus Kuder-Richardson 21 (KR-21). Formula ini sebenarnya perkiraan KR.20 yang dibahas sebelumnya dan biasanya cukup untuk tes kelas. Untuk menghitung KR-21 Anda hanya perlu mengetahui mean, varians, dan jumlah item pada tes:
Dimana :
                        X  = Mean
                         = Varian
                        n   = Nomor item

Pertimbangkan set berikut skor 20: 50, 48,47,46,42,42,41,40, 40, 38,37,36,36, 35, 34, 32,32,31,30, dan 28. Di sini X = 38.25, ot = 39,8, dan n = 50. Oleh karena itu,

 1  0.23

Seperti yang Anda lihat, ini adalah prosedur yang cukup sederhana. Jika Anda memiliki akses ke komputer dengan program spread-sheet atau kalkulator dengan fungsi mean dan varians, Anda dapat memperkirakan reliabilitas tes kelas dengan mudah dalam hitungan menit dengan formula ini.
Minat Khusus Topik 4.4 menyajikan pendekatan pintas untuk menghitung formula 2l Kuder-Richardson (KR-21):
Cara Cepat  untuk Mengestimasi Reliabilitas untuk Ujian Kelas

Saupe (1961) memberikan metode yang cepat bagi guru untuk menghitung releabilitas untuk ujian kelas di era sebelum mengakses ke kalkulator atau komputer. Hal ini sesuai untuk tes di mana setiap item diberi bobot yang sama dan masing-masing item dinilai benar atau salah. Pertama, deviasi standar ujian harus diestimasi dari pendekatan sederhana:

SD 


Kemudian reliabilitas dapat di estimasi dari :

Reliabilitas  [ 0.19 x jumlah item] / SD2

Jadi, misalnya, di kelas dengan 24 nilai tes siswa, yang atas seperenam dari skor 98. 92,
87, dan 86, sedangkan bagian bawah seperenam skor 48,72,74, dan 75 dengan 25 item tes, perhitungannya adalah:

SD  

 [ 363 ]/ 11.5
 94 / 11.5
= 8.17

Jadi,
Reliabilitas  [ 0.19 x 25] / 8.172
 0.07
0.93

Koefisien reliabilitas 0,93 untuk tes adalah baik sekali! Jangan cemas jika hasil dalam ruangan tes Anda tidak mencapai tingkat reliabilitas yang tinggi.

Tabel 4.8 KR – 21 Estimasi Reliabilitas untuk tes dengan Mean 80 %

Standar Deviasi Tes
Nomor Item (n)                                    0.10(n)                         0.15(n)                         0.20(n)
            10                                -                                   0.29                             0.60
20                                0.20                             0.64                             0.80
30                                0.47                             0.76                             0.87
40                                0.60                             0.82                             0.90
50                                0.68                             0.86                             0.92
75                                0.79                             0.91                             0.95
100                              0.84                             0.93                             0.96

Jika Anda ingin menghindari bahkan perhitungan ini terbatas, kami mempersiapkan Tabel 4.8, yang memungkinkan Anda untuk mengestimasi reliabilitas KR-21 untuk tes kelas dengan skor dikotomus  jika Anda tahu deviasi standar dan jumlah item (tabel ini adalah model setelah tabel awalnya disajikan oleh Deiderich, 1973). Tabel ini cocok untuk tes dengan rata-rata sekitar 80% benar (kita menggunakan rata-rata 80% benar karena cukup mewakili banyak tes kelas). Untuk mengilustrasikan penerapannya, pertimbangkan contoh berikut. ( jika tes Anda memiliki 50 item dan SD 8, pilih "Jumlah item" baris untuk 50 item dan "Standar Deviasi" kolom untuk 0.l5n, karena 0,15 (50) = 7,5, yang dekat dengan Anda yang sebenarnya SD 8. Nomor di persimpangan adalah 0,86, yang merupakan reliabilitas sangat pantas untuk tes kelas (atau tes profesional yang dikembangkan untuk hal ini).
Jika Anda memeriksa Tabel 4.8, Anda mungkin akan mendeteksi kecenderungan dengan cukup jelas :
 Pertama, Semakin banyak item pada tes tersebut, estimasi koefisien reliabilitas semakin tinggi.
Kedua, Tes dengan standar deviasi yang lebih besar (yaitu, varians) menghasilkan hasil yang lebih dapat diandalkan. Misalnya, tes 30-item dengan SD 3-yaitu 0,10 (n) - hasil estimasi reliabilitas 0,47, sementara yang lainnya SD 4,5 - yaitu 0,15(n) - hasil dalam estimasi reliabilitas 0,76. Hal ini mencerminkan kecenderungan kita yang dijelaskan sebelumnya bahwa hasil varian skor dibatasi oleh koefisien reliabilitas yang lebih kecil.
Kita harus mencatat bahwa ketika kita  memasukan dalam kolom untuk standar deviasi 0,20 (n), standar deviasi yang besar ini jarang ditemukan dalam tes kelas (Deiderich, 1973). kenyataannya, dari pengalaman kita lazim untuk  tes kelas dengan standar deviasi mendekati  0.10 (n). Sebelum meninggalkan diskusi kita tentang KR-21 dan aplikasinya untuk tes kelas, kami ingin mengingatkan Anda bahwa KR-21 hanyalah sebuah pendekatan dari KR-20 atau koefisien alpha. KR-21 mengasumsikan item-item tes kesulitannya sama dan biasanya sedikit lebih rendah dari KR-20 atau koefisien alpha (Hopkins, 1998). Namun demikian, jika asumsi tersebut tidak terlalu dilanggar, itu mungkin estimasi reliabilitas yang cukup baik untuk aplikasi di banyak kelas.
Diskusi pintas kita tentang estimasi reliabilitas ini telah dibatasi pada tes yang di skor dikotomus. banyak penilaian guru menggunakan skor yang tidak dikotomus dan ini membuat situasi sedikit lebih rumit. Jika item Anda tidak diskor dikotomus, Anda dapat menghitung koefisien alpha dengan relatif mudah menggunakan spreadsheet yang umum tersedia seperti Microsoft Excel. Dengan sedikit usaha Anda harus dapat menggunakan spreadsheet untuk melakukan perhitungan yang diilustrasikan sebelumnya pada Tabel 4.3 dan 4.4.

Ringkasan
Reliabilitas mengacu pada konsistensi skor tes. Jika tes atau prosedur penilaian lainnya menghasilkan pengukuran yang konsisten, skor
nya dapat dipercaya. Mengapa reliabilitas begitu penting? Sebagaimana yang telah kita tekankan, penilaian berguna karena memberikan informasi yang membantu pendidik membuat keputusan yang lebih baik. Namun, reliabilitas (dan validitas) merupakan informasi pokok yang penting.
Bagi kita untuk membuat keputusan yang baik, kita perlu informasi yang dapat dipercaya. Dengan mengestimasi reliabilitas hasil penilaian, kita mendapatkan indikasi seberapa banyak kepercayaan kita dapat ditempatkan di dalamnya. Jika kita memiliki informasi yang sangat reliabel dan valid, kemungkinan besar kita dapat menggunakan informasi tersebut untuk membuat keputusan yang lebih baik. Jika hasil tidak reliabel, informasinya merupakan nilai yang kecil bagi kita.
Kesalahan pengukuran mengurangi reliabilitas pengukuran dan karena itu mengurangi kegunaan pengukuran. Meskipun ada beberapa sumber kesalahan pengukuran, yang utama adalah pengambilan sampel konten dan kesalahan waktu sampling. Kesalahan sampling konten mengurangi kesempurnaan sampling dari domain konten.
Tes yang lebih representatif dari domain konten, mengurangi kesalahan dalam sampling konten yang mengancam reliabilitas tes. Kesalahan waktu sampling merupakan hasil dari perubahan acak pengambil tes atau lingkungan dari waktu ke waktu. Para ahli dalam pengujian dan pengukuran telah mengembangkan metode estimasi kesalahan ini dan sumber lainnya, termasuk pendekatan utama untuk mengestimasi reliabilitas berikut ini:
·          Test-retes Releiability melibatkan administrasi pengujian yang sama kepada sekelompok orang pada dua kesempatan yang berbeda. Korelasi antara kedua set nilai adalah tes-tes ulang koefisien reliabilitas dan mencerminkan kesalahan karena waktu sampling
·         Alternative-form Reliability melibatkan administrasi bentuk paralel tes untuk Kelompok individu. korelasi antara skor pada dua bentuk adalah koefisien reliabilitas. Jika dua bentuk yang diberikan pada saat yang sama, mencerminkan koefisien reliabilitas kesalahan sampling konten. Jika dua bentuk tes yang diberikan pada waktu yang berbeda, koefisien reliabilitas mencerminkan baik konten dan kesalahan waktu sampling.
·       Internal-consistency reliabilitas berasal dari pelaksanaan tes tunggal. Reliabilitas belah dua membagi tes menjadi dua bagian dan menghitung korelasi antara dua bagian tersebut. Perbandingkan kinerja pada dua bagian tes, koefisien alpha dan pendekatan Kuder-Richardson memeriksa konsistensi antara semua item tes individu. Reliabilitas belah dua mencerminkan kesalahan sampling konten sedangkan koefisien alpha dan pendekatan Kuder-Richardson mencerminkan heterogenitas item dan kesalahan  sampling konten.
·         Inter-rater reliability diperkirakan dengan pelaksanaan tes sekali tetapi memiliki respon dinilai oleh pemeriksa yang berbeda. Dengan membandingkan nilai yang diberikan oleh pemeriksa yang berbeda, kita dapat menentukan pengaruh dari perbedaan penilai atau skornya. Inter-rater reliability penting untuk memeriksa ketika pemberian skor melibatkan penilaian yang cukup subjektif.

Meskipun koefisien reliabilitas berguna ketika membandingkan reliabilitas dari tes yang berbeda, standard error pengukuran (SEM) lebih berguna ketika menginterpretasikan skor. SEM adalah suatu indeks jumlah kesalahan dalam skor tes dan digunakan dalam menghitung interval kepercayaan di mana kita dapat menentukan nilai nilai yang benar. Suatu keuntungan dari SEM dan penggunaan interval keyakinan bahwa SEM mengingatkan kita bahwa kesalahan pengukuran hadir dalam semua skor dan kita harus berhati-hati ketika menginterpretasikan skor.

Tidak ada komentar:

Posting Komentar