Selasa, 10 Maret 2009

ALAT UKUR (INSTRUMEN)

VALIDITAS DAN RELIABILITAS ALAT UKUR

Validitas
Sifat valid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sesungguhnya dari apa yang kita inginkan. Jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja, penggaris merupakan alat ukur yang valid, karena dengan alat ini kita akan dapatkan berapa centi meter tinggi meja tersebut. Meteran gulung juga alat yang valid. Selain itu, pengukuran dengan jengkal tangan juga merupakan cara yang bisa dilakukan. Namun tidak demikian halnya jika kita gunakan termometer badan. Bagaimana kita bisa memperoleh tinggi meja hanya dengan sebuah termometer?
Dalam kesempatan lain kita menginginkan pengukuran tinggi terhadap tingkat keseahteraan keluarga. Bagaimana cara mengukur tingkat kesejahteraan keluarga? Berbagai variabel mungkin digunakan untuk itu, sebut saja: pendapatan keluarga, pengeluaran keluarga, pendidikan anak, dan tingkat gizi anggota keluarga. Kesemuanya bisa kita ajukan dan debatkan sebagai “alat” yang valid untuk tujuan yang diinginkan. Bagaimana halnya dengan pertanyaan berapa rata-rata lama meononto TV anggota keluarga tersebut? Apakah itu adalah ‘alat” yang valid? Untuk menjawab ini, coba jawab dulu dua pertanyaan berikut: 1. Apakah keluarga yang rata-rata menonton TV lebih besar, memiliki tingkat
kesejahteraan yang lebih tinggi?
2. Atau sebaliknya, apakah keluarga yang lebih sedikit menonton TV adalah keluarga yang lebih sejahtera? Jika Anda menjawab TIDAK untuk kedua pertanyaan tersebut, maka itu pertanyaan berapa rata-rata lama menonton TV anggota keluarga bukanlah “alat” yang valid untuk mengukur kesejahteraan keluarga.
Salah satu ukuran validitas untuk sebuah kuesioner adalah apa yang disebut sebagai validitas konstruk (construct validity). Dalam pemahaman ini, sebuah kuesioner yang berisi beberapa pertanyaan untuk mengukur suatu hal, dikatakan valid jika setiap butir pertanyaan yang menyusun kuesioner tersebut memiliki keterkaitan yang tinggi. Misalkan saja untuk kuesioner yang digunakan mengukur kesejahteraan keluarga, maka butir-butir penyusunnya semuanya menuju ke satu titik, yaitu
pengukuran kesejahteraan. Ukuran keterkatian antar butir pertanyaan ini umumnya dicerminkan oleh korelasi jawaban antar pertanyaan. Pertanyaan yang memiliki korelasi rendah dengan butir pertanyaan yang lain, dinyatakan sebagai pertanyaan yang tidak valid.
Metode yang sering digunakan untuk memberikan penilaian terhadap validitas kuesioner adalah korelasi produk momen (moment product correlation) antara skor setiap butir pertanyaan dengan skor total, sehingga sering disebut sebagai inter item-total correlation. Rumus yang digunakan untuk itu adalah sebagai berikut:



Dengan :
rXY = Korelasi antar variabel X dan Y
X = Skor setiap siswa untuk setiap item
Y = Skor total
N = Jumlah responden
Dengan kriteria pengujian yakni pada taraf α = 0,05 yaitu jika rtab < rhit maka item bersangkutan dikatakan valid. Sebaliknya rtab > rhit maka setiap item dikatakan tidak valid.
Mengukur Reliabilitas
Selanjutnya dilakukan perhitungan reliabilitas dengan menggunakan rumus Kuder Richardson 20 KR20 atau KR21, dengan rumus sebagai berikut:

Dengan: = koefisien reliabilitas tes hasil belajar secara keseluruhan 11r
k = banyaknya soal
p = proporsi siswa yang menjawab benar
q = proporsi siswa yang menjawab salah (q = 1 – p)
S = standar deviasi atau simpangan baku
Dengan kriteria pengujian yakni pada taraf α = 0,05 dimana jika r11 > rtab, maka tes/instrumen tersebut reliabel. Selain itu maka tes/instrumen tidak reliabel.
Sifat reliable (terandal) dari sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut memberikan hasil yang konsisten. Bisa dibayangkan jika kita mempunyai alat yang hasil pengukurannya berbeda-besda pada setiap kali proses pengukuran. Sekarang diperoleh hasil 50, beberapa saat kemudian dilakukan pengukuran ulang diperoleh hasil 100. Begitu seterusnya tidak pernah konvergen. Bagaimana kita menggunakan datanya? Hasil pengukuran mana yang kita gunakan? Trochim mengatakan bahwa In research, the term reliability means “reatability” or “consistency”. A measure is considered reliable if it would give us the same result over and over again (assuming that what we are measuring isn’t changing!).
Pada saat kita membahas kevalidan suatu alat, bisa disepakati bahwa meteran dan jengkal tangan si A merupakan dua alat yang valid untuk mengukur tinggi suatu objek atau benda. Jika benda itu adalah sebuah meja, dan kita melakukan pengukuran tinggi berulang-ulang dengan menggunakan meteran, hasil yang diperoleh tidak akan jauh berbeda. Seandainya pada pengukuran pertama diperoleh angka 1.02 meter, pengukuran selanjutnya akan memberikan hasil di sekitar nilai tersebut. Begitu juga dengan penggunaan jengkal tangan, hasil 5 jengkal si A pada pengukuran pertama juga akan didapatkan pada pengukuran berikutnya. Untuk kasus pengukuran tinggi meja, meteran dan jengkal tangan selain merupakan alat yang valid, juga alat yang RELIABLE (TERANDAL)
Bagaimana jika objek yang diukur adalah gedung 15 lantai? Mungkinkah jengkal tangan akan memberikan hasil yang konsisten? Kemungkinan besar TIDAK. Dalam hal ini, jengkal tidak lagi merupakan alat yang reliable. Sifat-sifat ini juga harus dimiliki oleh kuesioner yang akan digunakan untuk mengumpulkan data. Yang menjadi permasalahan adalah, bagaiamana cara kita mengetahui keterandalan (reliability) dari sebuah kuesioner. Mari kita lihat dengan lebih detail apa yang dimaksud dengan reliable (terandal) yang mengandung pengertian kemampuan kueisoner memberikan hasil pengukuran yang konsisten.
Kita mulai dengan terlebih dahulu mendefinisikan nilai X, yaitu sesuatu yang ingin kita ukur, ingin kita ketahui nilainya untuk suatu objek tertentu. Ini bisa berupa tingkat kesejahteraan sebuah keluarga, tingkat kepuasan seseorang pada pelayanan tertentu dan sebagainya. Selanjutnya, yang paling mudah untuk melihat kekonsistenan adalah dengan melakukan pengukuran sebanya dua kali, misalkan saja diperoleh X1 pada pengukuran pertama, dan X2 pada pengukuran kedua. Jika kita mengasumsikan bahwa cara kita mengukur tidak ada perbedaan (kalimat yang digunakan, kondisi responden, dsb), kita bisa menilai sejauh mana kekonsistenan hasil yang didapatkan. Andaikan saja setiap hasil pengukuran mengandung dua bagian, nilai yang sebenarnya (T) dan galat (e). Gambarannya adalah sebagai berikut.
Perlu diingat bahwa nilai yang kita peroleh adalah X dan kita tidak pernah tahu besarnya nilai T dan E. Misalkan saja, seseorang mungkin memberikan nilai 85 untuk tingkat kepuasan dia terhadap jalannya pemerintahan saat ini. Itu adalah apa yang kita peroleh, X sebesar 75. Namun, berapa tingkat kepuasan yang sebenarnya dari orang tersebut tidak pernah kita ketahui. Misalkan saja, yang sebenarnya adalah 89. Ini berarti bahwa galat (error) untuk orang tersebut adalah –14. Apa artinya? Mungkin, meskipun tingkat kepuasan sesungguhnya adalah 89, tapi karena hari itu adalah hari yang kurang menguntungkan bagi orang tersebut maka ketiak ditanyakan kepuasan, dia hanya memberikan 75. Faktor-faktor seperti ini yang memberikan kontribusi pada kesalahan pengukuran.
Kembali ke masalah keterandalan. Jika alat ukur (kuesioner) kita terandal, maka nilai X yang didapatkan dari dua kali pengukuran akan memberikan hasil yang (sangat) mirip. Mengapa begitu? Perhatikan kembali gambar di atas. Satu hal yang sama pada dua kali pengukuran adalah nilai T. Perbedaan subscript pada galat (E1 dan E2) menunjukkan bahwa keduanya berbeda nilainya. Ini berarti bahwa kedua nilai hasil pengukuran, X1 dan X2 terhubung hanya melalui T. Besarnya galat diasumsikan bersifat acak, kadang-kadang galat memiliki besaran yang membuat X membesar, kadangkala sebaliknya. Namun besarnya T, tetap.
Jadi bagaimana menentukan apakah dua pengamat/pengukur yang dilibatkan memiliki kekonsistenan antar mereka? Masalah ini sering kali tidak dimasukkan langsung dalam studi (penelitian yang dilakukan). Namun jika muncul ketidakkonsistenan, kita akhirnya terjebak karena memiliki data yang tidak bisa
diandalkan. Yang paling baik adalah melakukan studi pendahuluan untuk memeriksa hal ini. Jika penelitian itu berlangsung dalam jangka yang cukup panjang, perlu juga diperiksa kekonsistenan para pengukur/pengamat dari waktu ke waktu untuk memerikasa ada tidaknya perubahan.
Ada dua cara utama yang bisa digunakan untuk menduga inter-rate reliability. Jika pengukuran yang dilakukan melibatkan pengelompokkan, yaitu petugas pengukur/pengamat melakukan pengelompokkan berdasar apa yang ia lihat, kita bisa menghitung berapa persentase kesepakatan antar petugas. Sebagai contoh, misalkan kita memiliki 100 objek yang diamati dan dinilai/diukur oleh dua orang petugas. Untuk setiap objek amatan, petugas harus menentukan objek tersebut masuk kedalam satu dari tiga kelompok. Misalkan saja habwa ada 86 dari 100 objek yang dikelompokkan pada kelompok yang sama oleh kedua petugas. Pada contoh ini, persentase kesepakatan adalah 86%. Memang, itu adalah dugaan yang kasar, tapi memebrikan petunjuk berapa besar kesepakatan yang terjadi. Dan ini bisa dilakukan tidak tergantung berapa banyak kelompok yang ditentukan. Cara yang lain untuk menduga besarnya inter-rater reliability adalah jika pengukuran yang dilakukan menghasilkan nilai yang kontinu (numerik). Dalam hal ini, yang harus kita lakukan adalah menghitung korelasi antar rating yang dihasilkan oleh kedua petugas pengukur.
Sebagi contoh, mereka mungkin kita minta untuk memberikan penilaian terhadap keaktifan kelas kulaih, dengan memberi nilai antara 1 sampai 7. Kedua pengamat memberikan nilai untuk beberapa kelas. Korelasi antar nilai yang dihasilkan oleh keduanya bisa dijadikan penduga reliabilitas atau konsistensi antar petugas. Kita juga bisa menganggap bahwa reliabilitas jenis ini sebagai upaya “mengkalibrasi” petugas. Ada hal-hal lain yang bisa diupayakan untuk mengevaluasi keterandalan antar petugas, namun tidak menduga berapa besar nilainya. Misalkan, seseorang perawat yang bekerja di bagian psychiatric setiap pagi harus memeriksa pasien dengan mengajukan 10 butir pertanyaan. Dari pertanyaan tersebut perawat menilai kondisi pasien. Tentu saja kita tidak bisa mengharapkan perawat tersebut ada setiap hari, sehingga kadang kala harus digantikan oleh yang lain. Jelas bahwa harus ada kesepakatan antar perawat. Untuk memeriksanya mungkin diperlukan pertemuan mingguan membahas hasil penilaian, sehinggga jika ada ketidaksepakatan antar perawat bisa diluruskan disana.
Kita melakukan pendugaan reliability jika kita berhadapan dengan pengukuran yang sama (mirip) terhadap objek yang sama dalam dua waktu yang berbeda. Pendekatan ini mengasumsikan bahwa tidak ada perubahan substansial alat ukur yang gunakan pada obejk yang diukur dalam dua kurung waktu yang ditentukan. Jarak antar waktu yang digunakan sangat penting, hal ini karena kita pahami bahwa korelasi antar hasil pengamatan pada waktu yang berbeda dipengaruhi oleh jarak waktu antar pengamatan. Semakin sempit jarak waktunya, semakin tinggi korelasinya; sebaliknya semakin panjang jarak waktu antar pengamatan, semkain kecil korelasinya. Hal ini disebabkan pada pengamatn/pengukuran yang jaraknya sempit, faktor yagn mempengaruhi galat (error) relatif sama. Karena itulah, penduga yang kita peroleh sangat tergantung pada selang waktu antar pengukuran.
Parallel-Forms Reliability Mengenai jenis ini, pada tahap awal kita harus membuat dua form (alat ukur/kuesioner) sejenis. Salah satu cara untuk memperolehnya adlaah dengan membuat seklompok besar pertanyaanyang mengukur/menilai hal yang sama, dan secara acak membagi menjadi dua kelompok. Selanjutnya, kedua kelompok pertanyaan tersebut kita ajukan kepada responden. Korelasi antara nilai hasil kedua form/kelompok pertanyaan tersebut adalah penduga dari reliabilitas. Masalah utama dari cara ini adalah kita haurs mampu menyusun banyak pertanyaan yang mengukur satu hal. Ini sering kali tidak mudah. Lebih lannjut, pendekatan ini juga membuat asumsi bahwa pembagian secara acak pertanyaan tersebut mampu membuat form yang paralel (sama sifatnya).
Kadang kala, tidak selalu, pendekatan parallel form ini sangat mirip dengan split-half reliability, yang akan didiskusikan berikutnya. Perbedaan utamanya adalah, pada form paralel kedua kelompok pertanyaan disusun sehingga dapat digunakan secara bebas satu sama lain dan mengukur hal yang sama. Sebagai misal, untuk mengevaluasi keberhasil program, kita bisa menggunakan form ayng satu untuk pre-test dan form yang lain untuk post-test. Sedangkan pada split-half, kita hanya membuat satu gugus pertanyaan, satu alat ukur, hanya saja ketika akan menghitung dugaan keterandalan menggunakan proses pembagian secara acak butir-butir tersebut.
Internal Consistency Reliability Jenis yang selanjutnya adalah menggunakan satu alat ukur yang diajukan kepada sekelompok responden (objek). Pada kasus ini kita ingin mendapatkan penilaian seberapa bagus butir-butir pertanyaan yang terlibat
mampu memberikan hasil yang sama. Atau kit amelihat seberapa konsisten hasil dari butir-butir yang berbeda. Ada banyak macam ukuran kekonsistenan yang bisa digunakan.
Average Inter-item Correlation (rataan korelasi antar butir) Cara ini menggunakan semua bitir pertanyaan yang ada dalam alat ukur (kuesioner) yang didesain untuk mengukur satu hal. Pertama kali kita harus menghitung korelasi setiap pasang butir pertanyaan, seperti diilustrasikan pada gambar. Misalkan saja, jika ada enam butir pertanyaan maka akan ada sebanyak 15 pasang butir pertanyaan, 15 nilai korelasi yang diperoleh. Rata-rata dari korelasi antar butir itulah yang dijadikan penduga reliabilitas. Pada contoh di gamabr diperoelh rata-rata sebesar 0.90 dengan korelasi antar butir berkisar 0.84 hingga 0.95. Average Item-total Correlation (rataan korelasi antar butir-total)
Pada pendekatan ini yang digunakan adalah korelasi antara butir pertanyaan dengan total skor (sama dengan waktu kita membicarakan validitas). Mula-mula kita hitung total skor dari seluruh pertanyaan, kemudian dicari rata-rata setiab butir dengan total skor. Dari sana baru kita cari rata-ratanya. Ilustrasi pada gambar meberikan contoh kasus ada 6 butir pertanyaan, yang masing-masing korelasi dengan total skor berkisar 0.82 hingga 0.88, dan diperoelh rata-rata 0.85. Nilai inilah yang dijadikan penduga reliabilitas.
Tingkat Kesukaran Tes
Suatu tes hasil belajar yang baik memiliki proporsi butir soal yang tingkat kesukarannya seimbang, yaitu berdistribusi normal. Mengingat distribusi normal ini, maka dapat dijadikan pedoman bahwa proporsi tingkat kesukaran butir soal yang mudah, sedang dan sukar masing-masing adalah 27%, 46% dan 27% (Mudjijo, 1995: 62). Untuk mengetahui tingkat kesukatan tes dihitung dengan menggunakan rumus:
JSBP= (Sudijono, 1996: 372)
Keterangan :
B = Banyaknya siswa yang menjawab benar butir soal ke-i
JS = Jumlah siswa peserta tes
P = Tingkat kesukaran
Tabel 3. Kategori Tingkat Kesukaran
Nilai p
Kategori
P < 0,3
0,3 ≤ p ≤ 0,7
p > 0,7

Sukar, Sedang,Mudah
(Surapranata, 2005: 21)
Daya Pembeda Tes
Daya pembeda tes dihitung dengan menggunakan rumus:

(Surapranata, 2005: 31)
Keterangan:
D = Daya pembeda
AΣ = Jumlah peserta tes yang menjawab benar pada kelompok atas
BΣ = Jumlah peserta tes yang menjawab benar pada kelompok bawah
nA = Jumlah peserta tes kelompok atas
nB = Jumlah peserta tes kelompok bawah
Tabel 4. Kategori penafsiran daya pembeda
Nilai D
Klasifikasi
< 0,20
0,20 – 0,40
0,40 – 0,70
0,70 – 1,00
Bertanda negatif Jelek, Cukup, Baik, Sangat baik, Jelek sekali
(Sudijono, 1996: 389)

KEPUSTAKAAN
Suharsimi Arikunto, Prosedur Penelitian Suatu Pendekatan Praktek, PT Rineka Cipta, Jakarta: 1998.
Sudijono, A. Pengantar Evaluasi Pendidikan. Raja Grafindo Persada, Jakarta 1996.
Thoha. Teknik Evaluasi Pendidikan. Raja Grafindo Persada, Jakarta

Tidak ada komentar:

bisnis dahasyat!!!