BAB V
ANALISIS
KUALITAS TES DAN BUTIRAN SOAL
Analisis kualitas tes merupakan suatu tahap
yang harus ditempuh untuk mengetahui kuliatas tes, baik secara keseluruhan
maupun butir soal yang menjadi bagian dari tes tersebut. Analisis kualitas tes berkaitan dengan
pertanyaan apakah tes sebagai suatu alat ukur benar-benar mengukur apa yang
hendak dan seharusnya diukur? Hinggamana tes tersebut dapat diandalkan dan
berguna? Kedua pertanyaan ini sebenarnya menunjuk pada dua hal pokok, yaitu
validitas dan reliabilitas. Kedua hal ini sekaligus merupakan karakteristik
alat ukur yang baik.
A. Validitas
Untuk melihat apakah suatu tes
tersebut valid (sahih), Anda harus membandingkan skor peserta didik yang
didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai
ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan
dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin
mendekati kedua skor tersebut, maka semakin soal ujian akhir tadi dapat
dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan
tes tersebut. Namun demikian, tidak ada validitas yang berlaku secara umum.
Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat
digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan
tersebut.
Ada dua unsur penting dalam
validitas ini. Pertama, validitas menunjukkan suatu derajat, ada yang
sempurna, ada yang sedang, dan ada pula yang rendah. Kedua, validitas
selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik. Ada tiga
faktor yang mempengaruhi validitas hasil tes, yaitu “faktor instrumen evaluasi,
faktor administrasi evaluasi dan penskoran, dan faktor dari jawaban peserta
didik”.
1. Faktor instrumen evaluasi
Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi
jika seorang evaluator tidak atau kurang memahami prosedur dan teknik evaluasi
itu sendiri. Jika instrumen evaluasi kurang baik, maka dapat berakibat hasil
evaluasi menjadi kurang baik. Untuk itu, dalam mengembangkan instrumen
evaluasi, seorang evaluator harus memperhatikan hal-hal yang mempengaruhi
validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen, seperti
silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar
jawaban, kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban,
tingkat kesukaran, daya pembeda, dan sebagainya.
2. Faktor administrasi evaluasi dan penskoran
Dalam administrasi evaluasi
dan penskoran, banyak sekali terjadi penyimpangan atau kekeliruan, seperti :
alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan bantuan
kepada peserta didik dengan berbagai cara, peserta didik saling menyontek
ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta
didik yang kurang menguntungkan.
3. Faktor jawaban dari peserta didik
Dalam praktiknya, faktor
jawaban peserta didik justru lebih banyak berpengaruh daripada dua faktor
sebelumnya. Faktor ini meliputi kecenderungan peserta didik untuk menjawab
secara cepat tetapi tidak tepat, keinginan melakukan coba-coba, dan penggunaan
gaya bahasa tertentu dalam menjawab soal bentuk uraian.
Validitas berkenaan dengan
ketepatan alat ukur terhadap konsep yang diukur, sehingga betul‑betul mengukur
apa yang seharusnya diukur. Sebagai contoh,
ingin mengukur kemampuan siswa dalam matematika. Kemudian diberikan
soal dengan kalimat yang panjang dan yang berbelit‑belit sehingga sukar
ditangkap maknanya.Akhimya siswa tidak dapat menjawab, akibat tidak memahami
pertanyaannya. Contoh lain, peneliti ingin mengukur kemampuan berbicara, tapi
ditanya mengenai tata bahasa atau kesusastraan seperti puisi atau sajak.
Pengukur tersebut tidak tepat(valid).Validitas tidak berlaku universal sebab
bergantung pada situasi dan tujuan penelitian. Instrumen yang telah valid
untuk suatu tujuan tertentu belum otomatis akan valid untuk tujuan yang lain. Contoh
variabel prestasi belajar dan motivasi bisa diukur oleh tes ataupun oleh
kuesioner.Caranya juga bisa berbeda, tes bisa dilaksanakan secara tertulis
atau bisa secara lisan.
Jenis Validitas antara lain :
(a) Validitas isi
Validitas isi berkenaan dengan
kesanggupan instrumen mengukur isi yang harus diukur.Artinya, alat ukur
tersebut mampu mengungkap isi suatu konsep atau variabel yang hendak
diukur.Misalnya tes hasil belajar bidang studi IPS, harus bisa mengungkap isi
bidang studi tersebut. Hal ini bisa dilakukan dengan cara menyusun tes yang
bersumber dari kurikulum bidang studi yang hendak diukur. Di samping kurikulum
dapat juga diperkaya dengan melihat/mengkaji buku sumber.Sungguhpun demikian
tes hasil belajar tidak mungkin dapat mengungkap semua materi yang ada dalam
bidang studi tertentu sekalipun hanya untuk satu semester.Oleh sebab itu harus
diambil sebagian dari materi dalam bentuk sampel tes.Sebagai sampel maka harus
dapat mencerminkan materi yang terkandung dari seluruh materi bidang studi.Cara
yang ditempuh dalam menetapkan sampel tes adalah memilih konsep‑konsep yang
esensial dari materi yang di dalamnya.Misalnya menetapkan sejumlah konsep dari
setiap pokok bahasan yang ada.Dari setiap konsep dikembangkan beberapa
pertanyaan tes (lihat bagan).Di sinilah pentingnya peranan kisi‑kisi sebagai
alat untuk memenuhi validitas isi.
INSTRUMEN
VALIDITAS ISI
Nama
Perangkat :
Butir Soal
Mata
Pelajaran : PKn
Materi
Pokok :
Demokrasi
Kelas/
Semester :
V/ I
Satuan
Pendidikan :
SD
Nama
Pengembang Perangkat :
No. |
Bidang Telaah |
Kriteria |
Penilaian |
Rata- rata |
||||
1 |
2 |
3 |
4 |
5 |
||||
1. |
Materi Soal |
a. Sesuai
dengan indikator. b. Pengecoh
akan berfungsi. c. Hanya
ada satu jawaban yang benar. |
|
|
|
|
|
|
2. |
Konstruksi |
d. Pokok
soal dirumuskan dengan benar. e. Pokok
soal tidak memberikan petunjuk jawaban. f.
Pokok soal tidak bersifat negatif ganda. g. Pilihan
jawaban homogen dan logis. h. Butir
soal tidak bergantung pada jawaban sebelumnya. |
|
|
|
|
|
|
3. |
Bahasa |
i.
Soal menggunakan bahasa
dengan kaidah bahasa Indonesia. j.
Soal menggunakan bahasa
yang komunikatif. k. Pilihan
jawaban tidak menggunakan kata yang kurang jelas. |
|
|
|
|
|
|
4. |
Penilaian umum
perangkat soal |
|
|
|
|
|
|
|
5. |
Nilai rata- rata |
|
|
|
|
|
|
|
Keterangan:
- Kurang Sekali 4. Baik
- Kurang 5. Amat Baik
- Cukup
Medan, Sep
2015
Validator
Dalam hal tertentu tes yang
telah disusun sesuai dengan kurikulum (materi dan tujuannya) agar memenuhi
validitas isi, peneliti atau pemakai tes dapat meminta bantuan ahli bidang
studi untuk menelaah apakah konsep materi yang diajukan telah memadai atau
tidak, sebagai sampel tes. Dengan demikian validitas isi tidak memerlukan uji
coba dan analisis statistik atau dinyatakan dalam bentuk angka-angka.
(b) Validitas bangun pengertian (Construct
validity)
Validitas bangun atau bangun
pengertian (Construct validity) berkenaan dengan kesanggupan alat ukur
mengukur pengertian‑pengertian yang terkandung dalam materi yang diukurnya.
Pengertian‑pengertian yang terkandung dalam konsep kemampuan, minat, sebagai variabel
penelitian dalam berbagai bidang kajian harus jelas apa yang hendak diukurnya.
Konsep‑konsep tersebut masih abstrak, memerlukan penjabaran yang lebih
spesifik, sehingga mudah diukur.Ini berarti setiap konsep harus dikembangkan
indikator‑indikatomya. Dengan adanya indikator dari setiap konsep maka bangun
pengertian akan nampak dan memudahkan dalam menetapkan cara pengukuran. Untuk
variabel tertentu, dimungkinkan penggunaan alat ukur yang beraneka ragam dengan
cara mengukurnya yang berlainan.
Menetapkan indikator suatu konsep dapat dilakukan dalam dua cara,
yakni (a) menggunakan pemahaman atau logika berpikir atas dasar teori
pengetahuan ilmiah dan (b) menggunakan pengalaman empiris, yakni apa yang
terjadi dalam kehidupan nyata.
Contoh: Konsep mengenai
“Hubungan Sosial”, dilihat dari pengalaman, indikatornya empiris adalah
keterkaitan dari
-
bisa bergaul
dengan orang lain
-
disenangi
atau banyak teman‑temannya
-
menerima
pendapat orang lain
-
tidak
memaksakan pendapatnya
-
bisa bekerja
sama dengan siapa pun
-
dan lain‑lain.
Mengukur indikator‑indikator
tersebut, berarti mengukur bangun pengertian yang terdapat dalam konsep
hubungan sosial. Contoh lain: Konsep sikap dapat dilihat dari indikatornya
secara teoretik (deduksi teori) antara lain keterkaitan dari
-
kesediaan
menerima stimulus objek sikap
-
kemauan
mereaksi stimulus objek sikap
-
menilai
stimulus objek sikap
-
menyusun/mengorganisasi
objek sikap
-
internalisasi
nilai yang ada dalam objek sikap.
Apabila hasil tes menunjukkan
indikator‑indikator tes yang tidak berhubungan secara positif satu sama lain,
berarti ukuran tersebut tidak memiliki validitas bangun pengertian. Atas dasar
itu indikatornya perlu ditinjau atau diperbaiki kembali. Cara lain untuk
menetapkan validitas bangun pengertian suatu alat ukur adalah
menghubungkan (korelasi) antara alat ukur yang dibuat dengan alat ukur yang
sudah baku/standardized, seandainya telah ada yang baku. Bila menunjukkan
koefisien korelasi yang tinggi maka alat ukur tersebut memenuhi validitasnya.
(c). Validitas empiris
Validitas ini biasanya menggunakan teknik statistik, yaitu
analisis korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara
skor tes dengan suatu kriteria tertentu yang merupakan suatu tolok ukur di luar
tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan
diukur. Validitas empiris disebut juga validitas yang dihubungkan dengan
kriteria (criterion-related validity) atau validitas statistik (statistical
validity). Ada tiga macam validitas empiris, yaitu:
a. Validitas prediktif (predictive validity)
b. Validitas kongkuren (concurrent validity)
c. Validitas sejenis (congruent validity)
Validitas prediktif ialah jika kriteria standar yang digunakan
adalah untuk meramalkan prestasi belajar murid di masa yang akan datang. Dengan
kata lain, validitas prediktif bermaksud melihat hinggamana suatu tes dapat
memprakirakan perilaku peserta didik pada masa yang akan datang. Sedangkan
validitas konkuren ialah jika kriteria standarnya berlainan.
Dalam mengukur validitas suatu tes hendaknya yang menjadi
kriteria sudah betul-betul valid, sehingga dapat diandalkan keampuhannya dan
dapat dianggap sebagai tes standar. Sebaliknya, bila kriterianya tidak valid,
maka tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan.
Suatu tes akan mempunyai koefisien validitas yang tinggi jika tes itu
betul-betul dapat mengukur apa yang hendak diukur dari peserta didik tertentu.
Ada beberapa hal yang harus diperhatikan dalam menginterpretasikan
koefisien validitas, antara lain :
a. Diferensiasi umur
Kriteria yang paling utama dalam validitas tes intelegensi
adalah umur. Kebanyakan tes intelegensi, baik yang dipakai di madrasah maupun
tes pra-madrasah, senantiasa dibandingkan dengan umur kronologis untuk
menentukan apakah angka bertambah dengan bertambahnya umur. Jika suatu tes
dianggap valid, maka nilai tes bagi peserta didik akan naik dengan bertambahnya
umur. Namun, anggapan ini tidak berlaku bagi perkembangan semua fungsi dalam
hubungannya dengan bertambahnya umur secara konsisten (ini terbukti dari
beberapa tes kepribadian). Suatu hal yang juga perlu dicermati adalah corak
kondisi lingkungan tempat tes itu dibakukan. Kriteria peningkatan umur tidak
bersifat universal tetapi tidak dapat juga dikatakan bahwa ini berlaku bagi corak
masing-masing kebudayaan.
b. Kemajuan akademis
Pada umumnya tes intelegensi
divalidkan dengan kemajuan akademis. Juga sering dikatakan bahwa makin lama
seseorang belajar di madrasah, makin tinggi pendidikannya, makin tinggi pula
kemajuan akademisnya. Padahal, setiap jenis dan jenjang pendidikan itu bersifat
selektif. Bagi peserta didik yang tak sanggup meneruskan, biasanya termasuk dropout.
Namun demikian, banyak pula faktor non-intelektual yang ikut mempengaruhi
keberhasilan pendidikan seorang peserta didik. Dengan kata lain, berhasil
tidaknya pendidikan seseorang tidak hanya dilihat dari faktor intelektual
tetapi juga faktor non-intelektual. Untuk memperoleh gambaran yang komprehensif
dan holistik tentang hal ini perlu diadakan penyelidikan yang lebih jauh.
c. Kriteria dalam
pelaksanaan latihan khusus
Corak kriteria dalam pengembangan tes bakat khusus didasarkan atas
prestasi dalam latihan tertentu secara khusus. Beberapa tes bakat profesi (profesional
aptitude test) telah divalidkan dengan tes hasil belajar dalam
bidang-bidang tersebut. Misalnya, tes untuk memasuki profesi kedokteran, hukum,
dan sebagainya. Ada beberapa tes untuk memasuki profesi tertentu yang disebut tailor-made
test, yaitu tes yang telah dibuat khusus untuk keperluan tersebut, seperti
tes penerbangan.
d. Kriteria dalam pelaksanaan kerja
Dalam validitas tes kepribadian dan validitas tes bakat khusus
banyak digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan kerja (on
the job performance). Mengingat masing-masing pekerjaan memiliki kekhasan
sendiri dan berbeda-beda tingkat, bentuk, maupun coraknya, maka untuk
masing-masing pekerjaan diciptakan tes yang terkenal dengan istilah tailor-made
test.
e. Penilaian
Pengertian penilaian disini adalah teknik untuk memperoleh
informasi tentang kemajuan belajar peserta didik di madrasah. Selain itu, juga
mencakup pekerjaan yang memerlukan latihan khusus ataupun sukses dalam
penilaian pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis.
Misalnya, kondisi-kondisi, orijinalitas, kepemimpinan, atau kejujuran. Jika
kondisi-kondisi pengenalan dalam situasi tempat kemampuan yang khusus itu
dinyatakan, maka perlu disertai skala penilaian yang dipersiapkan secara
teliti.
f. Kelompok yang dipertentangkan
Konsep validitas melalui kelompok yang dipertentangkan menyelidiki
pengaruh kehidupan sehari-hari yang tak disengaja. Kriteria ini didasarkan atas
kelebihan suatu kelompok tertentu dihadapkan kepada kelompok yang lain dalam
mejalankan suatu tes tertentu. Misalnya, suatu tes bakat musik dicobakan dalam
suatu sekolah musik maupun dalam suatu madrasah. Kriteria itu didasarkan atas
faktor yang menyolok, yang diperoleh dari hasil nilai kedua kelompok tersebut
dalam menjalankan tes itu.
g. Korelasi dengan tes lain
Korelasi antara tes baru dengan tes lama merupakan perbandingan
kriteria dalam menyelidiki perilaku yang sama. Dalam hal ini suatu tes verbal
tertulis bisa dibandingkan dengan tes individual atau tes kelompok. Untuk
mengukur apakah suatu tes yang baru memiliki validitas dan bebas dari pengaruh
faktor lain, maka dipergunakan tes jenis lain dalam membandingkannya. Jadi,
kadang-kadang tes kepribadian dikorelasikan dengan tes internal atau tes hasil
belajar.
h. Konsistensi internal
Kriteria konsistensi internal
adalah skor total yang diperoleh peserta didik dalam suatu tes. Kriteria ini
terutama digunakan dalam bidang tes kepribadian. Kadang-kadang untuk keperluan
ini juga digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok
berhasil dan kelompok kurang berhasil. Skor setiap soal tes dari kelompok yang
berhasil dibandingkan dengan skor setiap soal tes dari kelompok yang kurang
berhasil. Soal-soal yang gagal menunjukkan perbedaan antara kelompok yang
berhasil dengan kelompok yang kurang berhasil harus diperbaiki, atau dibuang.
Teknik Pengujian Validitas Item Tes Hasil Belajar
Validitas item dari suatu tes
adalah ketepatan mengukur yang dimiliki oleh sebutir item dalam mengukurapa
yang seharusnya diukur lewat butir item tersebut. Eratnya hubungan antara butir
item dengan tes hasil belajar sebagai suatu totalitas itu dapat dipahami
kiranya dapat dipahami dari kenyataan, bahwa semakin banyak butir-butir item
yang dapat dijawab dengan betul oleh testee, maka skor-skor total hasil tes
tersebut akan semakin tinggi dan sebaliknya.
Untuk menghitung koefisien validitas soal tiap item dapat
digunakan rumus korelasi dengan angka kasar yaitu koefisien poruct moment yaitu:
rxy =
dimana
:
N :
banyaknya siswa peserta tes
rxy :
Koefisian korelasi antara variabel X dan variabel Y.
Untuk menafsirkan
keberartian harga validitas tiap item maka harga tersebut dikonsultasikan
ketabel harga kritik r product momen dengan α = 0,05 dengan kriteria jika rhitung> rtabel
maka tes tersebut dikatakan valid.
Tabel
Teknik
Korelasi Product-Moment
No |
X |
Y |
1 |
5 |
6 |
2 |
6 |
8 |
3 |
7 |
7 |
4 |
8 |
6 |
5 |
7 |
6 |
6 |
5 |
7 |
7 |
6 |
8 |
8 |
7 |
6 |
9 |
5 |
7 |
10 |
4 |
5 |
Ʃ |
|
|
Hitunglah r xy = …………..(r tabel
dilampiran)
4. Validitas konstruk
Konstruk adalah konsep yang dapat diobservasi (observable)
dan dapat diukur (measurable). Validitas konstruk sering juga
disebut validitas logis (logical validity). Validitas konstruk berkenaan
dengan pertanyaan hinggamana suatu tes betul-betul dapat mengobservasi dan
mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang
akan diukur oleh tes tersebut. Validitas konstruk banyak dikenal dan digunakan
dalam tes-tes psikologis untuk mengukur gejala perilaku yang abstrak, seperti
kesetiakawanan, kematangan emosi, sikap, motivasi, minat, dan sebagainya.
Untuk menguji validitas konstruk dapat dilakukan dengan
berbagai sumber, antara lain validitas isi, validitas prediktif, dan validitas
konkuren. N.E. Gronlund (1985) mengemukakan “It is a matter of accumulating
evidence from many different sources. We may use content validity, predictive
validity, and concurrent validity as partial evidence to support construct
validity, but none of them alone is sufficient”. Analisis statistika yang
digunakan dalam validitas konstruk antara lain dengan analisis faktor (factor
analysis), sehingga dapat diketahui :
a. Aspek-aspek apa saja yang diukur oleh setiap butir soal.
b. Berapa besar suatu butir soal berisi faktor-faktor tertentu.
c. Faktor-faktor apa yang diukur oleh suatu butir soal.
Produk analisis faktor ini dapat menganalisis dan mempertimbangkan
apakah suatu tes betul-betul dapat mengukur fungsi psikologis yang merupakan
deskripsi perilaku peserta didik yang hendak diukur oleh tes yang bersangkutan.
5. Validitas faktor
Dalam evaluasi atau penilaian
sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas
beberapa faktor. Faktor-faktor tersebut diperoleh berdasarkan dimensi/indikator
dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi
teoritisnya. Meskipun variabel terdiri atas beberapa faktor, tetapi prinsip
homoginitas untuk keseluruhan faktor harus tetap dipertahankan, sehingga tidak
terjadi tumpang tindih antara satu faktor dengan faktor yang lain. Dengan
demikian, kriterium yang digunakan dalam validitas faktor ini dapat diketahui dengan
menghitung homoginitas skor setiap faktor dengan total skor, dan antara skor
dari faktor yang satu dengan skor dari faktor yang lain
B. Realibilitas
Reliabilitas
alat ukur adalah ketetapan atau keajegan alat tersebut dalam mengukur apa yang
diukurnya. Artinya, kapan pun alat ukur tersebut digunakan akan memberikan
hasil ukur yang sama. Contoh paling nyata adalah timbangan atau meteran. Hal
yang sama terjadi untuk alat ukur suatu gejala, tingkah laku, ciri atau sifat
individu dan lain‑lain. Misalnya alat ukur prestasi belajar seperti tes hasil
belajar, alat ukur sikap, kuesioner dan lain‑lain, hendaknya meneliti sifat keajegan
tersebut.
Tes hasil belajar dikatakan
ajeg atau tepat apabila hasil pengukuran saat ini menunjukkan kesamaan hasil
pada saat yang berlainan waktunya, terhadap siswa yang sama. Misalnya siswa
kelas V pada hari ini di tes kemampuan matematik.Minggu berikutnya siswa
tersebut di tes kembali. Hasil dari kedua tes relatif sama. Sungguhpun demikian
masih mungkin terjadi ada perbedaan hasil untuk hal‑hal tertentu akibat faktor
kebetulan, selang waktu, terjadinya perubahan pandangan siswa terhadap soal
yang sama. Jika ini terjadi, kelemahan terletak dalam alat ukur itu, yang
tidak memiliki kepastian jawaban atau meragukan siswa. Dengan kata lain derajat
reliabilitasnya masih rendah.
Di lain pihak perbedaan hasil pengukuran bukan disebabkan oleh
alat ukurnya, melainkan kondisi yang terjadi pada diri siswa. Misalnya fisik
siswa dalam keadaan sakit pada waktu tes yang pertama, motivasi pada waktu tes
pertama berbeda dengan motivasi tes pada berikutnya.
Atas dasar itu
perbedaan hasil pengukuran pertama dengan hasil pengukuran berikutnya bisa
teijadi akibat perubahan pada diri subjek yang diukur dan atau oleh faktor yang
berkaitan dengan pemberian tes itu sendiri.Hal ini tidak mengherankan dan sudah
umum terjadi, yang sering dinyatakan dengan sebutan/istilah kesalahan pengukuran.
Ini berarti, skor hasil pengukuran yang pertama dan skor hasil pengukuran kedua
terhadap subjek sama, dimungkinkan terjadinya kesalahan pengukuran disebabkan
oleh dua faktor di atas. Oleh karenanya setiap skor hasil pengukuran
menghasilkan dua bagian, yakni hasil pengukuran pertama yang disebut skor
sejati dan hasil pengukuran berikutnya terhadap subjek yang sama, yang mengandung
hasil skor plus kesalahan pengukuran.
Komponen skor sejati dan skor
yang mengandung kesalahan pengukuran dinyatakan dalam suatu persamaan matematis
sebagai berikut:
X = b + s,
dengan:
X = skor yang diamati
b = skor sejati
s = kesalahan pengukuran
Dalam suatu penelitian skor
yang diamati adalah skor sejati ditambah skor kesalahan pengukuran sehingga
variansi skor yang diamati X2 adalah variansi skor sejati Tb2
ditambah variansi skor kesalahan Ts2 atau Tx2 = Tb2
+ Ts2.
Indeks reliabilitas alat ukur
dalam suatu penelitian dapat dicari dengan mengkorelasikan skor‑skor yang
diperoleh dari hasil pengukuran yang berulang‑ulang pada waktu yang berbeda,
atau dengan kelompok pertanyaan yang sepadan. Prosedur ini dilakukan dengan
cara memberikan tes dua kali kepada subjek yang sama pada waktu yang berbeda.
Cara kedua adalah membagi alat ukur (tes) menjadi dua bagian yang sama atau
yang setarap untuk melihat keajegan tes tersebut. Cara yang pertama dikenal
dengan tes ulang (test retest) dan cara kedua dikenal dengan pecahan
sebanding/setara.
1. Reliabilitas
tes ulang
Tes ulang (test‑retest) adalah penggunaan alat ukur
terhadap subjek yang diukur, dilakukan dua kali dalam waktu yang
berlainan.Misalnya tes hasil belajar matematika untuk siswa SD kelas V,
diberikan hari ini, lalu diperiksa hasilnya. Seminggu kemudian tes tersebut
diberikan lagi pada siswa yang sama dan hasilnya diperiksa. Hasil pengukuran
yang pertama kemudian dikorelasikan dengan hasil pengukuran yang kedua untuk
mendapatkan koefisien korelasinya (r). Koefisien korelasi ini disebut koefisien
reliabilitas tes ulang, yang hasilnya akan bergerak dari ‑ 1,0 sampai + 1,0.
Bila koefisien reliabilitas mendekati angka 1,0 merupakan indeks reliabilitas
tinggi. Artinya hasil pengukuran yang pertama relatif sama dengan hasil
pengukuran yang kedua. Dengan kata lain alat ukur tersebut memiliki tingkat
keajegan atau ketetapan (reliabel). Untuk pengukuran ilmu‑ilmu sosial dan
pendidikan indeks reliabilitas 0,75 sudah dianggap cukup mengingat sifat dan
ilmu sosial dan pendidikan berbeda dengan ilmu‑ilmu eksakta.
Jarak atau selang waktu antara pengukuran pertama dengan
pengukuran kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu
jauh.Jika terlalu dekat/pendek, hasil pengukuran banyak dipengaruhi oleh
ingatan siswa tentang jawaban yang diberikan pada pengukuran yang pertama,
bukan karena keajegan alat ukurnya.Sebaliknya jika selang waktu pengukuran
pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya perubahan
pengetahuan dan pengalaman siswa sehingga mempengaruhi koefesien reliabilitasnya.Asumsi
yang digunakan dalam tes ulang ialah karakteristik yang diukur oleh alat ukur
tersebut stabil sepanjang waktu, sehingga jika ada perubahan skor hasil kedua
pengukuran lebih disebabkan kesalahan alat ukur.Cara tes ulang (test‑retest)
banyak digunakan dalam menetapkan atau menentukan tingkat reliabilitas
alat ukur dalam penelitian sosial dan pendidikan.
2. Reliabilitas
pecahan setara
Reliabilitas bentuk pecahan
setara tidak dilakukan pengulangan pengukuran kepada subjek yang sama tetapi
menggunakan hasil dari bentuk tes yang sebanding atau setara yang diberikan
kepada subjek yang sama pada waktu yang sama pula. Dengan demikian diperlukan
dua perangkat alat ukur yang disusun sedemikian rupa agar memiliki derajat
kesamaan atau kesetaraan baik dari segi, isi, tingkat kesukaran alat ukur,
abilitas yang diukur, jumlah pertanyaan, bentuk pertanyaan dan segi‑segi teknis
lainnya.Yang berbeda hanyalah pertanyaan.Bila penyusun kesetaraan alat ukur
bisa dicapai seoptimal mungkin maka koefisien reliabilitas dari prosedur ini
dianggap paling baik dibandingkan dengan prosedur tes ulang.Namun kesulitannya
terletak dalam menyusun perangkat alat ukur yang benar‑benar mengandung
derajat kesetaraan tinggi.
3. Reliabilitas
belah dua
Reliabilitas belah dua mirip
dengan reliabilitas pecahan setara terutama dari pelaksanaannya.Dalam prosedur
ini alat ukur diberikan kepada kelompok subjek cukup satu kali atau satu saat.Butir‑butir
soal dibagi dua bagian yang sebanding, biasanya membedakan soal nomor genap
dengan soal nomor ganjil.Setiap bagian soal diperiksa hasilnya, kemudian skor
dari kedua bagian tersebut dikorelasikan untuk dicari koefisien
korelasinya.Mengingat korelasi tersebut hanya berlaku separuh tidak untuk
seluruh pertanyaan, maka koefisien korelasi yang didapatkannya tidak untuk
seluruh soal, tapi hanya separuhnya. Oleh sebab itu koefisien korelasi belah
dua perlu diubah ke dalam koefisien korelasi untuk seluruh soal dengan
menggunakan rumus ramalan Spearmen Brown:
rxx
=
Keterangan :
rxx = koefisien reliabilitas keseluruhan
r
Contoh: Koefisien korelasi belah dua adalah 0,60
rxx =
=
Dari contoh di atas terjadi
peningkatan koefisien korelasinya, setelah dilakukan pengubahan. Asumsi yang
digunakan dalam prosedur belah dua adalah kedua bagian alat ukur itu pararel,
sekalipun sering keliru atau tidak benar.Akibat adanya pengubahan koefisien
reliabilitas, prosedur belah dua cenderung menunjukkan koefisien reliabilitas
yang tinggi daripada prosedur tes ulang dan pecahan setara.Oleh sebab itu penggunaan
belah dua harus lebih berhati‑hati. Prosedur ini digunakan bila alat ukur
mengandung atau terdiri dari banyak item, item relatif berat/sukar (power
test), materi yang diuji cukup komprehensif sehingga memungkinkan penyusunan
dua soal untuk satu permasalahan yang sama untuk memenuhi belah dua.
4. Kesamaan
rasional
Di samping cara‑cara yang dijelaskan di atas ada prosedur menghitung
reliabilitas tanpa melakukan korelasi dari dua pengukuran atau pecahan setara
dan belah dua.Cara tersebut adalah kesamaan rasional.Prosedur ini dilakukan
dengan menghubungkan setiap butir dalam satu tes dengan butir‑butir lainnya dan
dengan tes itu sendiri secara keseluruhan. Salah satu cara yang sering
digunakan adalah menggunakan rumus Kuder-Rechardson-20 atau KR 21.
rumus KR-20, yaitu :
r11 =
Di mana :
r11
= Reliabilitas tes secara keseluruhan
n = Banyaknya
item dalam tes
p = proporsi
subyek yang menjawab item dengan benar
q = proporsi subyek yang menjawab item dengan
salah (q = 1-p)
S =
Standar deviasi dari tes
varians dapat dihitung harga dengan rumus :
Dimana
:
N =
Sampel
Untuk menafsirkan
arti suatu koefisien Reliabilitas dapat di gunakan pedoman sebagai berikut:
a.
0,00
≤ r ≤ 0,40 = reliabilitas rendah
b.
0,41
≤ r ≤ 0,70 = reliabilitas sedang
c.
0,71
≤ r ≤ 0,90 = reliabilitas tinggi
d.
0,91
≤ r ≤ 1,00 = reliabilitas sangat tinggi
Untuk menafsir harga
Reliabilitas dari soal maka harga tersebut di konsultasikan ke tabel harga
kritik r tabel product moment dengan α = 0,05 maka
Rumus KR-21 yaitu :
r11 =
Di mana :
r11 =
Reliabilitas tes secara keseluruhan
n = Banyaknya
item dalam tes
Mt = nilai
rata-rata siswa
St = standar deviasi
Uraian ukuran reliabilitas
yang telah dijelaskan di atas dapat dipertimbangkan oleh peneliti, cara mana
yang paling tepat digunakan bergantung pada peneliti. Pertimbangan tersebut,
antara lain sifat variabel yang diukur, jenis alat ukur, jumlah subjek yang
diukur, serta hasil‑hasil pengukuran yang diharapkan sesuai dengan tujuan
penelitian.
Catatan: untuk soal pilihan berganda (objektif tes) rumus yang
digunakan untuk mencari reliabilitas adalah KR-20 dan KR-21
Sedangkan
untuk tes uraian, rumus yang digunakan adalah:
Untuk
menghitung reliabilitas soal uraian digunakan rumus alpha-Cronbach
Keterangan :
C. Analisis Kualitas Butir Soal
1). Proporsi Soal
Proporsi soal adalah tingkat perbandingan soal yang digunakan dalam penulisan soal.Artinya dalam menulis soal yang akan digunakan untuk menguji tes hasil belajar tidak boleh menumpuk pada satu aspek kognitif saja tetapi tingkat kesukaran yang digunakan antara C1-C6 harus proporsional sesuai dengan SK/KD yang
terdapat pada setiap pokok bahasan.
Jadi, bermutu atau tidaknya butirbutir item pada instrumen dapat diketahui dari derajat kesukaran atau tingkat kesukaran yang dimiliki oleh masing-masing butir item tersebut.
Untuk menentukan taraf kesukaran tes digunakan rumus :
P =
Dimana :
P =
indeks kesukaran
B = banyak siswa yang menjawab soal benar
JS = jumlah siswa peserta tes
Hasil
perhitungan tingkat kesukaran diinterpretasikan dengan menggunakan kriteria
indeks kesukaran butir soal sebagai berikut:
Kriteria Interpretasi Tingkat Kesukaran
KoefisienKorelasi |
Kriteria |
TK = 1.00 |
Terlalu Mudah |
0.70
< IK < 1.00 |
Mudah |
0.30 < IK < 0.70 |
Sedang |
0.00
< IK < 0.30 |
Sukar |
IK = 0.00 |
TerlaluSukar |
Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi
antara tingkat kesukaran soal tersebar secara normal. Perhitungan proporsi
tersebut dapat diatur sebagai berikut :
a. Soal sukar 25%, soal sedang 50%, soal mudah 25%, atau
b. Soal sukar 20%, soal sedang 60%, soal mudah 20%, atau
c. Soal sukar 15%, soal sedang 70%, soal mudah 15%.
Seharusnya, penyusunan suatu
soal dilakukan dengan mempertimbangkan tingkat kesukaran soal, sehingga hasil
yang dicapai peserta didik dapat menggambarkan prestasi yang sesungguhnya.
- Daya Pembeda Soal
Daya Pembeda soal adalah kemampuan suatu butir soal tes hasil belajar untuk membedakan
antara siswa yang pandai (berkemampuan tinggi) dengan siswa yang berkemampuan
rendah (bodoh). Daya pembeda itu dapat diketahui melalui atau dengan melihat besar kecilnya angka indeks..diskrimina soal. Angka indeks daya pembeda adalah sebuah angka yang menunjukkkan besar kecilnya daya pembeda yang dimiliki oleh sebutir soal.
Daya pembeda pada dasarnya dihitung atas dasar pembagian siswa kedalam dua kelompok yaitu :Kelompok atas dan Kelompok bawah
Cara menentukan dua kelompok itu ditentukan atas 2 bagian yaitu
a.
Untuk kelompok kecil (jumlah siswa maksimum 100 orang) Untuk
kelompok kecil pembagian kelompok atas diambil (50%) dan kelompok
bawah diambil 50 %
b.
Untuk kelompok besar ( jumlah siswa berada diatas 100 orang)
Untuk kelompok besar pembagian kelompok atas diambil (27%) dan
kelompok bawah diambil (27%)
Dalam menentukan daya
pembeda untuk tiap soal dilakukan dengan menggunakan rumus :
Dimana:
D : Daya pembeda
BA : Banyaknya siswa kelompok atas
yang menjawab benar
BB : Banyaknya siswa kelompok bawah
yang menjawab benar
JA: Jumlah siswa pada kelompok atas
JB: Jumlah siswa pada kelompok bawah
Kriteria Interpretasi Daya Pembeda
Koefisien Korelasi |
Kriteria |
0.70 < DP < 1.00 |
Sangat Baik |
0.40 < DP < 0.69 |
Baik |
0.20 < DP < 0.39 |
Cukup |
0.00 < DP < 0.19 |
Jelek |
DP 0.00 |
Jelek Sekali |
- Distraktor Soal
(Pengecoh)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang
merupakan pengecoh. Butir soal yang baik, pengecohnya akan dipilih secara
merata oleh peserta didik yang menjawab salah. Sebaliknya, butir soal yang kurang,
pengecohnya akan dipilih secara tidak merata.
Pengecoh dianggap baik bila jumlah peserta didik yang memilih
pengecoh itu sama atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan
(N - B) / (n - 1)
Keterangan :
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban (opsi)
1 = bilangan tetap
Catatan :
Jika semua peserta didik menjawab benar pada butir soal tertentu
(sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan
demikian, pengecoh tidak berfungsi.
Contoh : 50 orang peserta
didik di tes dengan 10 soal bentuk pilihan-ganda. Tiap soal memiliki 5
alternatif jawaban (a, b, c, d dan e). Kunci jawaban (jawaban yang benar) soal
nomor 8 adalah c. Setelah soal nomor 8 diperiksa untuk semua peserta didik,
ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan 30
peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata, artinya
semua pengecoh secara merata ikut menyesatkan peserta didik. Perhatikan contoh
soal nomor berikut ini :
Alternatif jawaban a b c d e
Distribusi jawaban peserta didik 7 8 20 7 8
IP 93% 107% ** 93% 107%
Kualitas pengecoh ++ ++ ** ++ ++
Keterangan :
** : kunci jawaban , ++ = sangat baik , + = baik , - = kurang baik
, _ = jelek , _ _ = sangat jelek
Pada contoh di atas, IP
butir a, b, d, dan e adalah 93%, 107%, 93% dan 107%. Semuanya dekat dengan
angka 100%, sehingga digolongkan sangat baik, sebab semua pengecoh itu
berfungsi. Jika pilihan jawaban peserta didik menumpuk pada satu alternatif
jawaban, misalnya seperti berikut :
Alternatif jawaban a b c d e
Distribusi jawaban peserta didik 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas pengecoh _ - ** ++
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik,
pengecoh (e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh
(a) dan (e) perlu diganti karena termasuk jelek, dan pengecoh (b) perlu
direvisi karena kurang baik. Adapun kualitas pengecoh berdasar indeks pengecoh
adalah :
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%
Untuk analisis pengecoh perlu
dibuat tabel khusus agar setiap butir soal diketahui berapa banyak peserta
didik yang menjawab a, b, c dan seterusnya. Hal ini tentu saja sangat memakan
waktu dan tenaga. Jika diolah dengan komputer dan data sudah dimasukkan dalam
disket, pengolahan ini hanya memerlukan waktu beberapa detik saja.
No comments:
Post a Comment