Thursday, October 6, 2022

ANALISIS KUALITAS TES DAN BUTIRAN SOAL

 

BAB V

ANALISIS KUALITAS TES DAN BUTIRAN SOAL

 

 Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui kuliatas tes, baik secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut.  Analisis kualitas tes berkaitan dengan pertanyaan apakah tes sebagai suatu alat ukur benar-benar mengukur apa yang hendak dan seharusnya diukur? Hinggamana tes tersebut dapat diandalkan dan berguna? Kedua pertanyaan ini sebenarnya menunjuk pada dua hal pokok, yaitu validitas dan reliabilitas. Kedua hal ini sekaligus merupakan karakteristik alat ukur yang baik.

A.     Validitas

Untuk melihat apakah suatu tes tersebut valid (sahih), Anda harus membandingkan skor peserta didik yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin mendekati kedua skor tersebut, maka semakin soal ujian akhir tadi dapat dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun demikian, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.

 Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada pula yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik. Ada tiga faktor yang mempengaruhi validitas hasil tes, yaitu “faktor instrumen evaluasi, faktor administrasi evaluasi dan penskoran, dan faktor dari jawaban peserta didik”.

1. Faktor instrumen evaluasi

Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi jika seorang evaluator tidak atau kurang memahami prosedur dan teknik evaluasi itu sendiri. Jika instrumen evaluasi kurang baik, maka dapat berakibat hasil evaluasi menjadi kurang baik. Untuk itu, dalam mengembangkan instrumen evaluasi, seorang evaluator harus memperhatikan hal-hal yang mempengaruhi validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen, seperti silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran, daya pembeda, dan sebagainya.

2. Faktor administrasi evaluasi dan penskoran

Dalam administrasi evaluasi dan penskoran, banyak sekali terjadi penyimpangan atau kekeliruan, seperti : alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan bantuan kepada peserta didik dengan berbagai cara, peserta didik saling menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta didik yang kurang menguntungkan.

3. Faktor jawaban dari peserta didik

Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh daripada dua faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik untuk menjawab secara cepat tetapi tidak tepat, keinginan melakukan coba-coba, dan penggunaan gaya bahasa tertentu dalam menjawab soal bentuk uraian.

Validitas berkenaan dengan ketepatan alat ukur terhadap konsep yang diukur, sehingga betul‑betul mengukur apa yang seharusnya di­ukur. Sebagai contoh,  ingin mengukur kemampuan siswa da­lam matematika. Kemudian diberikan soal dengan kalimat yang pan­jang dan yang berbelit‑belit sehingga sukar ditangkap maknanya.Akhimya siswa tidak dapat menjawab, akibat tidak memahami per­tanyaannya. Contoh lain, peneliti ingin mengukur kemampuan berbi­cara, tapi ditanya mengenai tata bahasa atau kesusastraan seperti puisi atau sajak. Pengukur tersebut tidak tepat(valid).Validitas tidak berlaku universal sebab bergantung pada situasi dan tujuan pe­nelitian. Instrumen yang telah valid untuk suatu tujuan tertentu belum otomatis akan valid untuk tujuan yang lain. Contoh variabel prestasi belajar dan motivasi bisa diukur oleh tes ataupun oleh kuesioner.Caranya juga bisa berbeda, tes bisa dilak­sanakan secara tertulis atau bisa secara lisan.

 

Jenis Validitas antara lain :

     (a) Validitas isi

Validitas isi berkenaan dengan kesanggupan instrumen mengukur isi yang harus diukur.Artinya, alat ukur tersebut mampu mengungkap isi suatu konsep atau variabel yang hendak diukur.Misalnya tes hasil belajar bidang studi IPS, harus bisa mengungkap isi bidang studi tersebut. Hal ini bisa dilakukan dengan cara menyusun tes yang bersumber dari kurikulum bidang studi yang hendak diukur. Di samping kurikulum dapat juga diperkaya dengan melihat/mengkaji buku sumber.Sungguhpun demikian tes hasil belajar tidak mungkin dapat mengungkap semua materi yang ada dalam bidang studi ter­tentu sekalipun hanya untuk satu semester.Oleh sebab itu harus diambil sebagian dari materi dalam bentuk sampel tes.Sebagai sampel maka harus dapat mencerminkan materi yang terkandung dari seluruh materi bidang studi.Cara yang ditempuh dalam menetapkan sampel tes adalah memilih konsep‑konsep yang esensial dari materi yang di dalamnya.Misalnya menetapkan sejumlah konsep dari setiap pokok bahasan yang ada.Dari setiap konsep dikem­bangkan beberapa pertanyaan tes (lihat bagan).Di sinilah pen­tingnya peranan kisi‑kisi sebagai alat untuk memenuhi validitas isi.

INSTRUMEN VALIDITAS ISI

Nama Perangkat                                   : Butir Soal

Mata Pelajaran                                     : PKn

Materi Pokok                                       : Demokrasi

Kelas/ Semester                                   : V/ I

Satuan Pendidikan                               : SD

Nama Pengembang Perangkat  :

No.

Bidang Telaah

Kriteria

Penilaian

Rata- rata

1

2

3

4

5

1.

Materi Soal

a.       Sesuai dengan indikator.

b.      Pengecoh akan berfungsi.

c.       Hanya ada satu jawaban yang benar.

 

 

 

 

 

 

2.

Konstruksi

d.      Pokok soal dirumuskan dengan benar.

e.       Pokok soal tidak memberikan petunjuk jawaban.

f.        Pokok soal tidak bersifat negatif ganda.

g.      Pilihan jawaban homogen dan logis.

h.      Butir soal tidak bergantung pada jawaban sebelumnya.

 

 

 

 

 

 

3.

Bahasa

i.        Soal menggunakan bahasa dengan kaidah bahasa Indonesia.

j.        Soal menggunakan bahasa yang komunikatif.

k.      Pilihan jawaban tidak menggunakan kata yang kurang jelas.

 

 

 

 

 

 

4.

Penilaian umum perangkat soal

 

 

 

 

 

 

 

5.

Nilai rata- rata

 

 

 

 

 

 

 

 

Keterangan:

  1. Kurang Sekali              4. Baik
  2. Kurang                         5. Amat Baik
  3. Cukup

 

Medan,      Sep  2015

      Validator

 

NPM.

Dalam hal tertentu tes yang telah disusun sesuai dengan kurikulum (materi dan tujuannya) agar memenuhi validitas isi, peneliti atau pemakai tes dapat meminta bantuan ahli bidang studi untuk mene­laah apakah konsep materi yang diajukan telah memadai atau tidak, sebagai sampel tes. Dengan demikian validitas isi tidak memerlukan uji coba dan analisis statistik atau dinyatakan dalam bentuk angka­-angka.

 

(b) Validitas bangun pengertian (Construct validity)

Validitas bangun atau bangun pengertian (Construct validity) berke­naan dengan kesanggupan alat ukur mengukur pengertian‑pengertian yang terkandung dalam materi yang diukurnya. Pengertian‑pe­ngertian yang terkandung dalam konsep kemampuan, minat, sebagai variabel penelitian dalam berbagai bidang kajian harus jelas apa yang hendak diukurnya. Konsep‑konsep tersebut masih abstrak, memer­lukan penjabaran yang lebih spesifik, sehingga mudah diukur.Ini berarti setiap konsep harus dikembangkan indikator‑indikatomya. Dengan adanya indikator dari setiap konsep maka bangun pengertian akan nampak dan memudahkan dalam menetapkan cara pengukuran. Untuk variabel tertentu, dimungkinkan penggunaan alat ukur yang beraneka ragam dengan cara mengukurnya yang berlainan.

Menetapkan indikator suatu konsep dapat dilakukan dalam dua cara, yakni (a) menggunakan pemahaman atau logika berpikir atas dasar teori pengetahuan ilmiah dan (b) menggunakan pengalaman empiris, yakni apa yang terjadi dalam kehidupan nyata.

Contoh: Konsep mengenai “Hubungan Sosial”, dilihat dari pengalaman, indikatornya empiris adalah keterkaitan dari

-                   bisa bergaul dengan orang lain

-                disenangi atau banyak teman‑temannya

-                menerima pendapat orang lain

-                tidak memaksakan pendapatnya

-                bisa bekerja sama dengan siapa pun

-                dan lain‑lain.

Mengukur indikator‑indikator tersebut, berarti mengukur bangun pengertian yang terdapat dalam konsep hubungan sosial. Contoh lain: Konsep sikap dapat dilihat dari indikatornya secara teoretik (deduksi teori) antara lain keterkaitan dari

-                      kesediaan menerima stimulus objek sikap

-                      kemauan mereaksi stimulus objek sikap

-                      menilai stimulus objek sikap

-                      menyusun/mengorganisasi objek sikap

-                      internalisasi nilai yang ada dalam objek sikap.

Apabila hasil tes menunjukkan indikator‑indikator tes yang tidak berhubungan secara positif satu sama lain, berarti ukuran tersebut tidak memiliki validitas bangun pengertian. Atas dasar itu indikatornya perlu ditinjau atau diperbaiki kembali. Cara lain untuk menetapkan validitas bangun pengertian suatu alat ukur adalah menghubungkan (korelasi) antara alat ukur yang dibuat dengan alat ukur yang sudah baku/standardized, seandainya telah ada yang baku. Bila menunjuk­kan koefisien korelasi yang tinggi maka alat ukur tersebut memenuhi validitasnya.

     (c). Validitas empiris

            Validitas ini biasanya menggunakan teknik statistik, yaitu analisis korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolok ukur di luar tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan diukur. Validitas empiris disebut juga validitas yang dihubungkan dengan kriteria (criterion-related validity) atau validitas statistik (statistical validity). Ada tiga macam validitas empiris, yaitu:

a. Validitas prediktif (predictive validity)

b. Validitas kongkuren (concurrent validity)

c. Validitas sejenis (congruent validity)

Validitas prediktif ialah jika kriteria standar yang digunakan adalah untuk meramalkan prestasi belajar murid di masa yang akan datang. Dengan kata lain, validitas prediktif bermaksud melihat hinggamana suatu tes dapat memprakirakan perilaku peserta didik pada masa yang akan datang. Sedangkan validitas konkuren ialah jika kriteria standarnya berlainan.

            Dalam mengukur validitas suatu tes hendaknya yang menjadi kriteria sudah betul-betul valid, sehingga dapat diandalkan keampuhannya dan dapat dianggap sebagai tes standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul dapat mengukur apa yang hendak diukur dari peserta didik tertentu.

Ada beberapa hal yang harus diperhatikan dalam menginterpretasikan koefisien validitas, antara lain :

a. Diferensiasi umur

          Kriteria yang paling utama dalam validitas tes intelegensi adalah umur. Kebanyakan tes intelegensi, baik yang dipakai di madrasah maupun tes pra-madrasah, senantiasa dibandingkan dengan umur kronologis untuk menentukan apakah angka bertambah dengan bertambahnya umur. Jika suatu tes dianggap valid, maka nilai tes bagi peserta didik akan naik dengan bertambahnya umur. Namun, anggapan ini tidak berlaku bagi perkembangan semua fungsi dalam hubungannya dengan bertambahnya umur secara konsisten (ini terbukti dari beberapa tes kepribadian). Suatu hal yang juga perlu dicermati adalah corak kondisi lingkungan tempat tes itu dibakukan. Kriteria peningkatan umur tidak bersifat universal tetapi tidak dapat juga dikatakan bahwa ini berlaku bagi corak masing-masing kebudayaan.

b. Kemajuan akademis

Pada umumnya tes intelegensi divalidkan dengan kemajuan akademis. Juga sering dikatakan bahwa makin lama seseorang belajar di madrasah, makin tinggi pendidikannya, makin tinggi pula kemajuan akademisnya. Padahal, setiap jenis dan jenjang pendidikan itu bersifat selektif. Bagi peserta didik yang tak sanggup meneruskan, biasanya termasuk dropout. Namun demikian, banyak pula faktor non-intelektual yang ikut mempengaruhi keberhasilan pendidikan seorang peserta didik. Dengan kata lain, berhasil tidaknya pendidikan seseorang tidak hanya dilihat dari faktor intelektual tetapi juga faktor non-intelektual. Untuk memperoleh gambaran yang komprehensif dan holistik tentang hal ini perlu diadakan penyelidikan yang lebih jauh.

c. Kriteria dalam pelaksanaan latihan khusus

Corak kriteria dalam pengembangan tes bakat khusus didasarkan atas prestasi dalam latihan tertentu secara khusus. Beberapa tes bakat profesi (profesional aptitude test) telah divalidkan dengan tes hasil belajar dalam bidang-bidang tersebut. Misalnya, tes untuk memasuki profesi kedokteran, hukum, dan sebagainya. Ada beberapa tes untuk memasuki profesi tertentu yang disebut tailor-made test, yaitu tes yang telah dibuat khusus untuk keperluan tersebut, seperti tes penerbangan.

 

d. Kriteria dalam pelaksanaan kerja

Dalam validitas tes kepribadian dan validitas tes bakat khusus banyak digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan kerja (on the job performance). Mengingat masing-masing pekerjaan memiliki kekhasan sendiri dan berbeda-beda tingkat, bentuk, maupun coraknya, maka untuk masing-masing pekerjaan diciptakan tes yang terkenal dengan istilah tailor-made test.

 

e. Penilaian

Pengertian penilaian disini adalah teknik untuk memperoleh informasi tentang kemajuan belajar peserta didik di madrasah. Selain itu, juga mencakup pekerjaan yang memerlukan latihan khusus ataupun sukses dalam penilaian pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis. Misalnya, kondisi-kondisi, orijinalitas, kepemimpinan, atau kejujuran. Jika kondisi-kondisi pengenalan dalam situasi tempat kemampuan yang khusus itu dinyatakan, maka perlu disertai skala penilaian yang dipersiapkan secara teliti.

f. Kelompok yang dipertentangkan

Konsep validitas melalui kelompok yang dipertentangkan menyelidiki pengaruh kehidupan sehari-hari yang tak disengaja. Kriteria ini didasarkan atas kelebihan suatu kelompok tertentu dihadapkan kepada kelompok yang lain dalam mejalankan suatu tes tertentu. Misalnya, suatu tes bakat musik dicobakan dalam suatu sekolah musik maupun dalam suatu madrasah. Kriteria itu didasarkan atas faktor yang menyolok, yang diperoleh dari hasil nilai kedua kelompok tersebut dalam menjalankan tes itu.

g. Korelasi dengan tes lain

Korelasi antara tes baru dengan tes lama merupakan perbandingan kriteria dalam menyelidiki perilaku yang sama. Dalam hal ini suatu tes verbal tertulis bisa dibandingkan dengan tes individual atau tes kelompok. Untuk mengukur apakah suatu tes yang baru memiliki validitas dan bebas dari pengaruh faktor lain, maka dipergunakan tes jenis lain dalam membandingkannya. Jadi, kadang-kadang tes kepribadian dikorelasikan dengan tes internal atau tes hasil belajar.

 

h. Konsistensi internal

Kriteria konsistensi internal adalah skor total yang diperoleh peserta didik dalam suatu tes. Kriteria ini terutama digunakan dalam bidang tes kepribadian. Kadang-kadang untuk keperluan ini juga digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok berhasil dan kelompok kurang berhasil. Skor setiap soal tes dari kelompok yang berhasil dibandingkan dengan skor setiap soal tes dari kelompok yang kurang berhasil. Soal-soal yang gagal menunjukkan perbedaan antara kelompok yang berhasil dengan kelompok yang kurang berhasil harus diperbaiki, atau dibuang.

Teknik Pengujian Validitas Item Tes Hasil Belajar

Validitas item dari suatu tes adalah ketepatan mengukur yang dimiliki oleh sebutir item dalam mengukurapa yang seharusnya diukur lewat butir item tersebut. Eratnya hubungan antara butir item dengan tes hasil belajar sebagai suatu totalitas itu dapat dipahami kiranya dapat dipahami dari kenyataan, bahwa semakin banyak butir-butir item yang dapat dijawab dengan betul oleh testee, maka skor-skor total hasil tes tersebut akan semakin tinggi dan sebaliknya.

Untuk menghitung koefisien validitas soal tiap item dapat digunakan rumus korelasi dengan angka kasar yaitu koefisien poruct moment  yaitu:

 

rxy  =

dimana :

N         :  banyaknya siswa peserta tes

     :  Skor yang diperoleh siswa untuk tiap item soal

     :  Skor total

rxy        :  Koefisian korelasi antara variabel X dan variabel Y.

Untuk menafsirkan keberartian harga validitas tiap item maka harga tersebut dikonsultasikan ketabel harga kritik r product momen dengan α = 0,05 dengan kriteria jika rhitung> rtabel maka tes tersebut dikatakan valid.

 

 

 

 

 

 

Tabel

Teknik Korelasi  Product-Moment

 

No

X

Y

1

5

6

2

6

8

3

7

7

4

8

6

5

7

6

6

5

7

7

6

8

8

7

6

9

5

7

10

4

5

Ʃ

 

 

 

Hitunglah r xy = …………..(r tabel dilampiran)

4. Validitas konstruk

            Konstruk adalah konsep yang dapat diobservasi (observable) dan dapat diukur (measurable). Validitas konstruk sering juga disebut validitas logis (logical validity). Validitas konstruk berkenaan dengan pertanyaan hinggamana suatu tes betul-betul dapat mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang akan diukur oleh tes tersebut. Validitas konstruk banyak dikenal dan digunakan dalam tes-tes psikologis untuk mengukur gejala perilaku yang abstrak, seperti kesetiakawanan, kematangan emosi, sikap, motivasi, minat, dan sebagainya.

            Untuk menguji validitas konstruk dapat dilakukan dengan berbagai sumber, antara lain validitas isi, validitas prediktif, dan validitas konkuren. N.E. Gronlund (1985) mengemukakan “It is a matter of accumulating evidence from many different sources. We may use content validity, predictive validity, and concurrent validity as partial evidence to support construct validity, but none of them alone is sufficient”. Analisis statistika yang digunakan dalam validitas konstruk antara lain dengan analisis faktor (factor analysis), sehingga dapat diketahui :

a. Aspek-aspek apa saja yang diukur oleh setiap butir soal.

b. Berapa besar suatu butir soal berisi faktor-faktor tertentu.

c. Faktor-faktor apa yang diukur oleh suatu butir soal.

Produk analisis faktor ini dapat menganalisis dan mempertimbangkan apakah suatu tes betul-betul dapat mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang hendak diukur oleh tes yang bersangkutan.

5. Validitas faktor

Dalam evaluasi atau penilaian sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas beberapa faktor. Faktor-faktor tersebut diperoleh berdasarkan dimensi/indikator dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoritisnya. Meskipun variabel terdiri atas beberapa faktor, tetapi prinsip homoginitas untuk keseluruhan faktor harus tetap dipertahankan, sehingga tidak terjadi tumpang tindih antara satu faktor dengan faktor yang lain. Dengan demikian, kriterium yang digunakan dalam validitas faktor ini dapat diketahui dengan menghitung homoginitas skor setiap faktor dengan total skor, dan antara skor dari faktor yang satu dengan skor dari faktor yang lain

B.     Realibilitas

Reliabilitas alat ukur adalah ketetapan atau keajegan alat tersebut dalam mengukur apa yang diukurnya. Artinya, kapan pun alat ukur tersebut digunakan akan memberikan hasil ukur yang sama. Contoh paling nyata adalah timbangan atau meteran. Hal yang sama terjadi untuk alat ukur suatu gejala, tingkah laku, ciri atau sifat individu dan lain‑lain. Misalnya alat ukur prestasi belajar seperti tes hasil belajar, alat ukur sikap, kuesioner dan lain‑lain, hendaknya meneliti sifat ke­ajegan tersebut.

Tes hasil belajar dikatakan ajeg atau tepat apabila hasil pengukuran saat ini menunjukkan kesamaan hasil pada saat yang berlainan waktunya, terhadap siswa yang sama. Misalnya siswa kelas V pada hari ini di tes kemampuan matematik.Minggu berikutnya siswa tersebut di tes kembali. Hasil dari kedua tes relatif sama. Sungguhpun demikian masih mungkin terjadi ada perbedaan hasil untuk hal‑hal tertentu akibat faktor kebetulan, selang waktu, terjadinya perubahan panda­ngan siswa terhadap soal yang sama. Jika ini terjadi, kelemahan ter­letak dalam alat ukur itu, yang tidak memiliki kepastian jawaban atau meragukan siswa. Dengan kata lain derajat reliabilitasnya masih rendah.

Di lain pihak perbedaan hasil pengukuran bukan disebabkan oleh alat ukurnya, melainkan kondisi yang terjadi pada diri siswa. Misal­nya fisik siswa dalam keadaan sakit pada waktu tes yang pertama, motivasi pada waktu tes pertama berbeda dengan motivasi tes pada berikutnya.

        Atas dasar itu perbedaan hasil pengukuran pertama dengan hasil pengukuran berikutnya bisa teijadi akibat perubahan pada diri subjek yang diukur dan atau oleh faktor yang berkaitan dengan pemberian tes itu sendiri.Hal ini tidak mengherankan dan sudah umum terjadi, yang sering dinyatakan dengan sebutan/istilah kesalahan peng­ukuran. Ini berarti, skor hasil pengukuran yang pertama dan skor hasil pengukuran kedua terhadap subjek sama, dimungkinkan ter­jadinya kesalahan pengukuran disebabkan oleh dua faktor di atas. Oleh karenanya setiap skor hasil pengukuran menghasilkan dua bagian, yakni hasil pengukuran pertama yang disebut skor sejati dan hasil pengukuran berikutnya terhadap subjek yang sama, yang me­ngandung hasil skor plus kesalahan pengukuran.

Komponen skor sejati dan skor yang mengandung kesalahan pengukuran dinyatakan dalam suatu persamaan matematis sebagai berikut:

X  = b + s,

dengan:

X = skor yang diamati

b   = skor sejati

s   = kesalahan pengukuran

Dalam suatu penelitian skor yang diamati adalah skor sejati ditambah skor kesalahan pengukuran sehingga variansi skor yang diamati X2 adalah variansi skor sejati Tb2 ditambah variansi skor kesalahan Ts2 atau Tx2 = Tb2 + Ts2.

Indeks reliabilitas alat ukur dalam suatu penelitian dapat dicari dengan mengkorelasikan skor‑skor yang diperoleh dari hasil peng­ukuran yang berulang‑ulang pada waktu yang berbeda, atau dengan kelompok pertanyaan yang sepadan. Prosedur ini dilakukan dengan cara memberikan tes dua kali kepada subjek yang sama pada waktu yang berbeda. Cara kedua adalah membagi alat ukur (tes) menjadi dua bagian yang sama atau yang setarap untuk melihat keajegan tes tersebut. Cara yang pertama dikenal dengan tes ulang (test retest) dan cara kedua dikenal dengan pecahan sebanding/setara.

1.      Reliabilitas tes ulang

              Tes ulang (test‑retest) adalah penggunaan alat ukur terhadap subjek yang diukur, dilakukan dua kali dalam waktu yang berlainan.Misal­nya tes hasil belajar matematika untuk siswa SD kelas V, diberikan hari ini, lalu diperiksa hasilnya. Seminggu kemudian tes tersebut diberikan lagi pada siswa yang sama dan hasilnya diperiksa. Hasil pengukuran yang pertama kemudian dikorelasikan dengan hasil pe­ngukuran yang kedua untuk mendapatkan koefisien korelasinya (r). Koefisien korelasi ini disebut koefisien reliabilitas tes ulang, yang hasilnya akan bergerak dari ‑ 1,0 sampai + 1,0. Bila koefisien reliabilitas mendekati angka 1,0 merupakan indeks reliabilitas tinggi. Artinya hasil pengukuran yang pertama relatif sama dengan hasil pengukuran yang kedua. Dengan kata lain alat ukur tersebut memiliki tingkat keajegan atau ketetapan (reliabel). Untuk pengukuran ilmu‑ilmu sosial dan pendidikan indeks reliabilitas 0,75 sudah dianggap cukup mengingat sifat dan ilmu sosial dan pendidikan ber­beda dengan ilmu‑ilmu eksakta.

            Jarak atau selang waktu antara pengukuran pertama dengan pengukuran kedua sebaiknya tidak terlalu dekat dan juga tidak ter­lalu jauh.Jika terlalu dekat/pendek, hasil pengukuran banyak dipengaruhi oleh ingatan siswa tentang jawaban yang diberikan pada pe­ngukuran yang pertama, bukan karena keajegan alat ukurnya.Sebaliknya jika selang waktu pengukuran pertama dengan peng­ukuran kedua terlalu lama, bisa terjadi adanya perubahan penge­tahuan dan pengalaman siswa sehingga mempengaruhi koefesien re­liabilitasnya.Asumsi yang digunakan dalam tes ulang ialah karak­teristik yang diukur oleh alat ukur tersebut stabil sepanjang waktu, sehingga jika ada perubahan skor hasil kedua pengukuran lebih di­sebabkan kesalahan alat ukur.Cara tes ulang (test‑retest) banyak di­gunakan dalam menetapkan atau menentukan tingkat reliabilitas alat ukur dalam penelitian sosial dan pendidikan.

2.      Reliabilitas pecahan setara

Reliabilitas bentuk pecahan setara tidak dilakukan pengulangan pengukuran kepada subjek yang sama tetapi menggunakan hasil dari bentuk tes yang sebanding atau setara yang diberikan kepada subjek yang sama pada waktu yang sama pula. Dengan demikian diperlukan dua perangkat alat ukur yang disusun sedemikian rupa agar memiliki derajat kesamaan atau kesetaraan baik dari segi, isi, tingkat kesu­karan alat ukur, abilitas yang diukur, jumlah pertanyaan, bentuk pertanyaan dan segi‑segi teknis lainnya.Yang berbeda hanyalah per­tanyaan.Bila penyusun kesetaraan alat ukur bisa dicapai seoptimal mungkin maka koefisien reliabilitas dari prosedur ini dianggap paling baik dibandingkan dengan prosedur tes ulang.Namun kesulitannya terletak dalam menyusun perangkat alat ukur yang benar‑benar me­ngandung derajat kesetaraan tinggi.

3.      Reliabilitas belah dua

Reliabilitas belah dua mirip dengan reliabilitas pecahan setara ter­utama dari pelaksanaannya.Dalam prosedur ini alat ukur diberikan kepada kelompok subjek cukup satu kali atau satu saat.Butir‑butir soal dibagi dua bagian yang sebanding, biasanya membedakan soal nomor genap dengan soal nomor ganjil.Setiap bagian soal diperiksa hasilnya, kemudian skor dari kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya.Mengingat korelasi tersebut hanya berlaku separuh tidak untuk seluruh pertanyaan, maka koefisien korelasi yang didapatkannya tidak untuk seluruh soal, tapi hanya se­paruhnya. Oleh sebab itu koefisien korelasi belah dua perlu diubah ke dalam koefisien korelasi untuk seluruh soal dengan menggunakan rumus ramalan Spearmen Brown:

                                                      rxx =

              Keterangan :

                        rxx        = koefisien reliabilitas keseluruhan

                        r     = korelasi (r) dari belah dua.

Contoh: Koefisien korelasi belah dua adalah 0,60

            rxx        =

                        =

Dari contoh di atas terjadi peningkatan koefisien korelasinya, setelah dilakukan pengubahan. Asumsi yang digunakan dalam prosedur be­lah dua adalah kedua bagian alat ukur itu pararel, sekalipun sering keliru atau tidak benar.Akibat adanya pengubahan koefisien relia­bilitas, prosedur belah dua cenderung menunjukkan koefisien re­liabilitas yang tinggi daripada prosedur tes ulang dan pecahan setara.Oleh sebab itu penggunaan belah dua harus lebih berhati‑hati. Prosedur ini digunakan bila alat ukur mengandung atau terdiri dari banyak item, item relatif berat/sukar (power test), materi yang diuji cukup komprehensif sehingga memungkinkan penyusunan dua soal untuk satu permasalahan yang sama untuk memenuhi belah dua.

4.      Kesamaan rasional

Di samping cara‑cara yang dijelaskan di atas ada prosedur meng­hitung reliabilitas tanpa melakukan korelasi dari dua pengukuran atau pecahan setara dan belah dua.Cara tersebut adalah kesamaan rasional.Prosedur ini dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir‑butir lainnya dan dengan tes itu sendiri secara keseluruhan. Salah satu cara yang sering digunakan adalah menggunakan rumus Kuder-Rechardson-20 atau KR 21.

 

 

rumus KR-20, yaitu :

r11 =                                

Di mana :

    r11 = Reliabilitas tes secara keseluruhan

      n = Banyaknya item dalam tes

      p = proporsi subyek yang menjawab item dengan benar

      q =  proporsi subyek yang menjawab item dengan salah (q = 1-p)

= Jumlah hasil perkalian antara p dan q

      S = Standar deviasi dari tes

 

varians dapat dihitung harga dengan rumus :

                      

Dimana :                                                   

                   = Varians skor

               = Jumlah skor total

             = Jumlah kuadrat skor

            N         = Sampel

 

Untuk menafsirkan arti suatu koefisien Reliabilitas dapat di gunakan pedoman sebagai berikut:

a.       0,00 ≤ r ≤ 0,40 = reliabilitas rendah

b.      0,41 ≤ r ≤ 0,70 = reliabilitas sedang

c.       0,71 ≤ r ≤ 0,90 = reliabilitas tinggi

d.      0,91 ≤ r ≤ 1,00 = reliabilitas sangat tinggi

Untuk menafsir harga Reliabilitas dari soal maka harga tersebut di konsultasikan ke tabel harga kritik r tabel product moment dengan α = 0,05 maka >  maka soal reliabel.

 

 

 

Rumus KR-21 yaitu :

r11 =

 

Di mana :

   r11 = Reliabilitas tes secara keseluruhan

     n = Banyaknya item dalam tes

   Mt = nilai rata-rata siswa

   St  = standar deviasi

Uraian ukuran reliabilitas yang telah dijelaskan di atas dapat dipertimbangkan oleh peneliti, cara mana yang paling tepat digunakan ber­gantung pada peneliti. Pertimbangan tersebut, antara lain sifat va­riabel yang diukur, jenis alat ukur, jumlah subjek yang diukur, serta hasil‑hasil pengukuran yang diharapkan sesuai dengan tujuan penelitian.

Catatan: untuk soal pilihan berganda (objektif tes) rumus yang digunakan untuk mencari reliabilitas adalah KR-20 dan KR-21

                        Sedangkan untuk tes uraian, rumus yang digunakan adalah:

Untuk menghitung reliabilitas soal uraian digunakan rumus alpha-Cronbach

 

Keterangan :

                   : Reliabilitas yang dicari

                     : Banyaknya Butir Soal

  : Jumlah Varians skor tiap-tiap item

       : Varians Total

 

     C. Analisis Kualitas Butir Soal

1). Proporsi Soal

Proporsi soal adalah tingkat perbandingan soal yang digunakan dalam penulisan soal.Artinya dalam menulis soal yang akan digunakan untuk menguji tes hasil      belajar tidak boleh menumpuk pada satu aspek kognitif saja tetapi tingkat kesukaran yang digunakan antara C1-C harus proporsional sesuai dengan SK/KD yang terdapat pada setiap pokok bahasan.

Jadi, bermutu atau tidaknya butirbutir item pada instrumen  dapat diketahui dari  derajat kesukaran atau tingkat kesukaran yang dimiliki oleh masing-masing butir item tersebut.

 

Untuk menentukan taraf kesukaran tes digunakan rumus :

P =

Dimana :

P  = indeks kesukaran

B = banyak siswa yang menjawab soal benar

JS = jumlah siswa peserta tes

           Hasil perhitungan tingkat kesukaran diinterpretasikan dengan menggunakan kriteria indeks kesukaran butir soal  sebagai berikut:

Kriteria Interpretasi Tingkat Kesukaran

 

KoefisienKorelasi

Kriteria

TK = 1.00

Terlalu Mudah

0.70 < IK  < 1.00

Mudah

0.30 < IK  < 0.70

Sedang

0.00 < IK  < 0.30

Sukar

IK = 0.00

TerlaluSukar

 

Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi antara tingkat kesukaran soal tersebar secara normal. Perhitungan proporsi tersebut dapat diatur sebagai berikut :

a. Soal sukar 25%, soal sedang 50%, soal mudah 25%, atau

b. Soal sukar 20%, soal sedang 60%, soal mudah 20%, atau

c. Soal sukar 15%, soal sedang 70%, soal mudah 15%.

Seharusnya, penyusunan suatu soal dilakukan dengan mempertimbangkan tingkat kesukaran soal, sehingga hasil yang dicapai peserta didik dapat menggambarkan prestasi yang sesungguhnya.

 

 

 

  1. Daya Pembeda Soal

 

Daya Pembeda soal adalah kemampuan suatu butir soal tes hasil belajar untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan siswa yang berkemampuan rendah (bodoh). Daya pembeda itu dapat diketahui melalui atau dengan melihat besar kecilnya angka indeks..diskrimina soal.  Angka indeks daya pembeda adalah sebuah angka yang menunjukkkan besar kecilnya daya pembeda yang dimiliki oleh sebutir soal.

Daya pembeda pada dasarnya dihitung atas dasar pembagian siswa kedalam  dua kelompok yaitu :Kelompok atas dan Kelompok bawah

Cara menentukan dua kelompok itu ditentukan atas 2 bagian yaitu

a.                Untuk kelompok kecil (jumlah siswa maksimum 100 orang) Untuk    

          kelompok  kecil pembagian kelompok atas diambil (50%) dan kelompok   

          bawah diambil     50 %

b.               Untuk kelompok besar ( jumlah siswa berada diatas 100 orang)

Untuk kelompok besar pembagian kelompok atas diambil (27%) dan    

kelompok bawah diambil (27%)

 

Dalam menentukan daya pembeda untuk tiap soal dilakukan dengan menggunakan rumus :

Dimana:

D   : Daya pembeda

BA : Banyaknya siswa kelompok atas yang menjawab benar

BB : Banyaknya siswa kelompok bawah yang menjawab benar

JA:  Jumlah siswa pada kelompok atas

JB:  Jumlah siswa pada kelompok bawah

 

Kriteria Interpretasi Daya Pembeda

 

Koefisien Korelasi

Kriteria

0.70 < DP  < 1.00

Sangat Baik

0.40 < DP  < 0.69

Baik

0.20 < DP  < 0.39

Cukup

0.00 < DP  < 0.19

Jelek

DP 0.00

Jelek Sekali

 

 

  1. Distraktor Soal (Pengecoh)

Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang merupakan pengecoh. Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah.  Sebaliknya, butir soal yang kurang, pengecohnya akan dipilih secara tidak merata.

Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan

rumus: IP =                 P           X 100 %

(N - B) / (n - 1)

Keterangan :

IP = indeks pengecoh

P = jumlah peserta didik yang memilih pengecoh

N = jumlah peserta didik yang ikut tes

B = jumlah peserta didik yang menjawab benar pada setiap soal

n = jumlah alternatif jawaban (opsi)

1 = bilangan tetap

Catatan :

Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian, pengecoh tidak berfungsi.

Contoh :  50 orang peserta didik di tes dengan 10 soal bentuk pilihan-ganda. Tiap soal memiliki 5 alternatif jawaban (a, b, c, d dan e). Kunci jawaban (jawaban yang benar) soal nomor 8 adalah c. Setelah soal nomor 8 diperiksa untuk semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan 30 peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata, artinya semua pengecoh secara merata ikut menyesatkan peserta didik. Perhatikan contoh soal nomor berikut ini :

Alternatif jawaban a b c d e

Distribusi jawaban peserta didik 7 8 20 7 8

IP 93% 107% ** 93% 107%

Kualitas pengecoh ++ ++ ** ++ ++

Keterangan :

** : kunci jawaban , ++ = sangat baik , + = baik , - = kurang baik , _ = jelek , _ _ = sangat jelek

Pada contoh di atas,  IP butir a, b, d, dan e adalah 93%, 107%, 93% dan 107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik, sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya seperti berikut :

Alternatif jawaban a b c d e

Distribusi jawaban peserta didik 20 2 20 8 0

IP 267% 27% ** 107% 0%

Kualitas pengecoh _ - ** ++

Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang baik. Adapun kualitas pengecoh berdasar indeks pengecoh adalah :

Sangat baik IP = 76% - 125%

Baik IP       = 51% - 75% atau 126% - 150%

Kurang baik IP = 26% - 50% atau 151% - 175%

Jelek IP                  = 0% - 25% atau 176% - 200%

Sangat jelek IP = lebih dari 200%

Untuk analisis pengecoh perlu dibuat tabel khusus agar setiap butir soal diketahui berapa banyak peserta didik yang menjawab a, b, c dan seterusnya. Hal ini tentu saja sangat memakan waktu dan tenaga. Jika diolah dengan komputer dan data sudah dimasukkan dalam disket, pengolahan ini hanya memerlukan waktu beberapa detik saja.

No comments:

Post a Comment