VALIDITY OF
NORM-REFERENCED TESTS
The basic
concept of validity is the same for norm-referenced tests as it is for
criterion-referenced tests -the extent to which the test measures what it is
intended to measure. without validity, there can be confidence in the
inferences and conclusions made from the test results. like reliability, the
validity of a test is situation specific. A test may be valid for one specified
purpose or situation and not be valid for others. there are different types
validity, and certainly content validity is a primary concern of tests used in
classroom instruction.Content validity is based on a logical analysis. Some
types of validity, criterion and construct, involve correlations between test
scores and acores on other measures.
Validitas Norma-Acuan
Tes
Konsep
dasar dari validitas adalah sama untuk norma-acuan tes seperti untuk kriteria-acuan
tes-sejauh mana tes mengukur apa yang dimaksudkan untuk diukur. Tanpa
validitas, bisa tidak ada kepercayaan pada kesimpulan dan kesimpulan yang
dibuat dari hasil tes. Seperti reliabelitas, validitas tes adalah situasi
tertentu. Sebuah tes dapat berlaku untuk satu tujuan tertentu atau situasi dan
tidak berlaku untuk yang lain. Ada perbedaan jenis validitas, dan tentu
validitas isi adalah pengujian dari validitas tes yang digunakan dalam pengajaran
di kelas. Validitas isi didasarkan pada analisis logis. Beberapa jenis
validitas, kriteria dan konstruks, meliputi korelasi antara skor tes dan skor
pada tindakan lainnya.
validity is
the extent to which a test measures what it is intended to measure
Validitas adalah
sejauh mana tes
mengukur apa yang dimaksudkan
untuk diukur.
CONTENT VALIDITY
VALIDITAS ISI
To what extent does a test reflect
the knowledge and skills intended by the instructional objectives? In order to
have content validity, a test must be representative of the content of
instruction, which usually includes both topics and cognitive processes, if a
test has content validity, it represents the defined universe of body of
content my be defined narrowly or broadly, depending on the situation.
Sejauh mana
tes mencerminkan pengetahuan dan keterampilan yang dimaksudkan oleh tujuan
instruksional? Dalam rangka untuk memiliki validitas isi, tes harus mewakili
isi dari instruksi, yang biasanya mencakup keduanya topik dan proses kognitif.
Pokoknya, jika tes memiliki validitas isi, itu menggambarkan definisi
keseluruhan isi tentang penilaian yang dilakukan. Dari isi mungkin didefinisikan
secara sempit atau luas, tergantung pada situasi.
content validity is concerned with
the extent to which the test is representative of a defined body of content
consisting of topics and processes.
validitas isi
berkaitan
dengan
sejauh
mana tes dapat mewakili dari keseluruhan definisi dari isi
terdiri
dari topik dan proses.
content validity is established
through a logical analysis, which is basically an analysis of correspondence
between the test items and the content being convered. content analysis does
not yield an index of validity. for that reason, some writers prefer not to use the term
validity but rather something like content representativeness. For example,
Messick (1975) wrote:
Validitas
isi didirikan melalui
analisis
logis, yang pada dasarnya
analisis
dari korespondensi
antara item tes dan isi
yang
convered.
Analisis
isi tidak menghasilkan indeks
validitas.
Karena
alasan itu, beberapa penulis
memilih
untuk tidak menggunakan istilah
validity melainkan
sesuatu
seperti content representativeness.
Sebagai
contoh, Messick (1975)
menulis:
Content coverage is an important
consideration in test construction and interpretation, to be sure, but in
itself it does not provide validity. Call in "content relevance" if
you will, or "content representativeness" but don't call it
"content validity" because it doesn't provide evidence for the
interpretation of responses or scores ( p. 961)
Cakupan isi adalah suatu pertimbangan penting dalam konstruksi tes dan interpretasi, untuk memastikan, tetapi dalam dirinya sendiri tidak memberikan validitas. Dinamakan "relevansi isi" jika kamu akan, atau "keterwakilan isi" tapi jangan menyebutnya "validitas
isi" karena tidak memberikan bukti untuk interpretasi dari tanggapan atau skor (hal. 961)
The conceptual difficulty that
writers may have with content validity is that it is based on the form of the
test rather than the scores obtained from a test administration. Traditionally,
concepts of reliability and validity are based on scores obtained and their
intrarelationships or relationship with other
scores. Content validity does not involve such emprirical relationships. Yet we
agree with Yalow and Propham (1983) that content validity is important and that
quantifiable, judgmental evidence must be available abouth the content
representativeness of a test. Representativeness of content is important. In
our discussion, we continue to use the term content validity.
Kesulitan
konseptual
bahwa
penulis dengan validitas isi
adalah
bahwa hal itu didasarkan
pada
bentuk tes lebih baik daripada
skor
yang diperoleh dari
administrasi
tes. Secara tradisional,
konsep
atau reliabilitas
dan validitas yang
didasarkan
pada skor
yang
diperoleh dan intrarelationships mereka atau
hubungan
dengan skor lainnya.
Validitas
isi tidak melibatkan hubungan
yang
empiric. Namun, kita
setuju
dengan Yalow dan
Propham
(1983)
bahwa
validitas
isi yang penting dan quantifiable,
keputusan bukti harus
dihitung
menghakimi
tentang tersedia
keterwakilan
isi
tes.
Keterwakilan
dari isi
adalah penting. Dalam diskusi
kami,
kami terus menggunakan istilah validitas isi.
Content validity is based on
logical analysis. It does not generate a validity coefficient, as is obtained
with some other types of validity.
Validitas
isi
didasarkan pada analisis
logis.
Ini
tidak
menghasilkan suatu koefisien
validitas,
seperti
yang diperoleh dengan beberapa jenis
validitas.
Content Validity of Teacher -
Constructed Tests
Validitas Isi dari Guru –
Gagasan Tes
Content validity of a teacher-constructed test essentially depends on the
sampling of items. If the test items adequately represent the domain of possible
items, the test has adequate content validity. When a test is not content
valid, there are two consequences. First, the students cannot demonstrate skill
that they possessif they are not tested. Second, irrelevant items are presented
that students will likely answer incorrectly only because the content was not
taught. Both of these consequences tend to lower the test score; as a result,
the test score is not an adequate measure of students performance relative to
the content covered by instruction.
Validitas isi dari guru- gagasan tes dibangun pada
dasarnya tergantung pada sampling item. Jika item tes cukup mewakili domain dari
kemungkinan item, uji validitas isi telah memadai. Ketika tes bukanlah isi yang
benar, ada dua konsekuensi. Pertama, siswa tidak dapat menunjukkan keterampilan
yang mereka miliki jika mereka tidak diuji. Kedua, item yang tidak relevan yang
disajikan siswa kemungkinan akan menjawab salah hanya karena isi tidak
diajarkan. Kedua konsekuensi ini cenderung menurunkan skor tes; sebagai
akibatnya, skor tes bukan merupakan ukuran yang memadai dari kinerja siswa
relatif terhadap isi yang dicakup oleh instruksi.
Most teachers are quite familiar with the the content they cover during
instruction, and, to a large extent, teacher-constructed tests have an inherent
content validity. However, in planning a test, teachers can use a
straightforward procedure that tends to improve content validity. This
procedure is illustrated below.
Kebanyakan
guru cukup akrab dengan konten yang mereka keluarkan selama instruksi, dan,
untuk sebagian besar, guru-dibangun tes memiliki validitas isi yang melekat.
Namun, dalam perencanaan tes, guru dapat menggunakan prosedur sederhana yang
cenderung untuk meningkatkan validitas konten. Prosedur ini digambarkan di bawah
ini.
An Example
contoh
Suppose a test is to be constructed to cover five objectives dealing with
the multiplication of decimals, typically taught at seventh-grade level. These
objectives are taken from Eicholz and colleagues (1985):
Misalkan
tes adalah yang akan dibangun untuk menutupi lima tujuan berurusan dengan perbanyakan
desimal, biasanya diajarkan di kelas tujuh tingkat. Tujuan
ini diambil dari Eicholz dan rekan (1985):
Objectives: (The student
will)
Tujuan:
(Mahasiswa akan)
4.1 Use estimation to
find decimal products.
4.2 Find products when
the factors are decimal.
4.3 Estimate products
when the factors are decimals.
4.4 Use scientific
notation to express whole numbers.
4.5 Solve word problems
using the 5-point Checklist and cumulative computational skill.
4.1 estimasi Gunakan untuk menemukan
produk desimal.
4.2 Cari produk ketika faktor-faktor yang desimal.
4.3 Perkirakan produk ketika faktor desimal.
4.4 Gunakan notasi ilmiah untuk mengekspresikan bilangan bulat.
4.5 Memecahkan masalah kata dengan menggunakan Checklist 5-point dan keterampilan komputasi kumulatif.
4.2 Cari produk ketika faktor-faktor yang desimal.
4.3 Perkirakan produk ketika faktor desimal.
4.4 Gunakan notasi ilmiah untuk mengekspresikan bilangan bulat.
4.5 Memecahkan masalah kata dengan menggunakan Checklist 5-point dan keterampilan komputasi kumulatif.
For
the most part, these objectives imply knowledge, comprehension, application,
and analysis-level learning outcomes, with a heavy emphasis on application.
Suppose It is decided to construct a 30
items test. A table of specifications similar to the one described in Gronlund
(1985, p.122) can be developed. The table is a two–demensional grid containing
numbers of items in the cells. One dimension contains the content to be cevered
by the test, the other contains the intended learning outcome.
Untuk sebagian besar, tujuan-tujuan ini menyiratkan pengetahuan, pemahaman, aplikasi, dan analisis-tingkat
hasil belajar, dengan
penekanan berat pada aplikasi.
Misalkan Hal ini memutuskan
untuk membangun tes 30 item.
Sebuah tabel spesifikasi yang mirip
dengan yang dijelaskan dalam Gronlund (1985, p.122)
dapat dikembangkan. Meja adalah grid dua-demensional berisi
jumlah item dalam sel. Satu dimensi berisi
konten yang akan cevered oleh tes, yang lain berisi hasil belajar yang diinginkan.
TABLE 9-1 A Table of Specifications
for a 30-Item Arithmetic Test
|
Learning Outcome
|
||||||
|
Content
|
Knowledge
|
Comprehension
|
Application
|
Analysis
|
Total
|
Percentage
|
|
Estimation
|
2
|
2
|
2
|
0
|
6
|
20 %
|
|
Find products
|
0
|
0
|
6
|
0
|
6
|
20 %
|
|
Estimate products
|
0
|
1
|
5
|
0
|
6
|
20 %
|
|
Scientific notation
|
3
|
3
|
0
|
0
|
6
|
20 %
|
|
Word problems
|
0
|
1
|
3
|
2
|
6
|
20 %
|
|
Total
Percentage
|
5
17 %
|
7
23 %
|
16
53 %
|
2
7 %
|
30
|
100 %
|
TABEL
9-1 Sebuah Tabel
Spesifikasi untuk Test Aritmatika 30-Barang
|
Hasil belajar
|
||||||
|
konten
|
pengetahuan
|
Pemahaman
|
Aplikasi
|
Analisis
|
Total
|
Persentase
|
|
Perkiraan
|
2
|
2
|
2
|
0
|
6
|
20 %
|
|
Cari produk
|
0
|
0
|
6
|
0
|
6
|
20 %
|
|
Perkiraan produk
|
0
|
1
|
5
|
0
|
6
|
20 %
|
|
Notasi ilmiah
|
3
|
3
|
0
|
0
|
6
|
20 %
|
|
Permasalahan Kata
|
0
|
1
|
3
|
2
|
6
|
20 %
|
|
Total
Persentase
|
5
17 %
|
7
23 %
|
16
53 %
|
2
7 %
|
30
|
100 %
|
The table of
specification for this example is given in Table 9-1. The content dimension
could have contained the instructional objectives since the content was taken
directly from those objectives. Each of
the five entries for content (or objectives) has allotted six, or 20 percent,
of the items. This is simply an illustration and it is not necessary that the
numbers of items per content topic be equal. The numbers of items should
reflect the importance given to the objective or topic. Usually the importance
of the objective or topic determines the insructional emphasis. There may be
occasional exceptions to this because some topics simply take more (or less)
time to teach, but generally of one topic or instructional objective received
50 percent of the instruction, it should have about one-half of the test time.
Tabel
spesifikasi untuk contoh ini diberikan pada Tabel 9-1.
Dimensi konten bisa
terkandung tujuan instruksional karena konten tersebut diambil langsung dari tujuan tersebut. Masing-masing dari lima entri untuk
konten (atau tujuan) telah diberikan enam,
atau 20 persen, dari
item. Ini hanya ilustrasi dan tidak perlu bahwa jumlah
item per topik konten
sama. Jumlah item
harus mencerminkan pentingnya diberikan dengan tujuan atau topik. Biasanya pentingnya
tujuan atau topik menentukan penekanan insructional.
Mungkin ada pengecualian sesekali untuk ini
karena beberapa topik hanya
mengambil waktu lebih (atau
kurang) untuk mengajar, tetapi pada
umumnya dari satu topik atau tujuan instruksional menerima 50 persen dari instruksi, harus memiliki sekitar satu-setengah dari waktu tes.
Note that the learning
outcomes were allotted different numbers of items. Again, these numbers should
reflect the instructional emphases. Because of the nature of arithmetic instruction,
application often receives a heavy emphasis.
Perhatikan
bahwa hasil pembelajaran yang diberikan nomor yang berbeda dari item. Sekali
lagi, angka-angka ini harus mencerminkan penekanan instruksional. Karena sifat
instruksi aritmatika, aplikasi sering menerima penekanan yang berat.
The extent to which is
divided into topics is an arbitrary decision made by the teacher. Whatever
specificity is most helpful should be used. Tests that cover long instructional
periods (e.g., a final exam over a semester’s instruction) would use more
general topics. If the content becomes too specific, the table may become long
and cumbersome. In any event, the table should provide a rather precise
description of how items are distributed across content. A spinoff benefit is
that the use of a table of specifications is an effective aid in planning a
test.
Sejauh
yang terbagi menjadi topik adalah keputusan sewenang-wenang yang dibuat oleh guru. Apapun
spesifisitas paling membantu harus digunakan. Tes yang mencakup periode instruksional panjang (misalnya, ujian akhir selama satu semester itu
instruksi) akan menggunakan topik yang lebih umum. Jika
konten menjadi terlalu spesifik,
meja dapat menjadi panjang dan rumit. Dalam hal apapun, tabel harus memberikan
penjelasan agak tepat tentang
bagaimana item yang didistribusikan
di seluruh konten. Satu manfaat spin-off adalah
bahwa penggunaan tabel
spesifikasi adalah bantuan yang
efektif dalam perencanaan tes.
The learning outcome
dimension should be helpful in ensuring that the items are consistent with the
intended outcomes of the objectives. If the objectives imply application and
analysis-level outcomes and the items are all knowledge level, the test will
lack content validity. Usually, it is easier to construct items for lower-level
outcomes. Teachers should therefore be careful to review the intended outcomes
to ensure that they are properly represented.
Dimensi
hasil belajar harus membantu dalam memastikan bahwa barang yang konsisten dengan hasil
yang diharapkan dari tujuan. Jika
tujuan menyiratkan aplikasi dan
analisis-tingkat hasil
dan item semua tingkat
pengetahuan, tes akan kekurangan validitas
konten. Biasanya, lebih mudah untuk membangun item untuk tingkat yang lebih rendah hasil. Oleh karena itu guru harus
berhati-hati untuk meninjau hasil
dimaksudkan untuk memastikan bahwa
mereka benar terwakili.
Content Validity of Published Tests
Isi Validitas Tes Diterbitkan
Teachers may, at least on occasion, use published tests, some of which
accompany curriculum materials. The testsconstructed for a specified textbook
or set of materials usually have high content validity if the materials are
used as intended for instruction. Sometimes materials are used as supplementary
and are only partially covered, in which case any accompanying tests would at
least need to be reviewed for content validity.
Guru
mungkin, setidaknya pada kesempatan, menggunakan tes yang diterbitkan, beberapa
yang menyertai materi kurikulum. Para testsconstructed untuk buku tertentu atau
seperangkat bahan biasanya memiliki validitas isi tinggi jika bahan yang
digunakan sebagai ditujukan untuk instruksi. Kadang-kadang bahan yang digunakan
sebagai pelengkap dan hanya sebagian tertutup, dalam hal ini tes apa pun yang
menyertai setidaknya perlu ditinjau untuk validitas konten.
Many school systems use
standardized achievement tests prepared by commercial publishers; for the most
part, these are norm-referenced tests. The content of such tests is fixed and
is designed to have broad coverage. Therefore, although such tests are usually
very well constructed technically, they may lack adequate content validity when
used in a specific situation. When curriculum committees or test selection
committees in a school system are attempting to select a standardized
achievement test, they are usually grappling with the problem of content
validity.
Banyak
sistem sekolah menggunakan tes prestasi standar yang disiapkan oleh penerbit komersial; untuk
sebagian besar, ini adalah tes mengacu-norma.
Isi dari tes tersebut adalah tetap dan dirancang untuk memiliki cakupan yang luas. Oleh karena itu, meskipun tes ini biasanya sangat baik dibangun teknis, mereka mungkin kurang memadai validitas
isi bila digunakan dalam situasi
tertentu. Ketika kurikulum
komite atau panitia seleksi dalam sistem sekolah
mencoba untuk memilih tes prestasi standar, mereka biasanya bergulat dengan masalah
validitas konten.
Standardized achievement tests
tend to have broad content coverage so they will have wide application.
However, when used in a spesific situation, the content validity of a
prospective test should always be considered.
Tes prestasi
standar cenderung untuk memiliki cakupan yang luas konten sehingga mereka akan
memiliki aplikasi yang luas. Namun, bila digunakan dalam situasi spesifik,
validitas isi tes calon harus selalu dipertimbangkan.
The manuals for
published tests provide considerable information about their intended uses.
Nevertheless, contentvalidation is time consuming because individual items must
be considered in order to do a complete job. Also, since teachers provide the
instruction, it should be the teachers who establish the content validity.
Manual
untuk tes diterbitkan memberikan informasi yang cukup tentang
menggunakan mereka dimaksudkan. Namun demikian, contentvalidation memakan waktu karena setiap
item harus dipertimbangkan dalam
rangka untuk melakukan pekerjaan lengkap. Juga, karena guru memberikan
instruksi, harus menjadi guru
yang menetapkan validitas konten.
A process of content validation, as described by Heuer and Wiersma (1977),
involved a standardized test used at an elementary school. The process is given
the descriptive title “Content Validation, Multiple Group Design”, it is
diagrammed in general form in Figure 9-1. This is a process design, theprocess
beginning with the teachers rating the items and predicting student success.
The instruction takes place for whatever time is necessary after which the
students are tested using the test. The design can accommodate varying numbers
of groups, indicated by 1 through k. Groups
can be structured by grade level, age, or subject area.
Suatu
proses validasi konten, seperti yang dijelaskan oleh Heuer dan Wiersma (1977), melibatkan
tes standar yang digunakan di sebuah sekolah dasar. Proses ini diberi judul "Validasi
Konten, Design Group Beberapa" deskriptif, hal ini digambarkan dalam
bentuk umum dalam Gambar 9-1. Ini adalah desain proses,
theprocess dimulai dengan guru rating item
dan memprediksi keberhasilan siswa.
Instruksi berlangsung untuk apa pun waktu yang diperlukan setelah itu siswa diuji
dengan menggunakan tes. Desain
dapat mengakomodasi berbagai
jumlah kelompok, ditunjukkan oleh
1 sampai k. Kelompok
dapat terstruktur dengan tingkat
kelas, usia, atau subjek daerah.
An Example
contoh
FIGURE 9-1 Content Validation, Multiple-Group Design
GAMBAR 9-1 Konten Validasi, Multiple-Design
Group
Rating Prediction
Group 1 Group
1 Student
Teacher Teacher Group
k Instruction Student
Rating Prediction Perfomence
Teacher Prediction : predeksi guru
Teacher Rating : penilaian guru
Pupil population : Populasi murid
Instruction : Pengajaran
Student Perfomence : Perfomen
mahasiswa
The design was used in
the Port Edwards, Wisconsin, elementary school (Heuer and Wiersma, 1977). The
school had implemented Individually Guided Education (IGE), but since most
standardized tests are keyed by grade level, age groups werwe used, ranging
from age 7 (second grade) to age 13 (eighth grade). The items of a standardized
test were rated by the taechers for the appropriate grades on a three-category
system as follows:
Desain
yang digunakan dalam Edwards
Port, Wisconsin, SD
sekolah (Heuer dan Wiersma, 1977). Sekolah telah
menerapkan Pendidikan Individual
Terpimpin (IgE), tapi karena tes standar kebanyakan mengetik
oleh tingkat kelas, kelompok usia
werwe digunakan, mulai dari usia 7 (kelas dua) dengan usia 13 (kelas delapan). Item dari tes standar
dinilai oleh taechers
untuk nilai yang
sesuai pada sistem tiga-kategori sebagai
berikut:
A= a valid item (The
concept has been taught at that or a previous level).
B= a reasonably valid
item (It is a concept frequently taught).
C= an invalid item (This
concept has not been taught at this or a previous level).
A
= item yang valid (konsep ini telah diajarkan
pada saat itu atau tingkat sebelumnya).
B = item yang valid cukup (Ini adalah konsep yang sering diajarkan).
C = item yang tidak valid (Konsep ini belum diajarkan di tingkat ini atau sebelumnya).
B = item yang valid cukup (Ini adalah konsep yang sering diajarkan).
C = item yang tidak valid (Konsep ini belum diajarkan di tingkat ini atau sebelumnya).
The teachers not only ratedthe items but also generated a measure of
predicted student success for each item-the estimated percentage of students
that would provide a correct response. The student performance after
instruction could then be compared to the predicted success.
Para
guru tidak hanya item ratedthe tetapi juga menghasilkan
ukuran keberhasilan siswa diperkirakan persentase untuk setiap barang-memperkirakan
siswa yang akan memberikan respon yang benar. Kinerja
mahasiswa setelah instruksi kemudian dapat dibandingkan dengan kesuksesan diprediksi.
The content validity of
the test is estimated by the percentages of items rated A, B, and C; the
greater the percentages of A and B ratings, the greater the content validity.
The correspondence between teacher prediction of student success and student
performance undoubtedly reflects a number of factors. However, a high
correspondence indicates that the teachers understand how the content of the
item applies in the specific situation.
Validitas
isi tes ini diperkirakan
oleh persentase item dinilai A, B, dan C;
semakin besar persentase peringkat A dan B, semakin
besar validitas konten. Korespondensi antara prediksi keberhasilan siswa guru dan kinerja siswa diragukan
lagi mencerminkan sejumlah faktor.
Namun, korespondensi tinggi menunjukkan bahwa guru memahami bagaimana isi dari item berlaku dalam
situasi tertentu.
All of the results of
the Port Edwards Elementary School test validation will not be given here.
However, of 2,852 items reviewed, approximately one-half (49 percent) werwe
considered to be valid (A rating). About one-third werw identified as being
reasonably valid. Results were also broken down by grades and, in some cases,
by subject areas. To be sure, the content validation, multiple-group design is
based on a some-what subjective assessment by the teachers. Also, this process focuses on the relevance
of the best content. It does not deal directly with the possibility that the
test may not cover all of the content taught. That would require a review of
the test by the teachers to determine whether or not content taught is covered.
Usually, published tests are quite comprehensive, and little if any content
would be omitted. Overall, the content validation, multiple-group design
involves a process that reflects consesus by those most familiar wiht any the
specific, intended outcomes of the instruction. As with any approach to content
validation, it is primarily a process involving expert judgment.
Semua
hasil dari validasi tes Edwards Sekolah
Dasar Pelabuhan tidak
akan diberikan di sini. Namun,
dari 2.852 item terakhir, sekitar satu-setengah (49 persen) werwe dianggap
sah (Peringkat A).
Sekitar sepertiga werw diidentifikasi sebagai cukup valid. Hasil itu juga
dipecah oleh nilai dan, dalam beberapa kasus, dengan bidang studi. Yang pasti, validasi konten, beberapa
kelompok desain didasarkan pada penilaian beberapa-apa subjektif oleh para guru. Juga, proses ini berfokus
pada relevansi konten terbaik. Ini tidak berhubungan langsung dengan kemungkinan bahwa tes tidak dapat menutupi semua isi diajarkan. Itu akan memerlukan
peninjauan tes oleh
guru untuk menentukan apakah atau
tidak diajarkan konten ditutupi. Biasanya, tes diterbitkan cukup komprehensif,
dan sedikit jika konten apapun akan dihilangkan. Secara keseluruhan, validasi konten, beberapa kelompok
desain melibatkan sebuah proses yang
mencerminkan consesus oleh mereka yang paling akrab dengan spesifik, hasil yang diharapkan dari instruksi. Seperti halnya pendekatan untuk validasi konten, ini terutama proses yang melibatkan
penilaian ahli.
Content validation of a
standardized test is a time-consuming process because it requires the assessment
of a test-item fit to a curriculum. As such, the items must be reviewed in
detail and many standardized achievement test include 300 or more items
covering the traditional academic and skills areas. Variations on
content-validation designs can be applied. For example, Crocker, Llabre, and
Miller (1988) discuss four designs within the framework of generalizability
theory. These are relatively complex designs, but again they involve ratings
and expert judgment.
Konten
validasi dari tes standar adalah proses
yang memakan waktu karena memerlukan penilaian cocok tes-item untuk kurikulum. Dengan
demikian, item harus ditinjau secara
rinci dan tes prestasi standar
mencakup banyak 300
atau lebih item meliputi bidang
akademik dan keterampilan tradisional. Variasi pada
konten-validasi desain dapat diterapkan. Sebagai contoh, Crocker, Llabre, dan
Miller (1988) membahas empat
desain dalam kerangka teori generalisasi. Ini
adalah desain relatif kompleks,
tapi sekali lagi mereka melibatkan
penilaian dan penilaian ahli.
CRITERION VALIDITY
KRITERIA validitas
Criterion Validity of a
test involves the relationship or correlation between the test scores and
scores on some measure representing an identified criterion. For instance, the
criterion measure may be another test. The correlation coefficient can be
computed between the scores on the test being validated and the scores on the
criterion. A correlation coefficient so used is called a validity coefficient.
In contrast to content validity which is based on “logical” correspondence
between the test and the content to be covered, criterion validity has a
statistical indicator through the correlation coefficient.
Kriteria
Validitas tes melibatkan
hubungan atau korelasi antara nilai tes dan nilai
pada beberapa ukuran mewakili
kriteria diidentifikasi. Misalnya, ukuran kriteria
mungkin tes lain. Koefisien korelasi dapat dihitung antara skor pada
tes yang divalidasi dan nilai pada kriteria.
Sebuah koefisien korelasi sehingga
digunakan disebut koefisien validitas. Berbeda dengan validitas isi yang didasarkan pada korespondensi "logis"
antara tes dan konten yang akan dibahas, validitas kriteria memiliki indikator
statistik melalui koefisien
korelasi.
Criterion validity is based on the correlation between scores on the test
and scores on a criterion. The correlation coefficient is the criterion
validity coefficient.
Kriteria
validitas didasarkan pada korelasi antara nilai pada tes dan skor pada
kriteria. Koefisien korelasi adalah koefisien validitas kriteria.
There are two slightly different
types of criterion validity: concurrent validity and predective validity.
Concurrent validity applies if data on the two measure-test and criterion-are
collected at or about same time. Predictive validity applies if there is an
intervening period (e.g., three or six months) between the time of testing and
the collection of data on the criterion. Operationally, this time of criterion
data collection is the distinction between the two types of criterion validity.
Specifically, the question of concurrent validity is whether or not the test
scores estimate a specified present performance; that of predictive validity is
wether or not the test scores predict a specified future performance.
Ada dua
jenis sedikit berbeda validitas kriteria: validitas konkuren, dan validitas
predective. Validitas konkuren berlaku jika data pada dua pengukuran tes dan
kriteria-dikumpulkan pada atau sekitar waktu yang sama. Validitas prediktif
berlaku jika ada periode intervensi (misalnya, tiga atau enam bulan) antara
waktu pengujian dan pengumpulan data pada kriteria. Secara operasional, kali
ini kriteria pengumpulan data adalah perbedaan antara dua jenis validitas
kriteria. Secara khusus, pertanyaan validitas konkuren adalah apakah atau tidak
nilai tes memperkirakan kinerja hadir tertentu; bahwa validitas prediktif
adalah cuaca atau tidak nilai tes memprediksi kinerja masa depan yang
ditentukan.
Concurrent validity is
involved if the scores on the criterion are obtained at the same time as the
test scores. Predictive validity is involved if the scores on the criterion are
obtained after an intervening period from those of the test.
Validitas
konkuren yang terlibat jika skor pada kriteria
ini diperoleh pada waktu yang sama dengan skor tes. Validitas prediktif yang terlibat jika skor pada kriteria
ini diperoleh setelah
periode intervensi dari orang-orang dari tes.
Concurrent Validity
Validitas konkuren
In educational measurement, concurrent validity finds its most frequent
application in the substitution of one measure for another, such as a more
convenient measure for one that is somewhat inconvenient to administer, or a
shorter test substituted for a longer one. For the latter situation, the
shorter test would be the test whose validity is under consideration.
Dalam
pengukuran pendidikan, validitas konkuren menemukan aplikasi yang paling sering di substitusi
satu ukuran untuk yang lain, seperti ukuran yang lebih nyaman untuk satu yang
agak nyaman untuk mengelola,
atau tes pendek diganti
untuk satu lagi. Untuk situasi yang terakhir, tes pendek akan menjadi tes yang validitas sedang
dipertimbangkan.
The process of
establishing concurrent validity is one of administering the two measure-the
criterion measure and the measure being validated-at about the same time.
Consider an example. Suppose that a school system establishes a
minimum-competency testing program that includes minimum performance in reading
and mathematics for promotion to ninth grade. A comprehensive examination has
been developed, with subtests in reading and mathematics. The examination is
judged to have good content validity; however, its primary disadvantage is that
it requires six hours testing time. So a shorter test, requiring only one hour
for administration, is developed, covering both reading and mathematics.
Proses
pembentukan validitas konkuren
adalah salah satu dari pemberian dua ukuran-ukuran
kriteria dan ukuran sedang divalidasi-pada waktu yang sama. Pertimbangkan contoh. Misalkan bahwa
sistem sekolah menetapkan program minimum kompetensi
yang mencakup pengujian kinerja minimum dalam membaca dan matematika untuk promosi untuk kelas sembilan. Pemeriksaan komprehensif telah dikembangkan, dengan subyek dalam
membaca dan matematika. Pemeriksaan
dinilai memiliki validitas konten yang baik, namun, kelemahan utamanya adalah bahwa hal itu membutuhkan enam jam waktu pengujian. Jadi tes
yang lebih pendek, hanya membutuhkan satu
jam untuk administrasi, dikembangkan,
yang meliputi membaca dan matematika.
The validity issue here
concerns the shorter test. Does the test have eduquate concurrent validity,
making it a suitable substitution for the longer examination? The original
examination and the shorter test would both be administered to a sample of
eighth-grade students near the close of the school year. A sample of 50 students
would be adequate; preferably, this would be a random sample. The students
would take both tests with a shotr intervening time perod (e.g., a week or so).
Then the scores on the two tests would be correlated.
Isu
validitas sini menyangkut tes pendek. Apakah
tes memiliki validitas konkuren eduquate, membuatnya
menjadi substitusi cocok untuk
pemeriksaan lebih lama? Pemeriksaan asli dan tes
pendek berdua akan diberikan pada sampel siswa
kelas delapan di dekat tutup tahun sekolah.
Sebuah sampel dari 50 siswa akan memadai; disukai,
ini akan menjadi sampel acak. Para siswa akan mengambil kedua tes dengan waktu
perod shotr intervensi
(misalnya, seminggu atau lebih). Kemudian skor pada dua
tes akan berkorelasi.
The situation actually
involves three scores: a total score and one for each of the reading and
mathematics subscores. Correlation coefficients would be found for the total
score, reading score, and mathematics score, and these coefficients would be
the validity coefficients for the shorter test. Of course, validity is specific
to situations, groups, and condition, and, like reliability coefficients,
validity coefficients can vary considerably. In the example described above,
substantial correlations, say 70 or greater, would be considered necessary to
have adequate concurrent validity, allowing the shorter test to be submitted
for the longer test. It is possible that not all three coefficients would be
adequate. If so, the shorter test would require revision or another test could
be tried as a potential substitute.
Situasi
ini sebenarnya melibatkan tiga skor: skor total dan
satu untuk masing-masing membaca dan subscores matematika.
Koefisien korelasi akan ditemukan untuk total
skor, skor membaca, dan skor
matematika, dan ini akan koefisien koefisien
validitas untuk tes pendek. Tentu saja, validitas
adalah khusus untuk situasi, kelompok, dan kondisi, dan,
seperti koefisien reliabilitas,
koefisien validitas dapat sangat bervariasi. Dalam contoh yang dijelaskan di atas, korelasi substansial, katakanlah 70 atau lebih, akan dianggap perlu untuk memiliki validitas konkuren yang memadai, yang
memungkinkan pengujian lebih pendek
untuk diserahkan untuk tes lagi. Ada kemungkinan bahwa tidak semua tiga koefisien akan cukup. Jika demikian, tes pendek akan membutuhkan
revisi atau tes lain bisa dicoba sebagai pengganti potensial.
Concurrent validity
applies if it is desirable to substitute a shorter test for a longer one. In
that case, the score on the longer test is the criterion, and validity is that
of the shorter test.
Validitas
konkuren berlaku jika
diinginkan untuk menggantikan tes pendek untuk satu
lagi. Dalam hal ini, nilai pada tes lagi
adalah kriteria, dan validitas
adalah bahwa tes yang
lebih pendek.
Predictive Validity
Validitas prediktif
Predictive validity is
involved if we are concerned about a test score’s relationship with some
criterion measured in the future. In fact, the correlation coefficient between
the predictor scores and the criterion scores is called the predictive validity coefficient. When
test scores are used for selection purposes, such as choosing individuals for
jobs or acceptance for admission to college, predictive validity of the test is
of concern. In the former, scores on the test must be related to some measure
of job performance, which is the criterion, in order to establish predictive
validity of the test. For the latter, scores on tests such as the Scholastic
Aptitude Test (SAT) or the tests of the American College Testing success if
they are related to a measure such as the firs-term grade-point average (GPA).
The GPA is often the criterion measure when predicting college success.
Validitas
prediktif yang terlibat jika kita
prihatin tentang hubungan skor tes dengan beberapa kriteria yang diukur di
masa depan. Bahkan, koefisien
korelasi antara skor prediktor
dan kriteria skor
disebut koefisien validitas prediktif. Ketika
nilai tes yang digunakan
untuk tujuan seleksi, seperti memilih
individu untuk pekerjaan atau penerimaan untuk masuk ke perguruan tinggi, validitas prediktif dari tes ini adalah perhatian. Pada yang pertama, skor tes harus berhubungan
dengan beberapa ukuran kinerja
pekerjaan, yang merupakan kriteria, dalam rangka menetapkan
validitas prediktif tes. Untuk yang terakhir, skor tes seperti Scholastic Aptitude Test (SAT) atau tes dari
keberhasilan Pengujian American
College jika mereka terkait
dengan ukuran rata-rata seperti cemara panjang
kelas-titik (IPK). IPK sering ukuran
kriteria ketika memprediksi keberhasilan perguruan tinggi.
Since scores on the
tests of AAP are widely used as at least on criterion for college admission, it
stands to reason that the predictive validity of the tests is important and
quite good as far as success in college is concerned. We will use the AAP as an
example for predictive validity.
Karena
nilai pada tes AAP
secara luas digunakan sebagai setidaknya pada kriteria untuk masuk perguruan tinggi, ia berdiri untuk alasan bahwa validitas prediktif tes
yang penting dan cukup baik sejauh sukses di
perguruan tinggi yang bersangkutan. Kami akan menggunakan AAP
sebagai contoh untuk validitas prediktif.
There are four tests in the AAP:
AAP Engglish Usage Test
AAP Mathematics Used Test
AAP Social Studies Reading Test
AAP Natural Sciences Reading Test
Ada empat tes di AAP:
AAP Engglish Penggunaan Uji
Matematika AAP Uji Digunakan
AAP Ilmu Sosial Membaca Uji
AAP Ilmu Pengetahuan Alam Membaca Uji
AAP Engglish Penggunaan Uji
Matematika AAP Uji Digunakan
AAP Ilmu Sosial Membaca Uji
AAP Ilmu Pengetahuan Alam Membaca Uji
Scores on individual
tests are available, and a composite
score across the four tests is determinined. Other information, such as
out-fo-class acccomplishments in high school, may also be included in a student
profile, but the purposes of this example, we will concern ourselves only with
AAP scores and high-school GPA.
Skor
tes individu yang tersedia, dan skor komposit di
empat tes adalah determinined.
Informasi lainnya, seperti keluar-fo-kelas acccomplishments
di sekolah tinggi, juga dapat dimasukkan dalam profil mahasiswa, tetapi tujuan
contoh ini, kita akan menyibukkan diri hanya dengan skor AAP dan SMA
IPK.
It is generally accepted
that college admission should not be based on a single criterion, such as a
test score. Furthermore, it seems reasonable that students who do well in high
school will most likely do well in college. So, high school GPA, as well as
score on the AAP, should be a valid predictor of college success. The college
GPA is undoubtedly the most widely accepted criterion of success in college,
and for predictive validity studies of the AAP, first-tirm college GPA is
usually used as the criterion measure.
Hal
ini umumnya diterima bahwa masuk
perguruan tinggi tidak harus
didasarkan pada satu kriteria, seperti
skor tes. Selain itu, tampaknya masuk akal bahwa siswa yang baik di sekolah tinggi
kemungkinan besar akan melakukannya
dengan baik di perguruan tinggi. Jadi,
sekolah tinggi IPK,
serta skor pada AAP, harus menjadi prediktor yang valid keberhasilan perguruan tinggi. IPK perguruan tinggi tidak
diragukan lagi kriteria yang
paling banyak diterima di perguruan tinggi keberhasilan, dan untuk studi validitas prediktif AAP,
pertama-tirm kuliah
IPK biasanya digunakan sebagai ukuran kriteria.
Table 9-2 is taken from
the ACT Assessment Program Technical Manual (1988). It contains the correlation
coefficients among the four AAP tests, the composite score, high-school GPA,
and college GPA. These results are from one university and are based on the
scores of 139 students. The means and standard deviations for the variables are
also given.
Tabel 9-2
diambil dari Program ACT Penilaian Technical Manual (1988). Ini berisi
koefisien korelasi di antara empat tes AAP, skor komposit, SMA IPK, dan
perguruan tinggi IPK. Hasil ini dari satu universitas dan didasarkan pada nilai
dari 139 siswa. Sarana dan deviasi standar untuk variabel juga diberikan.
Table 9-2 Correlations and Multiple Correlations of AAP Scores and High-School
GPA with College GPA: Example Summary Statistics
|
|
||||||||
|
Variable
|
2
|
3
|
4
|
5
|
6
|
Mean
|
SD
|
|
|
1.
|
AAP Engglish
|
.46
|
.65
|
.54
|
.52
|
.56
|
20.4
|
4.71
|
|
2.
|
AAP Math
|
|
.49
|
.69
|
.47
|
.37
|
20.1
|
6.31
|
|
3.
|
AAP Soc. Stud.
|
|
|
.70
|
.44
|
.45
|
20.6
|
6.72
|
|
4.
|
AAP Nat. Sci
|
|
|
|
.37
|
.36
|
23.8
|
5.93
|
|
5.
|
H.S. GPA
|
|
|
|
|
.58
|
3.14
|
.61
|
|
6.
|
College GPA
|
|
|
|
|
|
3.00
|
.70
|
|
AAP Composite
|
|
|
|
.53
|
.51
|
21.3
|
4.93
|
|
|
Multiple Correlation: College GPA with 4 AAP Tests =
.58
|
||||||||
|
College GPA with 4 AAP Tests & H.S. GPA= .66
|
||||||||
|
Standard Error of Estimate for the 5 Variable Prediction =
.54
Number of Students =
139
|
||||||||
Source: Reproduced with permission from ACT Assessment Program Technical
Manual, Lowa City, Lowa. The American College Testing Program, 1988.
Tabel
9-2 Korelasi dan
Korelasi Beberapa dari Skor
AAP dan Sekolah Tinggi
IPK dengan College IPK: Contoh Ringkasan
Statistik
|
Korelasi dengan
Variable
|
||||||||
|
Variable
|
2
|
3
|
4
|
5
|
6
|
berarti
|
SD
|
|
|
1.
|
AAP Engglish
|
.46
|
.65
|
.54
|
.52
|
.56
|
20.4
|
4.71
|
|
2.
|
AAP Matematika
|
|
.49
|
.69
|
.47
|
.37
|
20.1
|
6.31
|
|
3.
|
AAP Soc. Stud.
|
|
|
.70
|
.44
|
.45
|
20.6
|
6.72
|
|
4.
|
AAP Nat. sci
|
|
|
|
.37
|
.36
|
23.8
|
5.93
|
|
5.
|
H.S. IPK
|
|
|
|
|
.58
|
3.14
|
.61
|
|
6.
|
kuliah IPK
|
|
|
|
|
|
3.00
|
.70
|
|
AAP Komposit
|
|
|
|
.53
|
.51
|
21.3
|
4.93
|
|
|
Beberapa Korelasi: College IPK dengan 4 Tes
AAP = 0,58
|
||||||||
|
Kuliah IPK dengan 4 Tes AAP & H.S. IPK = 0,66
|
||||||||
|
Standar Error Estimasi
untuk Prediksi 5
Variabel = 0,54
Jumlah Siswa = 139
|
||||||||
Sumber:
Direproduksi dengan izin dari ACT Program Penilaian Teknis
Manual, Lowa City,
Lowa. Pengujian American
College Program, 1988.
The predictive validity
information of most importance are the
multiple correlations near the bottom of the table. The scores on the tests and
the high-school GPA were used in combination as predictors of college GPA,
hence the use of multiple correlation. Multiple correlation is a relatively
complex statistical procedure but the concept is straightforward. Instead of
using a single score as the predictor, two or more (in this case four or five
scores) are used as a team of predictors. When the four tests were used as
predictors. When the four tests were used as predictors, the multiple
correlation was .58; when high-school GPA was added as a predictor, the
multiple correlation was .66. These are the predictive validity coefficients
and they are considered indicative of high validity.
Informasi
validitas prediktif yang paling penting adalah korelasi ganda dekat bagian
bawah meja. Nilai pada tes dan SMA IPK digunakan dalam kombinasi sebagai
prediktor dari perguruan tinggi IPK, maka penggunaan korelasi berganda. Korelasi
berganda adalah prosedur statistik yang relatif kompleks, tetapi konsep ini
mudah. Alih-alih menggunakan skor tunggal sebagai prediktor, dua atau lebih
(dalam hal ini empat atau lima nilai) digunakan sebagai prediktor tim. Ketika
empat tes digunakan sebagai prediktor. Ketika empat tes digunakan sebagai
prediktor, korelasi berganda adalah 0,58, ketika sekolah tinggi IPK ditambahkan
sebagai prediktor, maka korelasi berganda adalah 0,66. Ini adalah koefisien
validitas prediktif dan mereka dianggap menunjukkan validitas yang tinggi.
The results in Table 9-2
are a example for one university. The ACT Assessment Program Technical Manual
(1988) contains much information about predictive validity, for example, by
college major course of study. Using test scores from over 119.000 students in
510 colleges, the median multiple correlation coefficient using the four AAP
tests was .48; this increased to .55 when high-school GPA was added as a
predictor (p. 44).
Hasil
pada Tabel 9-2 adalah contoh
untuk satu universitas. ACT Program Penilaian Technical
Manual (1988) berisi banyak informasi tentang validitas prediktif, misalnya, dengan mata kuliah utama penelitian. Menggunakan nilai tes dari
lebih dari 119,000 siswa di
510 perguruan tinggi, koefisien
korelasi berganda menggunakan median
empat tes AAP adalah
0,48; ini meningkat menjadi 0,55 ketika SMA IPK ditambahkan sebagai prediktor (hal. 44).
Predictive validity can
be used in a host of situations: predicting job success, predicting perfomance
in vocational programs, predicting success in selected military occuptions, and
so on. In some situation-those for which training is very expensive, for
example-predictive validity is very inportant. High predictive validity is a
obtained by selecting predictors that are related to the criterion measure. The
stronger this relationship, the greater will be the validity coefficient.
Validitas
prediktif dapat digunakan dalam berbagai situasi: memprediksi kesuksesan kerja,
memprediksi performansi dalam program kejuruan, memprediksi keberhasilan dalam occuptions militer dipilih,
dan sebagainya. Dalam beberapa validitas situasi mereka yang pelatihan
sangat mahal, misalnya-prediktif sangat inportant. Validitas
prediktif yang tinggi adalah prediktor diperoleh
dengan memilih yang terkait dengan mengukur kriteria. Semakin kuat hubungan
ini, semakin besar akan koefisien validitas.
Tidak ada komentar:
Posting Komentar