PEUGAH YANG NA,. PEUBUET LAGEI NA,. PEUTROEK ATA NA,. BEKNA HABA PEUSUNA,. BEUNA TAINGAT WATEI NA,.

Sabtu, 15 Desember 2012

TERJEMAHAN VALIDITY


VALIDITY OF NORM-REFERENCED TESTS

The basic concept of validity is the same for norm-referenced tests as it is for criterion-referenced tests -the extent to which the test measures what it is intended to measure. without validity, there can be confidence in the inferences and conclusions made from the test results. like reliability, the validity of a test is situation specific. A test may be valid for one specified purpose or situation and not be valid for others. there are different types validity, and certainly content validity is a primary concern of tests used in classroom instruction.Content validity is based on a logical analysis. Some types of validity, criterion and construct, involve correlations between test scores and acores on other measures.

Validitas Norma-Acuan Tes

            Konsep dasar dari validitas adalah sama untuk norma-acuan tes seperti untuk kriteria-acuan tes-sejauh mana tes mengukur apa yang dimaksudkan untuk diukur. Tanpa validitas, bisa tidak ada kepercayaan pada kesimpulan dan kesimpulan yang dibuat dari hasil tes. Seperti reliabelitas, validitas tes adalah situasi tertentu. Sebuah tes dapat berlaku untuk satu tujuan tertentu atau situasi dan tidak berlaku untuk yang lain. Ada perbedaan jenis validitas, dan tentu validitas isi adalah pengujian dari validitas tes yang digunakan dalam pengajaran di kelas. Validitas isi didasarkan pada analisis logis. Beberapa jenis validitas, kriteria dan konstruks, meliputi korelasi antara skor tes dan skor pada tindakan lainnya.

validity is the extent to which a test measures what it is intended to measure

Validitas adalah sejauh mana tes mengukur apa yang dimaksudkan untuk diukur.

CONTENT VALIDITY
VALIDITAS ISI

To what extent does a test reflect the knowledge and skills intended by the instructional objectives? In order to have content validity, a test must be representative of the content of instruction, which usually includes both topics and cognitive processes, if a test has content validity, it represents the defined universe of body of content my be defined narrowly or broadly, depending on the situation.
Sejauh mana tes mencerminkan pengetahuan dan keterampilan yang dimaksudkan oleh tujuan instruksional? Dalam rangka untuk memiliki validitas isi, tes harus mewakili isi dari instruksi, yang biasanya mencakup keduanya topik dan proses kognitif. Pokoknya, jika tes memiliki validitas isi, itu menggambarkan definisi keseluruhan isi tentang penilaian yang dilakukan. Dari isi mungkin didefinisikan secara sempit atau luas, tergantung pada situasi.

content validity is concerned with the extent to which the test is representative of a defined body of content consisting of topics and processes.
validitas isi berkaitan dengan sejauh mana tes dapat mewakili dari  keseluruhan definisi dari isi terdiri dari topik dan proses.
content validity is established through a logical analysis, which is basically an analysis of correspondence between the test items and the content being convered. content analysis does not yield an index of validity. for that reason,  some writers prefer not to use the term validity but rather something like content representativeness. For example, Messick (1975) wrote:
Validitas isi didirikan melalui analisis logis, yang pada dasarnya analisis dari korespondensi antara item tes dan isi yang convered. Analisis isi tidak menghasilkan indeks validitas. Karena alasan itu, beberapa penulis memilih untuk tidak menggunakan istilah validity melainkan sesuatu seperti content representativeness. Sebagai contoh, Messick (1975) menulis:
Content coverage is an important consideration in test construction and interpretation, to be sure, but in itself it does not provide validity. Call in "content relevance" if you will, or "content representativeness" but don't call it "content validity" because it doesn't provide evidence for the interpretation of responses or scores ( p. 961)
Cakupan isi adalah suatu pertimbangan penting dalam konstruksi tes dan interpretasi, untuk memastikan, tetapi dalam dirinya sendiri tidak memberikan validitas. Dinamakan "relevansi isi" jika kamu akan, atau "keterwakilan isi" tapi jangan menyebutnya "validitas isi" karena tidak memberikan bukti untuk interpretasi dari tanggapan atau skor (hal. 961)
The conceptual difficulty that writers may have with content validity is that it is based on the form of the test rather than the scores obtained from a test administration. Traditionally, concepts of reliability and validity are based on scores obtained and their intrarelationships  or relationship with other scores. Content validity does not involve such emprirical relationships. Yet we agree with Yalow and Propham (1983) that content validity is important and that quantifiable, judgmental evidence must be available abouth the content representativeness of a test. Representativeness of content is important. In our discussion, we continue to use the term content validity.
Kesulitan konseptual bahwa penulis dengan validitas isi adalah bahwa hal itu didasarkan pada bentuk tes lebih baik daripada skor yang diperoleh dari administrasi tes. Secara tradisional, konsep atau reliabilitas dan validitas yang didasarkan pada skor yang diperoleh dan intrarelationships mereka atau hubungan dengan skor lainnya. Validitas isi tidak melibatkan hubungan yang empiric. Namun, kita setuju dengan Yalow dan Propham (1983) bahwa validitas isi yang penting dan quantifiable, keputusan bukti harus dihitung menghakimi tentang tersedia keterwakilan isi tes. Keterwakilan dari isi adalah penting. Dalam diskusi kami, kami terus menggunakan istilah validitas isi.
Content validity is based on logical analysis. It does not generate a validity coefficient, as is obtained with some other types of validity.
Validitas isi didasarkan pada analisis logis. Ini tidak menghasilkan suatu koefisien validitas, seperti yang diperoleh dengan beberapa jenis validitas.
Content Validity of Teacher - Constructed Tests
Validitas Isi dari Guru Gagasan Tes
Content validity of a teacher-constructed test essentially depends on the sampling of items. If the test items adequately represent the domain of possible items, the test has adequate content validity. When a test is not content valid, there are two consequences. First, the students cannot demonstrate skill that they possessif they are not tested. Second, irrelevant items are presented that students will likely answer incorrectly only because the content was not taught. Both of these consequences tend to lower the test score; as a result, the test score is not an adequate measure of students performance relative to the content covered by instruction.
Validitas isi dari guru- gagasan tes dibangun pada dasarnya tergantung pada sampling item. Jika item tes cukup mewakili domain dari kemungkinan item, uji validitas isi telah memadai. Ketika tes bukanlah isi yang benar, ada dua konsekuensi. Pertama, siswa tidak dapat menunjukkan keterampilan yang mereka miliki jika mereka tidak diuji. Kedua, item yang tidak relevan yang disajikan siswa kemungkinan akan menjawab salah hanya karena isi tidak diajarkan. Kedua konsekuensi ini cenderung menurunkan skor tes; sebagai akibatnya, skor tes bukan merupakan ukuran yang memadai dari kinerja siswa relatif terhadap isi yang dicakup oleh instruksi.

Most teachers are quite familiar with the the content they cover during instruction, and, to a large extent, teacher-constructed tests have an inherent content validity. However, in planning a test, teachers can use a straightforward procedure that tends to improve content validity. This procedure is illustrated below.
Kebanyakan guru cukup akrab dengan konten yang mereka keluarkan selama instruksi, dan, untuk sebagian besar, guru-dibangun tes memiliki validitas isi yang melekat. Namun, dalam perencanaan tes, guru dapat menggunakan prosedur sederhana yang cenderung untuk meningkatkan validitas konten. Prosedur ini digambarkan di bawah ini.
An Example
contoh
Suppose a test is to be constructed to cover five objectives dealing with the multiplication of decimals, typically taught at seventh-grade level. These objectives are taken from Eicholz and colleagues (1985):
Misalkan tes adalah yang akan dibangun untuk menutupi lima tujuan berurusan dengan perbanyakan desimal, biasanya diajarkan di kelas tujuh tingkat. Tujuan ini diambil dari Eicholz dan rekan (1985):
            Objectives: (The student will)
Tujuan: (Mahasiswa akan)

            4.1 Use estimation to find decimal products.
            4.2 Find products when the factors are decimal.
            4.3 Estimate products when the factors are decimals.
            4.4 Use scientific notation to express whole numbers.
4.5 Solve word problems using the 5-point Checklist and cumulative  computational skill.
4.1 estimasi Gunakan untuk menemukan produk desimal.
4.2 Cari produk ketika faktor-faktor yang desimal.
4.3 Perkirakan produk ketika faktor desimal.
4.4 Gunakan notasi ilmiah untuk mengekspresikan bilangan bulat.
4.5 Memecahkan masalah kata dengan menggunakan Checklist 5-point dan keterampilan komputasi kumulatif.
            For the most part, these objectives imply knowledge, comprehension, application, and analysis-level learning outcomes, with a heavy emphasis on application. Suppose  It is decided to construct a 30 items test. A table of specifications similar to the one described in Gronlund (1985, p.122) can be developed. The table is a two–demensional grid containing numbers of items in the cells. One dimension contains the content to be cevered by the test, the other contains the intended learning outcome.

Untuk sebagian besar, tujuan-tujuan ini menyiratkan pengetahuan, pemahaman, aplikasi, dan analisis-tingkat hasil belajar, dengan penekanan berat pada aplikasi. Misalkan Hal ini memutuskan untuk membangun tes 30 item. Sebuah tabel spesifikasi yang mirip dengan yang dijelaskan dalam Gronlund (1985, p.122) dapat dikembangkan. Meja adalah grid dua-demensional berisi jumlah item dalam sel. Satu dimensi berisi konten yang akan cevered oleh tes, yang lain berisi hasil belajar yang diinginkan.

TABLE 9-1 A Table of Specifications for a 30-Item Arithmetic Test
Learning Outcome
Content
Knowledge
Comprehension
Application
Analysis
Total
Percentage
Estimation
2
2
2
0
6
20 %
Find products
0
0
6
0
6
20 %
Estimate products
0
1
5
0
6
20 %
Scientific notation
3
3
0
0
6
20 %
Word problems
0
1
3
2
6
20 %
Total
Percentage
5
17 %
7
23 %
16
53 %
2
7 %
30

100 %

TABEL 9-1 Sebuah Tabel Spesifikasi untuk Test Aritmatika 30-Barang
Hasil belajar
konten

pengetahuan
Pemahaman
Aplikasi
Analisis
Total
Persentase
Perkiraan
2
2
2
0
6
20 %
Cari produk
0
0
6
0
6
20 %
Perkiraan produk
0
1
5
0
6
20 %
Notasi ilmiah
3
3
0
0
6
20 %
Permasalahan Kata
0
1
3
2
6
20 %
Total
Persentase
5
17 %
7
23 %
16
53 %
2
7 %
30

100 %

            The table of specification for this example is given in Table 9-1. The content dimension could have contained the instructional objectives since the content was taken directly from those objectives.  Each of the five entries for content (or objectives) has allotted six, or 20 percent, of the items. This is simply an illustration and it is not necessary that the numbers of items per content topic be equal. The numbers of items should reflect the importance given to the objective or topic. Usually the importance of the objective or topic determines the insructional emphasis. There may be occasional exceptions to this because some topics simply take more (or less) time to teach, but generally of one topic or instructional objective received 50 percent of the instruction, it should have about one-half of the test time.
Tabel spesifikasi untuk contoh ini diberikan pada Tabel 9-1. Dimensi konten bisa terkandung tujuan instruksional karena konten tersebut diambil langsung dari tujuan tersebut. Masing-masing dari lima entri untuk konten (atau tujuan) telah diberikan enam, atau 20 persen, dari item. Ini hanya ilustrasi dan tidak perlu bahwa jumlah item per topik konten sama. Jumlah item harus mencerminkan pentingnya diberikan dengan tujuan atau topik. Biasanya pentingnya tujuan atau topik menentukan penekanan insructional. Mungkin ada pengecualian sesekali untuk ini karena beberapa topik hanya mengambil waktu lebih (atau kurang) untuk mengajar, tetapi pada umumnya dari satu topik atau tujuan instruksional menerima 50 persen dari instruksi, harus memiliki sekitar satu-setengah dari waktu tes.
            Note that the learning outcomes were allotted different numbers of items. Again, these numbers should reflect the instructional emphases. Because of the nature of arithmetic instruction, application often receives a heavy emphasis.
Perhatikan bahwa hasil pembelajaran yang diberikan nomor yang berbeda dari item. Sekali lagi, angka-angka ini harus mencerminkan penekanan instruksional. Karena sifat instruksi aritmatika, aplikasi sering menerima penekanan yang berat.

            The extent to which is divided into topics is an arbitrary decision made by the teacher. Whatever specificity is most helpful should be used. Tests that cover long instructional periods (e.g., a final exam over a semester’s instruction) would use more general topics. If the content becomes too specific, the table may become long and cumbersome. In any event, the table should provide a rather precise description of how items are distributed across content. A spinoff benefit is that the use of a table of specifications is an effective aid in planning a test.
Sejauh yang terbagi menjadi topik adalah keputusan sewenang-wenang yang dibuat oleh guru. Apapun spesifisitas paling membantu harus digunakan. Tes yang mencakup periode instruksional panjang (misalnya, ujian akhir selama satu semester itu instruksi) akan menggunakan topik yang lebih umum. Jika konten menjadi terlalu spesifik, meja dapat menjadi panjang dan rumit. Dalam hal apapun, tabel harus memberikan penjelasan agak tepat tentang bagaimana item yang didistribusikan di seluruh konten. Satu manfaat spin-off adalah bahwa penggunaan tabel spesifikasi adalah bantuan yang efektif dalam perencanaan tes.
            The learning outcome dimension should be helpful in ensuring that the items are consistent with the intended outcomes of the objectives. If the objectives imply application and analysis-level outcomes and the items are all knowledge level, the test will lack content validity. Usually, it is easier to construct items for lower-level outcomes. Teachers should therefore be careful to review the intended outcomes to ensure that they are properly represented.
Dimensi hasil belajar harus membantu dalam memastikan bahwa barang yang konsisten dengan hasil yang diharapkan dari tujuan. Jika tujuan menyiratkan aplikasi dan analisis-tingkat hasil dan item semua tingkat pengetahuan, tes akan kekurangan validitas konten. Biasanya, lebih mudah untuk membangun item untuk tingkat yang lebih rendah hasil. Oleh karena itu guru harus berhati-hati untuk meninjau hasil dimaksudkan untuk memastikan bahwa mereka benar terwakili.
Content Validity of Published Tests
Isi Validitas Tes Diterbitkan
Teachers may, at least on occasion, use published tests, some of which accompany curriculum materials. The testsconstructed for a specified textbook or set of materials usually have high content validity if the materials are used as intended for instruction. Sometimes materials are used as supplementary and are only partially covered, in which case any accompanying tests would at least need to be reviewed for content validity.
Guru mungkin, setidaknya pada kesempatan, menggunakan tes yang diterbitkan, beberapa yang menyertai materi kurikulum. Para testsconstructed untuk buku tertentu atau seperangkat bahan biasanya memiliki validitas isi tinggi jika bahan yang digunakan sebagai ditujukan untuk instruksi. Kadang-kadang bahan yang digunakan sebagai pelengkap dan hanya sebagian tertutup, dalam hal ini tes apa pun yang menyertai setidaknya perlu ditinjau untuk validitas konten.

            Many school systems use standardized achievement tests prepared by commercial publishers; for the most part, these are norm-referenced tests. The content of such tests is fixed and is designed to have broad coverage. Therefore, although such tests are usually very well constructed technically, they may lack adequate content validity when used in a specific situation. When curriculum committees or test selection committees in a school system are attempting to select a standardized achievement test, they are usually grappling with the problem of content validity.
Banyak sistem sekolah menggunakan tes prestasi standar yang disiapkan oleh penerbit komersial; untuk sebagian besar, ini adalah tes mengacu-norma. Isi dari tes tersebut adalah tetap dan dirancang untuk memiliki cakupan yang luas. Oleh karena itu, meskipun tes ini biasanya sangat baik dibangun teknis, mereka mungkin kurang memadai validitas isi bila digunakan dalam situasi tertentu. Ketika kurikulum komite atau panitia seleksi dalam sistem sekolah mencoba untuk memilih tes prestasi standar, mereka biasanya bergulat dengan masalah validitas konten.
Standardized achievement tests  tend to have broad content coverage so they will have wide application. However, when used in a spesific situation, the content validity of a prospective test should always be considered.
Tes prestasi standar cenderung untuk memiliki cakupan yang luas konten sehingga mereka akan memiliki aplikasi yang luas. Namun, bila digunakan dalam situasi spesifik, validitas isi tes calon harus selalu dipertimbangkan.

            The manuals for published tests provide considerable information about their intended uses. Nevertheless, contentvalidation is time consuming because individual items must be considered in order to do a complete job. Also, since teachers provide the instruction, it should be the teachers who establish the content validity.
Manual untuk tes diterbitkan memberikan informasi yang cukup tentang menggunakan mereka dimaksudkan. Namun demikian, contentvalidation memakan waktu karena setiap item harus dipertimbangkan dalam rangka untuk melakukan pekerjaan lengkap. Juga, karena guru memberikan instruksi, harus menjadi guru yang menetapkan validitas konten.

A process of content validation, as described by Heuer and Wiersma (1977), involved a standardized test used at an elementary school. The process is given the descriptive title “Content Validation, Multiple Group Design”, it is diagrammed in general form in Figure 9-1. This is a process design, theprocess beginning with the teachers rating the items and predicting student success. The instruction takes place for whatever time is necessary after which the students are tested using the test. The design can accommodate varying numbers of groups, indicated by 1 through k. Groups can be structured by grade level, age, or subject area.
Suatu proses validasi konten, seperti yang dijelaskan oleh Heuer dan Wiersma (1977), melibatkan tes standar yang digunakan di sebuah sekolah dasar. Proses ini diberi judul "Validasi Konten, Design Group Beberapa" deskriptif, hal ini digambarkan dalam bentuk umum dalam Gambar 9-1. Ini adalah desain proses, theprocess dimulai dengan guru rating item dan memprediksi keberhasilan siswa. Instruksi berlangsung untuk apa pun waktu yang diperlukan setelah itu siswa diuji dengan menggunakan tes. Desain dapat mengakomodasi berbagai jumlah kelompok, ditunjukkan oleh 1 sampai k. Kelompok dapat terstruktur dengan tingkat kelas, usia, atau subjek daerah.
An Example
contoh
FIGURE 9-1 Content Validation, Multiple-Group Design
GAMBAR 9-1 Konten Validasi, Multiple-Design Group
 Teacher               Teacher
 Rating                  Prediction
 Group 1               Group 1                                                                                                                Student
                                                                                    Group 1            Instruction        Perfomence
                                                          Pupil                                                           
                                                          Population

Teacher                                Teacher                                                    Group k             Instruction            Student
Rating               Prediction                                                                                              Perfomence
 Group k               Group k















 


Teacher  Prediction : predeksi guru
Teacher Rating           : penilaian guru
Pupil population        : Populasi murid
Instruction                             : Pengajaran
Student Perfomence : Perfomen mahasiswa
            The design was used in the Port Edwards, Wisconsin, elementary school (Heuer and Wiersma, 1977). The school had implemented Individually Guided Education (IGE), but since most standardized tests are keyed by grade level, age groups werwe used, ranging from age 7 (second grade) to age 13 (eighth grade). The items of a standardized test were rated by the taechers for the appropriate grades on a three-category system as follows:
Desain yang digunakan dalam Edwards Port, Wisconsin, SD sekolah (Heuer dan Wiersma, 1977). Sekolah telah menerapkan Pendidikan Individual Terpimpin (IgE), tapi karena tes standar kebanyakan mengetik oleh tingkat kelas, kelompok usia werwe digunakan, mulai dari usia 7 (kelas dua) dengan usia 13 (kelas delapan). Item dari tes standar dinilai oleh taechers untuk nilai yang sesuai pada sistem tiga-kategori sebagai berikut:
            A= a valid item (The concept has been taught at that or a previous level).
            B= a reasonably valid item (It is a concept frequently taught).
            C= an invalid item (This concept has not been taught at this or a previous level).
A = item yang valid (konsep ini telah diajarkan pada saat itu atau tingkat sebelumnya).
B = item yang valid cukup (Ini adalah konsep yang sering diajarkan).
C = item yang tidak valid (Konsep ini belum diajarkan di tingkat ini atau sebelumnya).
The teachers not only ratedthe items but also generated a measure of predicted student success for each item-the estimated percentage of students that would provide a correct response. The student performance after instruction could then be compared to the predicted success.
Para guru tidak hanya item ratedthe tetapi juga menghasilkan ukuran keberhasilan siswa diperkirakan persentase untuk setiap barang-memperkirakan siswa yang akan memberikan respon yang benar. Kinerja mahasiswa setelah instruksi kemudian dapat dibandingkan dengan kesuksesan diprediksi.
            The content validity of the test is estimated by the percentages of items rated A, B, and C; the greater the percentages of A and B ratings, the greater the content validity. The correspondence between teacher prediction of student success and student performance undoubtedly reflects a number of factors. However, a high correspondence indicates that the teachers understand how the content of the item applies in the specific situation.
Validitas isi tes ini diperkirakan oleh persentase item dinilai A, B, dan C; semakin besar persentase peringkat A dan B, semakin besar validitas konten. Korespondensi antara prediksi keberhasilan siswa guru dan kinerja siswa diragukan lagi mencerminkan sejumlah faktor. Namun, korespondensi tinggi menunjukkan bahwa guru memahami bagaimana isi dari item berlaku dalam situasi tertentu.
            All of the results of the Port Edwards Elementary School test validation will not be given here. However, of 2,852 items reviewed, approximately one-half (49 percent) werwe considered to be valid (A rating). About one-third werw identified as being reasonably valid. Results were also broken down by grades and, in some cases, by subject areas. To be sure, the content validation, multiple-group design is based on a some-what subjective assessment by the teachers.  Also, this process focuses on the relevance of the best content. It does not deal directly with the possibility that the test may not cover all of the content taught. That would require a review of the test by the teachers to determine whether or not content taught is covered. Usually, published tests are quite comprehensive, and little if any content would be omitted. Overall, the content validation, multiple-group design involves a process that reflects consesus by those most familiar wiht any the specific, intended outcomes of the instruction. As with any approach to content validation, it is primarily a process involving expert judgment.
Semua hasil dari validasi tes Edwards Sekolah Dasar Pelabuhan tidak akan diberikan di sini. Namun, dari 2.852 item terakhir, sekitar satu-setengah (49 persen) werwe dianggap sah (Peringkat A). Sekitar sepertiga werw diidentifikasi sebagai cukup valid. Hasil itu juga dipecah oleh nilai dan, dalam beberapa kasus, dengan bidang studi. Yang pasti, validasi konten, beberapa kelompok desain didasarkan pada penilaian beberapa-apa subjektif oleh para guru. Juga, proses ini berfokus pada relevansi konten terbaik. Ini tidak berhubungan langsung dengan kemungkinan bahwa tes tidak dapat menutupi semua isi diajarkan. Itu akan memerlukan peninjauan tes oleh guru untuk menentukan apakah atau tidak diajarkan konten ditutupi. Biasanya, tes diterbitkan cukup komprehensif, dan sedikit jika konten apapun akan dihilangkan. Secara keseluruhan, validasi konten, beberapa kelompok desain melibatkan sebuah proses yang mencerminkan consesus oleh mereka yang paling akrab dengan spesifik, hasil yang diharapkan dari instruksi. Seperti halnya pendekatan untuk validasi konten, ini terutama proses yang melibatkan penilaian ahli.
            Content validation of a standardized test is a time-consuming process because it requires the assessment of a test-item fit to a curriculum. As such, the items must be reviewed in detail and many standardized achievement test include 300 or more items covering the traditional academic and skills areas. Variations on content-validation designs can be applied. For example, Crocker, Llabre, and Miller (1988) discuss four designs within the framework of generalizability theory. These are relatively complex designs, but again they involve ratings and expert judgment.
Konten validasi dari tes standar adalah proses yang memakan waktu karena memerlukan penilaian cocok tes-item untuk kurikulum. Dengan demikian, item harus ditinjau secara rinci dan tes prestasi standar mencakup banyak 300 atau lebih item meliputi bidang akademik dan keterampilan tradisional. Variasi pada konten-validasi desain dapat diterapkan. Sebagai contoh, Crocker, Llabre, dan Miller (1988) membahas empat desain dalam kerangka teori generalisasi. Ini adalah desain relatif kompleks, tapi sekali lagi mereka melibatkan penilaian dan penilaian ahli.

CRITERION VALIDITY
KRITERIA validitas
           
            Criterion Validity of a test involves the relationship or correlation between the test scores and scores on some measure representing an identified criterion. For instance, the criterion measure may be another test. The correlation coefficient can be computed between the scores on the test being validated and the scores on the criterion. A correlation coefficient so used is called a validity coefficient. In contrast to content validity which is based on “logical” correspondence between the test and the content to be covered, criterion validity has a statistical indicator through the correlation coefficient.
Kriteria Validitas tes melibatkan hubungan atau korelasi antara nilai tes dan nilai pada beberapa ukuran mewakili kriteria diidentifikasi. Misalnya, ukuran kriteria mungkin tes lain. Koefisien korelasi dapat dihitung antara skor pada tes yang divalidasi dan nilai pada kriteria. Sebuah koefisien korelasi sehingga digunakan disebut koefisien validitas. Berbeda dengan validitas isi yang didasarkan pada korespondensi "logis" antara tes dan konten yang akan dibahas, validitas kriteria memiliki indikator statistik melalui koefisien korelasi.

Criterion validity is based on the correlation between scores on the test and scores on a criterion. The correlation coefficient is the criterion validity coefficient.
Kriteria validitas didasarkan pada korelasi antara nilai pada tes dan skor pada kriteria. Koefisien korelasi adalah koefisien validitas kriteria.
            There are two slightly different types of criterion validity: concurrent validity and predective validity. Concurrent validity applies if data on the two measure-test and criterion-are collected at or about same time. Predictive validity applies if there is an intervening period (e.g., three or six months) between the time of testing and the collection of data on the criterion. Operationally, this time of criterion data collection is the distinction between the two types of criterion validity. Specifically, the question of concurrent validity is whether or not the test scores estimate a specified present performance; that of predictive validity is wether or not the test scores predict a specified future performance.
Ada dua jenis sedikit berbeda validitas kriteria: validitas konkuren, dan validitas predective. Validitas konkuren berlaku jika data pada dua pengukuran tes dan kriteria-dikumpulkan pada atau sekitar waktu yang sama. Validitas prediktif berlaku jika ada periode intervensi (misalnya, tiga atau enam bulan) antara waktu pengujian dan pengumpulan data pada kriteria. Secara operasional, kali ini kriteria pengumpulan data adalah perbedaan antara dua jenis validitas kriteria. Secara khusus, pertanyaan validitas konkuren adalah apakah atau tidak nilai tes memperkirakan kinerja hadir tertentu; bahwa validitas prediktif adalah cuaca atau tidak nilai tes memprediksi kinerja masa depan yang ditentukan.

            Concurrent validity is involved if the scores on the criterion are obtained at the same time as the test scores. Predictive validity is involved if the scores on the criterion are obtained after an intervening period from those of the test.
Validitas konkuren yang terlibat jika skor pada kriteria ini diperoleh pada waktu yang sama dengan skor tes. Validitas prediktif yang terlibat jika skor pada kriteria ini diperoleh setelah periode intervensi dari orang-orang dari tes.
Concurrent Validity
Validitas konkuren

In educational measurement, concurrent validity finds its most frequent application in the substitution of one measure for another, such as a more convenient measure for one that is somewhat inconvenient to administer, or a shorter test substituted for a longer one. For the latter situation, the shorter test would be the test whose validity is under consideration.
Dalam pengukuran pendidikan, validitas konkuren menemukan aplikasi yang paling sering di substitusi satu ukuran untuk yang lain, seperti ukuran yang lebih nyaman untuk satu yang agak nyaman untuk mengelola, atau tes pendek diganti untuk satu lagi. Untuk situasi yang terakhir, tes pendek akan menjadi tes yang validitas sedang dipertimbangkan.
            The process of establishing concurrent validity is one of administering the two measure-the criterion measure and the measure being validated-at about the same time. Consider an example. Suppose that a school system establishes a minimum-competency testing program that includes minimum performance in reading and mathematics for promotion to ninth grade. A comprehensive examination has been developed, with subtests in reading and mathematics. The examination is judged to have good content validity; however, its primary disadvantage is that it requires six hours testing time. So a shorter test, requiring only one hour for administration, is developed, covering both reading and mathematics.
Proses pembentukan validitas konkuren adalah salah satu dari pemberian dua ukuran-ukuran kriteria dan ukuran sedang divalidasi-pada waktu yang sama. Pertimbangkan contoh. Misalkan bahwa sistem sekolah menetapkan program minimum kompetensi yang mencakup pengujian kinerja minimum dalam membaca dan matematika untuk promosi untuk kelas sembilan. Pemeriksaan komprehensif telah dikembangkan, dengan subyek dalam membaca dan matematika. Pemeriksaan dinilai memiliki validitas konten yang baik, namun, kelemahan utamanya adalah bahwa hal itu membutuhkan enam jam waktu pengujian. Jadi tes yang lebih pendek, hanya membutuhkan satu jam untuk administrasi, dikembangkan, yang meliputi membaca dan matematika.
            The validity issue here concerns the shorter test. Does the test have eduquate concurrent validity, making it a suitable substitution for the longer examination? The original examination and the shorter test would both be administered to a sample of eighth-grade students near the close of the school year. A sample of 50 students would be adequate; preferably, this would be a random sample. The students would take both tests with a shotr intervening time perod (e.g., a week or so). Then the scores on the two tests would be correlated.
Isu validitas sini menyangkut tes pendek. Apakah tes memiliki validitas konkuren eduquate, membuatnya menjadi substitusi cocok untuk pemeriksaan lebih lama? Pemeriksaan asli dan tes pendek berdua akan diberikan pada sampel siswa kelas delapan di dekat tutup tahun sekolah. Sebuah sampel dari 50 siswa akan memadai; disukai, ini akan menjadi sampel acak. Para siswa akan mengambil kedua tes dengan waktu perod shotr intervensi (misalnya, seminggu atau lebih). Kemudian skor pada dua tes akan berkorelasi.
            The situation actually involves three scores: a total score and one for each of the reading and mathematics subscores. Correlation coefficients would be found for the total score, reading score, and mathematics score, and these coefficients would be the validity coefficients for the shorter test. Of course, validity is specific to situations, groups, and condition, and, like reliability coefficients, validity coefficients can vary considerably. In the example described above, substantial correlations, say 70 or greater, would be considered necessary to have adequate concurrent validity, allowing the shorter test to be submitted for the longer test. It is possible that not all three coefficients would be adequate. If so, the shorter test would require revision or another test could be tried as a potential substitute.
Situasi ini sebenarnya melibatkan tiga skor: skor total dan satu untuk masing-masing membaca dan subscores matematika. Koefisien korelasi akan ditemukan untuk total skor, skor membaca, dan skor matematika, dan ini akan koefisien koefisien validitas untuk tes pendek. Tentu saja, validitas adalah khusus untuk situasi, kelompok, dan kondisi, dan, seperti koefisien reliabilitas, koefisien validitas dapat sangat bervariasi. Dalam contoh yang dijelaskan di atas, korelasi substansial, katakanlah 70 atau lebih, akan dianggap perlu untuk memiliki validitas konkuren yang memadai, yang memungkinkan pengujian lebih pendek untuk diserahkan untuk tes lagi. Ada kemungkinan bahwa tidak semua tiga koefisien akan cukup. Jika demikian, tes pendek akan membutuhkan revisi atau tes lain bisa dicoba sebagai pengganti potensial.
            Concurrent validity applies if it is desirable to substitute a shorter test for a longer one. In that case, the score on the longer test is the criterion, and validity is that of the shorter test.
Validitas konkuren berlaku jika diinginkan untuk menggantikan tes pendek untuk satu lagi. Dalam hal ini, nilai pada tes lagi adalah kriteria, dan validitas adalah bahwa tes yang lebih pendek.
Predictive Validity
Validitas prediktif
            Predictive validity is involved if we are concerned about a test score’s relationship with some criterion measured in the future. In fact, the correlation coefficient between the predictor scores and the criterion scores is called the predictive validity coefficient. When test scores are used for selection purposes, such as choosing individuals for jobs or acceptance for admission to college, predictive validity of the test is of concern. In the former, scores on the test must be related to some measure of job performance, which is the criterion, in order to establish predictive validity of the test. For the latter, scores on tests such as the Scholastic Aptitude Test (SAT) or the tests of the American College Testing success if they are related to a measure such as the firs-term grade-point average (GPA). The GPA is often the criterion measure when predicting college success.
Validitas prediktif yang terlibat jika kita prihatin tentang hubungan skor tes dengan beberapa kriteria yang diukur di masa depan. Bahkan, koefisien korelasi antara skor prediktor dan kriteria skor disebut koefisien validitas prediktif. Ketika nilai tes yang digunakan untuk tujuan seleksi, seperti memilih individu untuk pekerjaan atau penerimaan untuk masuk ke perguruan tinggi, validitas prediktif dari tes ini adalah perhatian. Pada yang pertama, skor tes harus berhubungan dengan beberapa ukuran kinerja pekerjaan, yang merupakan kriteria, dalam rangka menetapkan validitas prediktif tes. Untuk yang terakhir, skor tes seperti Scholastic Aptitude Test (SAT) atau tes dari keberhasilan Pengujian American College jika mereka terkait dengan ukuran rata-rata seperti cemara panjang kelas-titik (IPK). IPK sering ukuran kriteria ketika memprediksi keberhasilan perguruan tinggi.
            Since scores on the tests of AAP are widely used as at least on criterion for college admission, it stands to reason that the predictive validity of the tests is important and quite good as far as success in college is concerned. We will use the AAP as an example for predictive validity.
Karena nilai pada tes AAP secara luas digunakan sebagai setidaknya pada kriteria untuk masuk perguruan tinggi, ia berdiri untuk alasan bahwa validitas prediktif tes yang penting dan cukup baik sejauh sukses di perguruan tinggi yang bersangkutan. Kami akan menggunakan AAP sebagai contoh untuk validitas prediktif.
There are four tests in the AAP:
AAP Engglish Usage Test
AAP Mathematics Used Test
AAP Social Studies Reading Test
AAP Natural Sciences Reading Test
Ada empat tes di AAP:
AAP Engglish Penggunaan Uji
Matematika AAP Uji Digunakan
AAP Ilmu Sosial Membaca Uji
AAP Ilmu Pengetahuan Alam Membaca Uji
            Scores on individual tests are available, and  a composite score across the four tests is determinined. Other information, such as out-fo-class acccomplishments in high school, may also be included in a student profile, but the purposes of this example, we will concern ourselves only with AAP scores and high-school GPA.
Skor tes individu yang tersedia, dan skor komposit di empat tes adalah determinined. Informasi lainnya, seperti keluar-fo-kelas acccomplishments di sekolah tinggi, juga dapat dimasukkan dalam profil mahasiswa, tetapi tujuan contoh ini, kita akan menyibukkan diri hanya dengan skor AAP dan SMA IPK.
            It is generally accepted that college admission should not be based on a single criterion, such as a test score. Furthermore, it seems reasonable that students who do well in high school will most likely do well in college. So, high school GPA, as well as score on the AAP, should be a valid predictor of college success. The college GPA is undoubtedly the most widely accepted criterion of success in college, and for predictive validity studies of the AAP, first-tirm college GPA is usually used as the criterion measure.
Hal ini umumnya diterima bahwa masuk perguruan tinggi tidak harus didasarkan pada satu kriteria, seperti skor tes. Selain itu, tampaknya masuk akal bahwa siswa yang baik di sekolah tinggi kemungkinan besar akan melakukannya dengan baik di perguruan tinggi. Jadi, sekolah tinggi IPK, serta skor pada AAP, harus menjadi prediktor yang valid keberhasilan perguruan tinggi. IPK perguruan tinggi tidak diragukan lagi kriteria yang paling banyak diterima di perguruan tinggi keberhasilan, dan untuk studi validitas prediktif AAP, pertama-tirm kuliah IPK biasanya digunakan sebagai ukuran kriteria.
            Table 9-2 is taken from the ACT Assessment Program Technical Manual (1988). It contains the correlation coefficients among the four AAP tests, the composite score, high-school GPA, and college GPA. These results are from one university and are based on the scores of 139 students. The means and standard deviations for the variables are also given.
Tabel 9-2 diambil dari Program ACT Penilaian Technical Manual (1988). Ini berisi koefisien korelasi di antara empat tes AAP, skor komposit, SMA IPK, dan perguruan tinggi IPK. Hasil ini dari satu universitas dan didasarkan pada nilai dari 139 siswa. Sarana dan deviasi standar untuk variabel juga diberikan.

Table 9-2 Correlations and Multiple Correlations of AAP Scores and High-School GPA with College GPA: Example Summary Statistics
Correlation with Variable
Variable
2
3
4
5
6
Mean
SD
1.
AAP Engglish
.46
.65
.54
.52
.56
20.4
4.71
2.
AAP Math

.49
.69
.47
.37
20.1
6.31
3.
AAP Soc. Stud.


.70
.44
.45
20.6
6.72
4.
AAP Nat. Sci



.37
.36
23.8
5.93
5.
H.S. GPA




.58
3.14
.61
6.
College GPA





3.00
.70
AAP Composite



.53
.51
21.3
4.93
Multiple Correlation: College GPA with 4 AAP Tests = .58                     
   College GPA with 4 AAP Tests & H.S. GPA= .66                     
Standard Error of Estimate for the 5 Variable Prediction = .54
Number of Students  = 139
Source: Reproduced with permission from ACT Assessment Program Technical Manual, Lowa City, Lowa. The American College Testing Program, 1988.

Tabel 9-2 Korelasi dan Korelasi Beberapa dari Skor AAP dan Sekolah Tinggi IPK dengan College IPK: Contoh Ringkasan Statistik
Korelasi dengan Variable
Variable
2
3
4
5
6
berarti

SD
1.
AAP Engglish
.46
.65
.54
.52
.56
20.4
4.71
2.
AAP Matematika

.49
.69
.47
.37
20.1
6.31
3.
AAP Soc. Stud.


.70
.44
.45
20.6
6.72
4.
AAP Nat. sci



.37
.36
23.8
5.93
5.
H.S. IPK




.58
3.14
.61
6.
kuliah IPK





3.00
.70
AAP Komposit



.53
.51
21.3
4.93
Beberapa Korelasi: College IPK dengan 4 Tes AAP = 0,58
Kuliah IPK dengan 4 Tes AAP & H.S. IPK = 0,66
Standar Error Estimasi untuk Prediksi 5 Variabel = 0,54
Jumlah Siswa = 139
Sumber: Direproduksi dengan izin dari ACT Program Penilaian Teknis Manual, Lowa City, Lowa. Pengujian American College Program, 1988.
            The predictive validity information of most  importance are the multiple correlations near the bottom of the table. The scores on the tests and the high-school GPA were used in combination as predictors of college GPA, hence the use of multiple correlation. Multiple correlation is a relatively complex statistical procedure but the concept is straightforward. Instead of using a single score as the predictor, two or more (in this case four or five scores) are used as a team of predictors. When the four tests were used as predictors. When the four tests were used as predictors, the multiple correlation was .58; when high-school GPA was added as a predictor, the multiple correlation was .66. These are the predictive validity coefficients and they are considered indicative of high validity.
Informasi validitas prediktif yang paling penting adalah korelasi ganda dekat bagian bawah meja. Nilai pada tes dan SMA IPK digunakan dalam kombinasi sebagai prediktor dari perguruan tinggi IPK, maka penggunaan korelasi berganda. Korelasi berganda adalah prosedur statistik yang relatif kompleks, tetapi konsep ini mudah. Alih-alih menggunakan skor tunggal sebagai prediktor, dua atau lebih (dalam hal ini empat atau lima nilai) digunakan sebagai prediktor tim. Ketika empat tes digunakan sebagai prediktor. Ketika empat tes digunakan sebagai prediktor, korelasi berganda adalah 0,58, ketika sekolah tinggi IPK ditambahkan sebagai prediktor, maka korelasi berganda adalah 0,66. Ini adalah koefisien validitas prediktif dan mereka dianggap menunjukkan validitas yang tinggi.

            The results in Table 9-2 are a example for one university. The ACT Assessment Program Technical Manual (1988) contains much information about predictive validity, for example, by college major course of study. Using test scores from over 119.000 students in 510 colleges, the median multiple correlation coefficient using the four AAP tests was .48; this increased to .55 when high-school GPA was added as a predictor (p. 44).
Hasil pada Tabel 9-2 adalah contoh untuk satu universitas. ACT Program Penilaian Technical Manual (1988) berisi banyak informasi tentang validitas prediktif, misalnya, dengan mata kuliah utama penelitian. Menggunakan nilai tes dari lebih dari 119,000 siswa di 510 perguruan tinggi, koefisien korelasi berganda menggunakan median empat tes AAP adalah 0,48; ini meningkat menjadi 0,55 ketika SMA IPK ditambahkan sebagai prediktor (hal. 44).
            Predictive validity can be used in a host of situations: predicting job success, predicting perfomance in vocational programs, predicting success in selected military occuptions, and so on. In some situation-those for which training is very expensive, for example-predictive validity is very inportant. High predictive validity is a obtained by selecting predictors that are related to the criterion measure. The stronger this relationship, the greater will be the validity coefficient.
Validitas prediktif dapat digunakan dalam berbagai situasi: memprediksi kesuksesan kerja, memprediksi performansi dalam program kejuruan, memprediksi keberhasilan dalam occuptions militer dipilih, dan sebagainya. Dalam beberapa validitas situasi mereka yang pelatihan sangat mahal, misalnya-prediktif sangat inportant. Validitas prediktif yang tinggi adalah prediktor diperoleh dengan memilih yang terkait dengan mengukur kriteria. Semakin kuat hubungan ini, semakin besar akan koefisien validitas.

           
           
           
           


Tidak ada komentar:

Read more: http://www.bloggerafif.com/2011/03/membuat-recent-comment-pada-blog.html#ixzz1M3tmAphZ