Açık Uçlu Maddelerde Farklı Yaklaşımlarla Elde Edilen Puanlayıcılar Arası Güvenirliğin Değerlendirilmesi (original) (raw)

Açık Uçlu Maddelerde Otomatik Puanlamanın Güvenirliği ve Test Eşitleme Hatalarına Etkisi

It might be difficult, time-consuming and costly to score constructed response items in tests. However, improvements in computer technology have enabled the automated scoring of constructed response items. Yet, the application of automated scoring without making investigation on validity, reliability and test equating can lead to serious problems. In this sense, the aim of this study was to score the constructed response items in mixed format tests automatically and to investigate the effect of this on test equating and reliability. The data examined in this study were the 8th grade Turkish test data of ABİDE research (Education Skills Monitoring and Evaluation) carried out by Ministry of National Education in Turkey in 2016. These tests contained common items. Support vector machine (SVM), logistic regression (LR), multinominal naive bayes (MNB), long-short term memory (LSTM) and bidirectional long-short term memory (BLSTM) were selected as automated scoring methods. During the test equating process, methods based on Classical Test Theory and Item Response Theory were utilized. The results of the study revealed that the most compatible automated scoring method with actual raters is BLSTM. The scores obtained by the BLSTM method were in good agreement with the scores of actual raters. In most of the equating methods, it was observed that errors of equating process done with automated scoring were close to the errors of equating process done by actual raters. It was concluded that automated scoring can be applied since it is compatible with actual raters and convenient in terms of equating.

Dereceli Puanlama Anahtarlarının Güvenirliğinin Farklı Deneyim Yıllarına Sahip Puanlayıcıların Kullanıldığı Durumlarda İncelenmesi

İlköğretim Online

Öz. Bu araştırmanın temel amacı; dereceli puanlama anahtarı (DPA) kullanmaya ilişkin deneyim yılının puanlayıcı güvenirliğine etkisini belirlemektir. Bu amaçla DPA kullanmaya ilişkin farklı deneyim yılına sahip üç grup puanlayıcının bulunduğu durumlarda elde edilen G ve Phi çalışması sonuçları karşılaştırılmıştır. Birinci grupta DPA kullanmaya ilişkin deneyimi az olan (1 yıl ve daha az ) ikinci grupta DPA kullanmaya ilişkin deneyimi çok olan( 5 yıl ve daha fazla) puanlayıcılar yer almaktadır. Üçüncü grupta ise deneyimi az ve çok olan puanlayıcılar bir arada yer almışlardır. Araştırmada üç farklı grupta yer alan puanlayıcılar İngilizce yazma becerisini ölçmeye yönelik geliştirilmiş açık uçlu bir başarı testini aynı DPA'yı kullanarak puanlamışlardır. Çalışmaya özel bir üniversitede hazırlık eğitimi alan 120 öğrenci ve aynı okulda çalışan 12 okutman dâhil edilmiştir. Araştırmada, birey ve puanlayıcıların maddeler ile çaprazlandığı ancak bireylerin puanlayıcılara yuvalandığı desenden ((b:p)xm) faydalanılmıştır. Araştırma sonucunda nitelikli bir DPA kullanıldığında DPA kullanmaya ilişkin deneyim yılının puanlayıcı güvenirliği üzerinde etkili olmadığı belirlenmiştir.

Açık Uçlu Maddeleri Otomatik Puanlamak Ne Kadar Güvenilirdir: Türk Dilinde Bir Uygulama

2021

Özellikle geniş ölçekli testlerde açık uçlu maddelerin kullanılması açık uçlu maddeleri puanlama konusunda zorluk ortaya çıkarmıştır. Ancak açık uçlu maddelerin otomatik puanlanmasına dayalı yaklaşımla bu zorluğun üstesinden gelinebilmektedir. Araştırmanın amacı açık uçlu maddeleri otomatik puanlayarak elde edilen verilerin güvenirliğini incelemektir. Alt amaçlardan birisi otomatik puanlamada makine öğrenmesine dayalı farklı algoritmaları (destek vektör makineleri, lojistik regresyon, çok terimli sade bayes, kısa-uzun süreli bellek ve iki yönlü kısa-uzun süreli bellek) karşılaştırmaktır. Diğer alt amaç ise otomatik puanlamaya özgü sistemin test edilmesinde (%33, %20 ve %10) kullanılan veri oranının farklılaştırılmasıyla otomatik puanlamanın güvenirliğinin değişimini incelemektir. Otomatik puanlamaların güvenirliği incelenirken gerçek puanlayıcılardan elde edilen verilerin güvenirliği ile karşılaştırma yapılmıştır. Türk dilindeki açık uçlu maddelerin ilk otomatik puanlama denemesini gösteren bu araştırmada Millî Eğitim Bakanlığı tarafından uygulanan Akademik Becerilerin İzlenmesi ve Değerlendirilmesi (ABİDE) programı Türkçe test verileri kullanılmıştır. Sistemin test edilmesinde çapraz geçerlikten yararlanılmıştır. Güvenirliği gösterecek uyum katsayılarına yönelik olarak uyum yüzdesi, otomatik puanlama araştırmalarında sıklıkla kullanılan karesel ağırlıklı Kappa ve verinin kategorilere dağılımındaki dengesizlik sorunundan etkilenmeyen Gwet'in AC1 katsayısı kullanılmıştır. Araştırma sonuçları otomatik puanlama algoritmalarından faydalanılabileceğini göstermiştir. Otomatik puanlamada kullanılabilecek en iyi algoritmanın iki yönlü kısa-uzun süreli bellek olduğu bulunmuştur. Kısa-uzun süreli bellek ve çok terimli sade bayes algoritmaları; destek vektör makineleri, lojistik regresyon ve iki yönlü kısa-uzun süreli bellek algoritmalarından daha düşük performans sergilemiştir. Otomatik puanlamada %33 test veri oranında uyum katsayılarının %10 ve %20 test veri oranlarına göre biraz daha düşük olduğu ancak istenilen aralıkta olduğu belirlenmiştir. Anahtar Kelimeler: Açık uçlu madde, makine öğrenme algoritmaları, otomatik puanlama, puanlayıcılar arası güvenirlik, uyum katsayıları. GİRİŞ Bireyler yaşamları boyunca çok sayıda testle karşılaşırlar. Testler, bireylerin bilgi, beceri ve yetenekleri arasındaki farkları gösterir. Böylece bireyler hakkında kararlar alabilir (Geisinger ve Usher-Tate, 2016). Son yıllarda testlerde birden fazla madde formatı kullanımı daha çok rağbet görmektedir. Karma test olarak adlandırılan bu yaklaşımda aşina olunan çoktan seçmeli maddelerin yanında yanıtı sınırlandırılmış ya da sınırlandırılmamış açık uçlu maddeler kullanılmaktadır. Çoktan seçmeli maddelerde bireyler bir problemle ilgili bir doğru, birden fazla yanlış cevapla karşılaşmaktadır. Yanıtı sınırlandırılmış açık uçlu maddelerde bireyler sorulara birkaç kelime, cümle ya da paragrafla cevap verirken yanıtı sınırlandırılmamış maddelerde bireyler sorulara istedikleri uzunlukta cevap vermektedir (Downing, 2009). Madde türlerinin bir arada kullanımı her bir formatın kısıtlı yönlerinin ortadan kaldırılmasını sağlamaktadır (Messick, 1993). Örneğin testlerde sadece çoktan seçmeli maddelerin kullanımı öğretime etki etmekte, bireyler çoktan seçmeli testlere yönelik çalışma yapmaktadır. Bu durum özgün, eleştirel ve üst düzey düşünme becerilerini kısıtlayabilmektedir. Ancak açık uçlu maddelerin kullanımı bu kısıtlılığı ortadan kaldırabilmektedir.

Medya Okuryazarlığı Dereceli Puanlama Anahtarının Genellenebilirlik Kuramıyla Güvenirliğinin İncelenmesi

Öz Bu çalışmanın temel amacı, genellenebilirlik kuramı ile farklı değişkenlik kaynaklarından da gelen hatalar dikkate alınarak medya okuryazarlığı dersinde öğrencilerin medya metinlerine ilişkin performanslarını ölçmeye yarayan, geçerli ve güvenilir bir ölçme aracı geliştirmektir. Genellenebilirlik Kuramı ile elde edilen puanlayıcı güvenirlikleri incelendiğinden, bu çalışma bir temel araştırma olarak tanımlanabilir. Araştırmaya Mersin Üniversitesi 2014-2015 Bahar öğretim dönemi Türkçe öğretmen adayları katılmıştır. Araştırma verilerinin elde edilmesi amacıyla, aynı performans görevinin değerlendirilmesinde medya okuryazarlığı puanlama anahtarı hazırlanmıştır. Medya okuryazarlığı derecelendirilmiş puanlama anahtarında (rubrik) yer alan 6 performans görevinin 8 puanlayıcı tarafından puanlanmasından elde edilen veriler, genellenebilirlik kuramı kapsamında analiz edilmiş ve elde edilen bulgular incelenmiştir. 8 puanlayıcının 110 öğrenciyi medya okuryazarlığı rubriğinde yer alan yedi görev doğrultusunda puanlamasıyla oluşturulmuş öxpxg deseni yedi varyans kaynağına ayrılmıştır. Ayrıca, medya okuryazarlığına ilişkin ait 7 görev olmak üzere toplamda 8 puanlayıcı tarafından 110 öğrenci performanslarının puanlamasıyla elde edilen genellenebilirlik (G) katsayısı 0.80, Phi katsayısı ise 0.73 olarak kestirilmiştir. Bu sonuçlar bağlamında medya okuryazarlığı dereceli puanlama anahtarı, öğrencilerin medya unsurlarını inceledikleri performanslar için uygun bir ölçme aracıdır. Araştırmada geliştirilen dereceli puanlama anahtarının farklı araştırmalarla farklı medya unsurlarında kullanılması ve sonuçlarının analiz edilmesi, dereceli puanlama anahtarının standartlaşması açısından önemlidir. Abstract The aim of the study is to develop a valid and reliable measurement tool through generalizability theory and considering the errors seen in different variation sources. This scale will be used to test students' performance on media texts during media literacy course. As interscorer reliability obtained via generalizability theory was examined, this study can be defined as a basic research. Turkish candidate teachers of Mersin University during 2014-2015 spring semester participated in the study. To obtain research data, media literacy rubric was prepared in assessing the identical performance tasks. The data obtained from eight scorer related to six performance tasks in the rubric were analyzed according to generalizability theory and the findings were examined accordingly. After eight scorer evaluated 110 students into seven tasks of the rubric, " ö x p x g " pattern was divided into seven variance sources. In addition, generalizability (G) coefficient was found 0.80, and Phi coefficient, 0.73. Considering these results, media literacy rubric proves to be convenient for students' performance on examining media components. It is important that the rubric developed in the study will be used in different researches with different media tools, and the results will be analyzed. This will help the rubric get standardized.

Otizm Sosyal Beceriler Profili Ölçeğinde Puanlayıcılar Arası Güvenirliğin Farklı Kuramlara Göre Karşılaştırılması

Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi

Öz Bu araştırmada, "Otizm Sosyal Beceriler Profili" (OSBP) ölçeğinin beş puanlayıcı tarafından puanlanması ile elde edilen puanların klasik test kuramı ve genellenebilirlik (G) kuramı ile puanlayıcılar arası güvenirliğinin karşılaştırılması amaçlanmıştır. G kuramında puanlayıcıların birlikte ve dönüşümlü puanlama yapmasıyla oluşturulan farklı desenlerden ve klasik test kuramından elde edilen güvenirlik katsayılarının düzeyleri saptanmış ve hangi kuramın daha fazla bilgi sunduğu belirlenmeye çalışılmıştır. Araştırmada elde edilen veriler klasik test kuramında her bir puanlayıcı için puanların iç tutarlılık güvenirliği Cronbach-alfa (α) katsayısı; puanlayıcılar arası güvenirlik, Kendall'ın uyuşum katsayısı, puanlayıcılar arası korelasyon katsayısı ve puanlayıcıların verdikleri puanlar arasında fark olup olmadığı ise ilişkili örneklemlerde varyans analizi ile hesaplanmıştır. Genellenebilirlik teorisinde, değerlendiricilerin ortaklaşa ve alternatif derecelendirmelerine göre iki farklı tasarım oluşturulmuştur. G kuramı kapsamında bireylerin (b) aynı maddeler (m) doğrultusunda puanlayıcıların (p) her biri tarafından puanlandığı bxmxp çapraz deseni ve bireylerin tüm maddeler doğrultusunda farklı puanlayıcılar tarafından puanlandığı (p:b)xm yuvalanmış deseni için ayrı ayrı G ve K çalışmaları yapılmış ve sonuçlar birbirleriyle karşılaştırılmıştır.

Puanlayıcı Niteliklerinin Kesme Puanlarının Belirlenmesine Etkisinin Genellenebilirlik Kuramı’yla İncelenmesi

Öz Standart belirleme süreçlerinde en önemli unsur, kesme puanları hakkında yargıda bulunan puanlayıcı grubudur. Puanlayıcı yargılarının tutarlı olması, belirlenecek kesme puanı veya puanlarının güvenirliğini doğrudan etkileyecektir. Bu çalışmada, okul öğretmenleri ve alan uzmanları olmak üzere farklı nitelikteki iki puanlayıcı grubunun standart belirleme sürecindeki performansları Genellenebilirlik Kuramı çerçevesinde karşılaştırılmış; böylece puanlayıcı niteliklerinin kesme puanları üzerindeki etkisinin ortaya konulması amaçlanmıştır. Çalışmada test merkezli standart belirleme yöntemlerinden 1-0 ve Nedelsky yöntemleri ele alınmış ve elde edilen veriler tek ve iki değişkenlik kaynaklı tümüyle çaprazlanmış desenler ile analiz edilmiştir. Elde edilen bulgularda ,her iki standart belirleme yönteminde uzman grubunun öğretmen grubuna göre belirgin olmamakla beraber daha tutarlı yargılar verdiği görülmüş; bu bulgular hesaplanan G ve Phi katsayılarıyla da desteklenmiştir. Anahtar Kelimeler: standart belirleme, 1-0 yöntemi, Nedelsky yöntemi, genellenebilirlik kuramı, puanlayıcı tutarlılığı Abstract Rater group, who give judgments about cutting scores, is the most important factor of the standard setting procedures. Reliability of the cutoff score(s), will be directly affected by the consistency of the raters' judgments. In this study, performance of school teachers and domain experts were compared within the scope of the Generalizability Theory during the standard setting procedure. With this comparison, it was aimed to demonstrate the effect of rater qualifications on cutoff scores. 1-0 and Nedelsky methods which are two of the student centered standard setting methods were adopted in this study. The data that had been collected from raters was analyzed with single and multiple facet crossed designs. According to results of the analyses that were conducted under different designs, it was seen that domain experts gave more consistent judgments compared to school teachers; but this distinction was not so notable. More detailed findings such as G and Phi coefficients of decision studies were also covered in the subsequent sections. GİRİŞ Eğitim-öğretim süreçlerinde öncelikle ölçme işlemi gerçekleşmekte, geçerli ve güvenilir ölçme sonuçları göz önünde bulundurularak belirlenen ölçüt ya da ölçütler doğrultusunda değerlendirme yapılmaktadır. Ölçütler, değerlendirme sürecinde bireyler hakkında değer yargısına varıp bireyleri ölçülen yapının düzeylerine göre başarılı/başarısız, temel/yeterli/üst düzey gibi birtakım kategorilere ayırmak için kullanılmaktadır. Bu ölçütler, anılan kategorileri birbirinden ayıran puanlar olarak ifade edilebilir. Bu puanlar, alanyazında kesme puanı ya da geçme puanı şeklinde ifade edilmektedir. Değerlendirme sürecinde, bireyleri ölçülen yapıdaki durumlarına göre sınıflandırmada kullanılacak kesme puanlarını belirleme

Değerlendiriciler Arası Güvenilirlik ve Tatmin Bağlamında 360 Derece Performans Değerlendirme

Marmara Üniversitesi Öneri Dergisi, 2014

Günümüzün en popüler değerlendirme sistemi olarak kabul edilen 360 derece değerlendirme sistemi gücünü, farklı kaynaklardan elde edilecek olan sonuçların daha objektif ve kapsayıcı olacağı görüşünden almaktadır. Ancak burada hangi değerlendiricinin daha geçerli ve güvenilir bilgi sağladığı halen belirsizliğini koruyan bir konudur. Bu belirsizliğe rağmen 360 derece değerlendirme sistemi çalışana kendini ve diğerlerini değerlendirme şansı tanıyor olması nedeniyle sistemden duyulan tatmini arttırmaktadır. Bu bağlamda yapılan bu çalışmada, değerlendirme sisteminden duyulan tatmin ve değerlendiriciler arası güvenilirlik özelinde 360 derece değerlendirme sistemi ele alınmıştır. Bu amaçla bu sistemi uygulayan bir işletmenin çalışanlarının değerlendirme sonuçları incelenmiş ve ayrıca çalışanlara sistemden duydukları tatmini ölçen bir anket uygulanmıştır. Analizler sonucunda demografik değişkenlerin performans puanları üzerinde olmasa da farklı kaynaklardan gelen değerlendirmeler üzerinde etkili olabildiği görülmüştür. Ayrıca üstlerin çalışanların gerçek performans puanlarına en yakın değerlendirmeleri yaptığı incelemeler sonucunda ortaya çıkmıştır. Bunun yanı sıra sisteme karşı duyulan tatmin ile çalışanların performansları arasında kuvvetli bir ilişki tespit edilmiştir.

Genellenebilirlik Kuramında Tümüyle Çaprazlanmış ve Maddelerin Puanlayıcılara Yuvalandığı Desenlerin Karşılaştırılması

Genellenebilirlik Kuramında Tümüyle Çaprazlanmış ve Maddelerin Puanlayıcılara Yuvalandığı Desenlerin Karşılaştırılması, 2017

Bu çalışmada İngilizce Kompozisyon Yazma Becerisinin puanlanması sürecinde tümüyle çaprazlanmış desenin (bxpxm) ve maddelerin puanlayıcıya yuvalandığı ancak bireylerin maddeler ve puanlayıcılar ile çaprazlanmış olduğu desenin (bx(m:p)) kullanıldığı durumlarda elde edilen G ve Phi katsayılarının karşılaştırılması amaçlanmıştır. Çalışmaya bir vakıf üniversitesi hazırlık okulunda öğrenim gören ve 3 puanlayıcı dahil olmuştur. Çalışma sonucunda tümüyle çaprazlamış desen ile elde edilen G ve Phi katsayıları daha yüksek çıkmıştır. Değişkenlik kaynaklarına göre varyans bileşenleri incelendiğinde birey ana etkisine ilişkin varyans tümüyle çaprazlanmış desen için daha yüksekken kalan etkiye ilişkin varyans değeri daha düşüktür. Bu bulgular sınıf içi uygulamalarda tümüyle çaprazlanmış desenin daha güvenilir sonuçlar verdiğini göstermektedir. Bu bağlamda sınıf içi uygulamalarda pratik koşullar sağlandığında tümüyle çaprazlanmış desenin kullanılması önerilmektedir.

Vee Diyagramından Elde Edilen Puanların Güvenirliğinin Klasik Test Kuramı ve Genellenebilirlik Kuramına Göre İncelenmesi

Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 2016

Öz Araştırmada, vee diyagramından elde edilen puanların güvenirliğinin incelenmesi amaçlanmıştır. Bu amaçla araştırmada klasik test kuramı ve genellenebilirlik kuramından yararlanılmıştır. Araştırmada betimsel araştırma modeli kullanılmıştır. Çalışma Niğde ilinde öğrenim gören 32, 7. ve 8. sınıf öğrencisi ile yürütülmüştür. Vee diyagramları puanlama anahtarı kullanılarak puanlanmıştır. KTK'da, Cronbach alfa iç tutarlılık güvenirlik katsayısı; puanlayıcılar arası güvenirlik için Kendall'ın uyuşum katsayısı (W), G kuramında ise tek değişkenli modelle Ep 2 (G) ve Ф (Phi) katsayıları kestirilmiştir. Croanbach alfa güvenirlik katsayıları birinci puanlayıcı için 0,77, ikinci puanlayıcı için 0,76 ve üçüncü puanlayıcı için 0,76 bulunmuştur. Puanlayıcılar arası uyum ise Kendall'ın uyuşum katsayısı ile belirlenmiş; birinci, ikinci, üçüncü ve dördüncü vee diyagramları için Kendall W katsayısı sırasıyla; 0,959, 0,924, 0,963 ve 0,954 olarak bulunmuştur. Genellenebilirlik kuramı analizinde varyansları ve varyans yüzdelerini hesaplamak amacıyla, tümüyle çaprazlanmış desen uygulanmıştır. G Kuramına göre matematik başarısının ölçülmesiyle vee diyagramından elde edilen puanların Genellenebilirlik (G) katsayısı 0,918 ve Güvenirlik (Phi) katsayısı 0,899 bulunmuştur. G çalışması sonucunda, öğrenci (ö) ana etkisi için kestirilen varyans bileşenin toplam varyansın % 42.4'ünü açıkladığı ve toplam varyans içinde en yüksek değere sahip varyans bileşeni olduğu belirlenmiştir. Puanlayıcı (p) ana etkisi için kestirilen varyans bileşeninin ise toplam varyansın %0,1'ini açıkladığı ve bu varyans bileşeninin ana etkiler içinde en düşük değere sahip varyans bileşeni olduğu görülmektedir. Elde edilen bulgular, kullanılan ölçme aracının, öğrencilerin matematik başarısını belirlemede güvenilir sonuçlar verdiğini göstermektedir.