Abdullah Faruk KILIÇ | Trakya University (original) (raw)
Papers by Abdullah Faruk KILIÇ
Participatory Educational Research, 2022
The aim of the study was to examine the common items in the mixed format (e.g., multiple-choices ... more The aim of the study was to examine the common items in the mixed format (e.g., multiple-choices and essay items) contain parameter drifts in the test equating processes performed with the common item non-equivalent groups design. In this study, which was carried out using Monte Carlo simulation with a fully crossed design, the factors of test length (30 and 50), sample size (1000 and 3000), common item ratio (30 and 40%), ratio of items with item parameter drift (IPD) in common items (20 and 30%), location of common items in tests (at the beginning, randomly distributed, and at the end) and IPD size in multiple-choice items (low [0.2] and high [1.0]) were studied. Four test forms were created, and two test forms do not contain parameter drifts. After the parameter drift was performed on the first of the other two test forms, the parameter drift was again performed on the second test form. Test equating results were compared using the root mean squared error (RMSE) value. As a result of the research, ratio of items with IPD in common items, IPD size in multiple-choice items, common item ratio, sample size and test length on equating errors were found to be significant.
In this study, the purpose is to compare factor retention methods under simulation conditions. Fo... more In this study, the purpose is to compare factor retention methods under simulation conditions. For this purpose, simulations conditions with a number of factors (1, 2 [simple]), sample sizes (250, 1.000, and 3.000), number of items (20, 30), average factor loading (0.50, 0.70), and correlation matrix (Pearson Product Moment [PPM] and Tetrachoric) were investigated. For each condition, 1.000 replications were conducted. Under the scope of this research, performances of the Parallel Analysis, Minimum Average Partial, DETECT, Optimal Coordinate, and Acceleration Factor methods were compared by means of the percentage of correct estimates, and mean difference values. The results of this study indicated that MAP analysis, as applied to both tetrachoric and PPM correlation matrices, demonstrated the best performance. PA showed a good performance with the PPM correlation matrix, however, in smaller samples, the performance of the tetrachoric correlation matrix decreased. The Acceleration Factor method proposed one factor for all simulation conditions. For unidimensional constructs, the DETECT method was affected by both the sample size and average factor loading.
Özet Bu araştırmanın amacı Çakır (2006) tarafından dördüncü sınıf matematik ders kitabının öğretm... more Özet Bu araştırmanın amacı Çakır (2006) tarafından dördüncü sınıf matematik ders kitabının öğretmen görüşlerine göre değerlendirilmesi amacıyla geliştirilen anketin lise öğretmenleri üzerinde uyarlama çalışmasını yürütmek ve anketin ölçek olma özelliğiyle ilgili kanıt aramaktır. Bu amaçla genel tarama modeli kullanılmıştır. Araştırmanın evrenini Anadolu, fen, sosyal bilimler, güzel sanatlar ve spor liselerinde çalışmakta olan matematik, fizik, kimya ve biyoloji öğretmenleri oluşturmaktadır. Örneklem ise tabakalı ve küme örnekleme yöntemleriyle seçilmiş 3700 öğretmenden oluşmuştur. 2014 yılının haziran ayında internet ortamında veriler toplanmış ve katılımda gönüllülük esas alınmıştır. Ortaöğretim düzeyinde kullanılan ders kitaplarında olmayan bazı özelliklerle ilgili maddeler anketten çıkarılmıştır. Araştırmada anket için yapı geçerliği, çapraz geçerlik, sınıflama-sıralama geçerliğine yönelik kanıtlar aranmış, güvenirlik analizi ve madde analizleri yapılmıştır. Araştırma sonucunda anketin 4 faktörlü bir yapıda olduğu gözlenmiştir. Geçerlik ve güvenirlik kanıtları ise anketin ortaöğretim ders kitaplarının öğretmen görüşlerine göre değerlendirilmesinde kullanılabilecek geçerli ve güvenilir sonuçlar veren bir araç olduğu göstermiştir. Tüm sonuçlar birlikte ele alındığında uyarlanan anketin bir ölçek yapısına sahip olduğu değerlendirilmiştir. Ders kitaplarının bütünsel bir şekilde değerlendirilmesini sağlamak amacıyla kullanılacak bu ölçeğin, geçerli ve güvenilir sonuçlar üretebileceği sonucuna varılmıştır.
No: 471 -Abstract Presentation Type: Oral Presentation
Öz Bu çalışmanın amacı 2013-2014 eğitim öğretim yılında uygulanan TEOG ortak ve mazeret sınavında... more Öz Bu çalışmanın amacı 2013-2014 eğitim öğretim yılında uygulanan TEOG ortak ve mazeret sınavındaki Türkçe ve matematik alt testlerinin psikometrik özelliklerini karşılaştırmaktır. Türkçe ve matematik testlerinin ortak ve mazeret sınavları madde güçlüğü, madde ayırıcılık indeksleri, testlerin güvenirliği ve geçerliği gibi psikometrik özellikler çevresinde karşılaştırmalı olarak incelenmiştir. Araştırma Türkçe ortak sınavı için 9773, matematik ortak sınavı için 9485, Türkçe mazeret sınavı için 2747 ve matematik mazeret sınavı için 2323 öğrencinin madde puanları üzerinden yürütülmüştür. Kapsam geçerliği çalışması için uzman görüşlerine başvurulmuştur. Bunun için araştırmacılar tarafından TEOG ortak ve mazeret sınavlarındaki soruların ölçtüğü kazanımları belirlemek ve karşılaştırmak amacıyla soru ve kazanım eşleştirme formu ile soru değerlendirme formu oluşturulmuştur. Araştırma sonucunda hem matematik hem de Türkçe ortak ve mazeret sınavlarının test ve madde istatistiklerinin manidar düzeyde farklı olduğu gözlenmiştir. Uzman görüşlerine dayalı olarak değerlendirilen Türkçe ve matematik testlerinin kapsamının ortak ve mazeret sınavları için benzer olduğu görülmüştür. Matematik testi ortak ve mazeret sınavlarındaki maddelerin aynı yapıyı ölçmediği fakat Türkçe testi ortak ve mazeret sınavlarındaki maddelerin benzer yapıyı ölçtüğü sonucuna ulaşılmıştır. Anahtar Kelimeler: TEOG, geçerlik, güvenirlik, faktör analizi, test ve madde istatistikleri Abstract The aim of this study is to compare the psychometric properties of Turkish and math subtests in common and make-up examination of TEOG applied in 2013-2014 school year. Turkish and math tests of the common and make-up examinations were investigated comparatively within the frame of psychometric properties such as item difficulty, item discrimination index, test reliability and validity. Research was carried out via item scores matrix of 9773 students for Turkish common exam, 9485 students for math common exam, 2747 students for Turkish make-up exam and 2323 students for math make-up exam. It was consulted to expert opinion for the content validity study. According to this, in order to determine and compare the acquisitions that is measured in common and make-up examinations of TEOG, question-acquisition matching form and question assessment form was prepared by researcher. As a result of research, it has been observed that Turkish and math subtests test and item statistics are different in significantly. Content validity which based on expert opinions is in similar level for Turkish and math subtests. The results of the study revealed that math tests of the common and make-up exams items didn't measure the same things in terms of construct validity. Unlike math, Turkish tests of the common and make-up exams items measure the same things in terms of construct validity.
This study aimed at determining the impact of demographic factors on the Internet usage purposes ... more This study aimed at determining the impact of demographic factors on the Internet usage purposes of high school students. The population of the study consisted of students between 9th and 12th grades from the Anatolian high schools, science high schools, social sciences high schools, sports high schools and fine arts high schools in Turkey. The sample was chosen through the stratified and cluster sampling procedure. The students were chosen randomly depending on the regions of their school attendance. The sample for this research numbered 3170 students. The research was conducted in the second term of the 2014-2015 academic year. The data were obtained through online forms and the bases of participation are honesty, sincerity, and volunteerism. The data collection tool is a questionnaire and a demographic information form prepared by the researchers. Chi-square Automatic Interaction Detector (CHAID) analysis was conducted through SPSS in order to determine the demographic factors affecting the purposes of internet usage among high school students. The results of this research show that 9th grade students in Turkey mostly use the Internet to do homework while students from other grades mostly use the Internet for social networking. The male students use the Internet for playing video games more frequently in comparison with female students. Also, socioeconomic status affects the purpose of Internet usage. Hence it is suggested that teachers talking to male students might use the examples of computers and games and with female students they might relate the topics to social media.
Conference Presentations by Abdullah Faruk KILIÇ
Bu araştırmanın amacı Madde Tepki Kuramı’na (MTK) dayalı olarak gerçekleştirilen simülasyon çalış... more Bu araştırmanın amacı Madde Tepki Kuramı’na (MTK) dayalı olarak gerçekleştirilen simülasyon çalışmalarının farklı paket ve programlardan elde edilen sonuçlarının geçerlik ve güvenirlik açısından incelenmesidir. Bu amaçla R program paketlerinden mirt, psych, irtoys ve catIrt paketleri ve MTK’ya dayalı olarak gerçekleştirilen simülasyon çalışmalarında sıklıkla kullanılan WinGen programından elde edilen veri setleri KR20 güvenirlik katsayısı ve açımlayıcı faktör analiz (AFA) sonucunda elde edilen açıklanan varyans oranı, ortalama faktör yükü ve very setlerinin boyutluluğu açısından karşılaştırılmıştır. Araştırma Monte Carlo simülasyon çalışması olarak yürütülmüştür. Araştırmada simülasyon koşulları; madde sayısı (20, 30 ve 40), kullanılan MTK modeli (Rasch, 2 parametreli lojistik model [2PLM] ve 3 parametreli lojistik model [3PLM]), veri üretme programı (WinGen 3.1 ile R paketlerinden irtoys, mirt, psych ve catIrt) ve örneklem büyüklüğü (500, 1000 ve 2000) şeklinde belirlenmiş olup toplam 135 simülasyon koşulunda çalışılmış ve her bir koşul için 1000 replikasyon yapılmıştır. Araştırma sonucunda tüm MTK modellerine göre üretilen veri setlerinin genel olarak tek boyutlu olduğu, açıklanan varyans oranının Rasch modeli için 0.30’un altında kaldığı, 2PLM için bir koşul hariç diğer tüm koşullarda programların 0.30’un üzerinde açıklanan varyansa sahip olduğu, 3PLM için açıklanan varyans oranının genellikle 0.30’un altında olduğu, ortalama faktör yüklerinin ise tüm modeller ve programlar için 0.46’nın üzerinde olduğu gözlenmiştir. Güvenirlik katsayılarının tüm koşullar için 0.75-0.93 aralığında olduğu gözlenmiştir. Araştırma bulgularına göre R paketlerinin MTK kapsamında veri üretiminde simülayon koşullarının büyük kısmında açıklanan varyans oranı, ortalama faktör yükü ve güvenirlik katsayısı açısından daha iyi sonuçlar elde ettiği söylenebilir. Bu nedenle MTK’ya dayalı simülasyon çalışmalarında R paketlerinin tercih edilmesi önerilmektedir.
The aim of this study is to investigate the effect of the number of randomly generated correlatio... more The aim of this study is to investigate the effect of the number of randomly generated correlation matrices during the Parallel Analysis (PA), one of the dimension determination methods in exploratory factor analysis (EFA), on the results of the analysis. For this purpose, the Monte Carlo Simulation study was conducted. As simulation factors, the sample size (250, 500, 1000, 3000), number of items (20, 30), number of dimensions (1 and 2 (simple)), average factor loadings (0.4 and 0.8) and the correlation matrix (Pearson and tetrachoric) was determined. In the study, binary data and fully crossed design was used. Different data sets were generated for the sample size (4 conditions), the number of items (2 conditions), the number of dimensions (2 conditions) and average factor loadings (2 conditions). Thus, 32,000 data sets was generated for 4x2x2x2=32 different conditions because of using 1,000 replications. The number of correlation matrices randomly generated in PA was determined as 1, 5, 25, 50, 100, 500 and 1000, and the results were compared. In the research, psych packet in “R” is used for data generation and analysis. Since the achievement tests in the study were taken at the focus point, data was generated binary structure. In the study, two conditions were determined for number of factors as one and two dimensions. Only simple structured data sets were created in two dimensional structures. Therefore, the correlation between the factors is around 0. Proportion of correct estimates (PC) and average bias statistics were used to assess the results of the research. For PC, the actual number of factors compared to the number of factors suggested in the PA results were compared. For average bias, the actual number of factors was subtracted from the recommended number of factors and averaged for 1000 replications. Thus, it was examined how far it was from the actual number of dimensions. Pearson and tetrachoric correlation matrices were created for the 32,000 data sets in the study. PA was conducted using the created correlation matrices. As a result of the study, the correct factor number was proposed for all conditions where the average factor loading is 0.8. Accordingly, it can be said that when the average factor loading increases, the number of randomly generated correlation matrices is not important. In cases where the sample size was 3000 for conditions with an average factor load of 0.4, the smallest PC value was 98.2%. Accordingly, it can be said that the number of correlation matrices randomly generated when the sample size is 3000 is not very important. It has been observed that the type of correlation matrix used for the conditions where the sample sizes are 250, 500 and 1000 is important. It was consistently observed that when PA conducted with the tetrachoric correlation matrix, it had a lower PC than the analysis conducted with the Pearson correlation matrix. Accordingly, in the case where the sample size is 1000 or less, it may be advisable not to use a Psych package in the R program using a tetrachoric correlation matrix. The number of randomly generated correlation matrices is not very effective on the analysis results. When we examine PC value, the biggest difference was obtained 6.3%. This difference was observed the condition which is sample size 250, number of items 30, number of dimensions 2 and average factor loading 0.4. The difference was observed the number of randomly generated correlation matrices 1 (64.8%) and 1000 (71.1%). When the average bias values were examined, it was observed that it is 0 for all conditions when average factor loading was 0.8. For the all conditions with a sample size of 3000, the average bias value was 0 when analysis conducted with the Pearson correlation matrices, when analysis conducted with the tetrachoric correlation matrices the average bias value was observed that 0.02 and 0.01 when the conditions which is 30 items, 2 factors and 0.4 mean factor loading. The number of random generated correlation matrix were 1 and 5, average bias value was 0.02. the other number of random generated correlation matrix were 0.01. The average bias value ranges from 0.006 to 6.013 for all conditions in the PA result conducted with the tetrachoric correlation matrix in sample sizes smaller than 1000. Accordingly, it can be said that the number of factor was estimated higher than the actual number of factors for these conditions. The increase in the number of randomly generated correlation matrices did not have a great influence on the PA results. When the number of randomly generated correlation matrices was increased from 1 to 1000 in the condition that the sample size was 250, PC value was observed to increase by about 5%. When the sample size was 500, PC value increases by about 4%. When the sample size was 1000, the increase in the correct estimation ratio was 0.1%. The effect of increasing the number of randomly generated correlation matrices was also decreasing when average factor loading and sample size increased. According to the research findings, it can be said that the number of randomly generated correlation matrices is not very effective on PC and average bias value when PA conducted the psych package in the R program.
Simulation studies are important in order to explore possible outcomes of different methods under... more Simulation studies are important in order to explore possible outcomes of different methods under specific circumstances. Studies might be conducted for non-existent data and the question “what kinds of results would we get if we use this method?” may be answered in simulation studies. Below phases are followed in simulation studies: 1) Determination of research question, 2) Determination of condition, 3) Selecting a research design (crossed or nested), 4) Generating data 5) Estimation of parameters, 6) Comparison of estimated and real parameters, 7) Conducting specific numbers of replications and 8) Evaluation of results by using a proper statistical method. Specific numbers of replications have been conducted for generating data, which has certain features with respect to simulation phases. The reason is the fact that simulations are based on sample theory. Thus by conducting specific number of replication, researchers want to make sure that they produced data that has preferred features. Moreover, replication helps making simulation study stabile. Hence, it is possible to provide data sets that are stable. Although more replications mean more proper and more reliable estimations, when replication is conducted too much, both duration of analysis increases and amount of recovery decreases after a specific number. It has been indicated in some studies that the least number of replication is 25. However, it should be taken into account that there is a strong relationship between number of replication and research question. For instance, methods for factor extraction are compared according to conditions of simulation and also it is searched that which method works better in which situation. When real data is obtained, recommended methods for factor extraction might be used by determining the most convenient real data. There is a calculation for determining number of replication by using value of standard deviation of estimated parameters and standard error of the mean. However, if low level of standard deviation of estimated parameters is required, number of replication gets higher. In this research, the effect of replication number on average factor loadings that is obtained from generated data sets is examined. For this purpose, Monte Carlo simulation study was conducted. As simulation factor, sample size (250, 500, 1000 and 3000), average factor loadings (.3, .5 and .7) and number of item (20, 30 and 40) were determined. Thus, analyses were conducted over the condition 4x3x3=36. Numbers of replication were determined as 1, 5, 10, 25, 50, 100, 250, 500 and 1000. Thus, data set which respectively comprises of 36, 180, 360, 900, 1800, 3600, 9000, 18000 and 36000 was analyzed. In this study, data were produced as binary structure (1-0). Data set which are produced within the scope of the research were analyzed with exploratory factor analysis (EFA) by using tetrachoric correlation matrix. Minimum residual method (Minres) was used as factor extraction method in EFA. Based on EFA, average factor loadings were calculated for each data set and compared with factor loading which was predicted at the condition of simulation. Values of average factor loading were compared with factor loading which was predicted at the condition of simulation. Therefore, mean values of average factor loadings were calculated for data sets which were produced according to each condition. In the research, psych packet in “R” is used for data production and analysis. Seed value for each replication was produced and saved, and then these values were used for data production. For instance, the same seed value was used for all situations which have 25 as a number of replication. Research findings showed that when average factor loading was examined, compare to simulation situations which have 1 as number of replication (situation which 1 data set was produced), average factor loading differed between -0.010 and 0.032 by comparison to expected value. It was observed that values varied: if the number of the replication is 5, values are between -0.021 and 0.008; if the number of the replication is 10, values are between -0.007 and 0.021; if the number of the replication is 25 values are between -0.012 and 0.011; if the number of the replication is 50 , values are between -0.005 and 0.007; if the number of the replication is 100, values are between -0.003 and 0.006; if the number of the replication is 250 , values are between -0.002 and 0.007; if the number of the replication is 500, values are between -0.003 and 0.006 ; if the number of the replication is 1000 , values are between -0.002 and 0.004. Based on these results it was observed that if numbers of replication are 1, 5, 10 and 25 average factor loading vary between -0.021 and 0.032 by comparison to expected value. Thus, it can be said that there is some changes in these numbers of replication at second digit after comma. However, if the number of replication is greater than or equal to 50, there are some changes at third digit after comma. These estimations varied between -0.005 and 0.007. Based on the research findings, conducting at least 50 replications is suggested in simulation studies, oriented to EFA. It might be said that factor loading which is greater than or equal to 50 replication become more stable. The value of recovery is 0.003 between 50 replications and 1000 replications. In other words, by virtue of 1000 replications were conducted, 0.003 closer estimations can be done to average factor loading. The consumed time for choosing number of replication and convenience of estimation should be taken into consideration.
The aim of this study is to compare the methods which are produced for estimating test dimensiona... more The aim of this study is to compare the methods which are produced for estimating test dimensionality in terms of correlation matrix, item number, sample size and mean factor loading. Binary (1-0) and unidimensional simulated data were used in this study. The replication number was determined as 20 for each condition. Sample size (500, 1000, 3000 and 7000), item number (20, 30 and 40), mean factor loading (0,50 and 0,70) and correlation matrix (Pearson and tetracoric) were designated as preconditions for simulation. Dimensionality methods of parallel analysis, MAP analysis, CNG index, Bartlet, Anderson and Lawley coefficients, DIMTEST and DETECT methods were compared with each other. Data was produced through Psych package of the R program and analyzed with Pscyh and nFactor packages. However, MAP test was done with the use of Factor 10.4. According to the findings, MAP test was the one which has yielded 100% correct result under all conditions. When a paralel analysis was carried out with tetracoric correlation matrix, 500-people-sample showed 75% correct result in the tests with 20, 30 and 40 items with an average factor loading of 0,5. A paralel analysis has given 75% correct result with a data set of 20 items with an average factor load of 0,8. Three dimensions were identified in CNG coefficient under all conditions and it has yielded 0% accuracy. It has been observed that Bartlet and Anderson indexes have had an average accuracy of 25% and Lawley index has had an average accuracy of 19% under all conditions. DIMTEST has yielded a mean accuracy of 12% while DETECT has shown 0,19%. Since the DETECT value is around 0,1, the data set is thought to be as a unidimensional one. Thus, when the value is analysed accordingly, it has been observed that it has 45% accuracy and it has the tendency to be accurate as the size of the sample increases. According to the findings of the study, it is suggested that MAP test can be used primarily to designate the dimensionality of data and than the results of the paralel analysis could be relied on. Considering the conditions utilized in this research, the authors do not recommend the use of DIMTEST, Bartlet, Anderson, Lawley and CNG coefficients.
In the case of multiple test applications, the equation of the grades students get from different... more In the case of multiple test applications, the equation of the grades students get from different test types is highly significant. Thus, test equating is applied usually during which anchor items are used. However, there are certain problems in that students might remember the anchor items, tests might not include anchor items and/or anchor items are not used in the practice tests. In this case, alternative techniques are required in order to achieve reliable test equating. One of these methods is common subject equating. Nevertheless, the literature does not include much research on the efficiency of common subject equating under various conditions such as test lenght, sample size, ability distribution, item types, ability estimation method and Item Response Theory models. In this sense, this study aims at comparing the common subject equating methods in terms of sample size, test lenght and ability distribution. The study was carried out on simulated data. Simulation conditions were identified so that the sample size (250 and 1000), test lenght (20 and 40) and ability distribution is similar and different. Sample size was depicted so that all subjects were common and/or %20 of the subjects were common. Data was generated using WINGEN, ability parameters were estimated through PARSCALE and test equating was conducted using MS EXCEL. The simulation conditions study of the research is in progress and the findings will be released in the future.
Problem Durumu Bir ölçme aracının geçerliği, test puanlarına dayanarak yapılan çıkarımların deste... more Problem Durumu Bir ölçme aracının geçerliği, test puanlarına dayanarak yapılan çıkarımların desteklenmesi amacıyla kanıtların toplanması sürecidir (Cronbach, 1984). APA, AERA ve NCME (1954) tarafından yapılan genel kabul görmüş sınıflandırmada geçerlik kanıtları içerik, yapı ve ölçüt temellidir. İçerik geçerliği, maddelerin konu ve davranış alanın bir örneklemi olması ile ilgilidir (Cronbach ve Meehl, 1955). İçerik geçerliği için kanıt sunmak amacıyla genellikle uzman görüşlerine başvurulur. Ölçüt geçerliği testin ölçmek isteneni ölçüyor olması ile ilgilidir (Cureton, 1951). Ölçüt temelli kanıtlar elde etmek amacıyla ölçeğin aynı yapıyı veya alt yapıları ölçen geçerliği ve güvenirliği kanıtlanmış alan yazında yer alan diğer ölçeklerle uyum derecesine bakılır. Yapı geçerliği ise test puanlarının ölçülmek istenen yapıyı sadece bu yapının göstergeleri ile ölçüp ölçemediğini gösterir (Kline, 2016). Başka bir ifadeyle, yapı geçerliği, geliştirilen test veya ölçekle ölçülmek istenen yapının ölçülme derecesine karşılık gelir. Cronbach ve Meehl (1955), yapı geçerliğine ilişkin kanıtlar elde etmek amacıyla grup farklılıkları, korelasyon matrisleri ve faktör analizi, iç yapı çalışmaları, şartlarının değişiminin incelendiği çalışmalar ve süreç çalışmaları yöntemlerinin kullanılabileceğini ifade etmiştir. Uygulamalı araştırmalarda, faktör analizi testlerin psikometrik değerlendirmesinde en yaygın kullanılan yöntemdir (Brown, 2015). Temelleri 1900'lı yıllarda atılan (örn. Spearman, 1904) faktör analizinde açımlayıcı ve doğrulayıcı olmak üzere iki teknik kullanılmaktadır. Faktör analizi teknikleri için önemli varsayımlar veri tipi ve kalitesinin uygun olması, değişkenlerin dağılımının bilinmesi ve yeterli örneklem büyüklüğüne ulaşılmasıdır (Floyd ve Widaman, 1995). Açımlayıcı analizde, araştırmacılar en uygun faktör sayını belirlemek ve ölçülen değişkenlerin (maddelerin) çeşitli gizil boyutun makul göstergeleri olup olmadığını ortaya çıkarmayı amaçlar (Brown, 2015). Doğrulayıcı faktör analizi (Jöreskog, 1969, 1971) ise hipotetik bir faktör yapısının, ölçülen değişkenlerin gözlenen kovaryans yapısına uygunluğunu test eder (Floyd ve Widaman, 1995). Açımlayıcı ve doğrulayıcı faktör analizleri benzer bazı varsayımlar gerektirmenin yanında kendilerine özgü süreçler içerirler. Bu süreçlerin gerçekleştirilme durumu ve derecesinin bilinmesi belirli bir örneklem için elde edilen ölçek faktör yapılarını karşılaştırılmalı olarak değerlendirme imkanı sağlayacaktır. Bu çalışmada, Türkiye'de 2006-2016 yılları arasında yayınlanan ölçek geliştirme çalışmalarının açımlayıcı ve doğrulayıcı faktör analizleri süreçleri açısından incelemeyi amaçlamaktadır. Bu kapsamda aşağıdaki araştırma problemlerine yanıt aranmaktadır.
Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikl... more Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikle doğrudan gözlenemeyen teorik kavramlar üzerinde çalışırlar. Bu kavramlar psikolojide motivasyon, kaygı olabileceği gibi eğitimde sayısal yetenek olabilir. Bahsedilen teorik kavramları test etmek ve ölçmek için araştırmacılar yapısal eşitlik modellerinden faydalanırlar (Byrne, 2010; Raykov ve Marcoulides, 2006). Yapısal eşitlik modellerinin bir türü doğrulayıcı faktör analizidir. Doğrulayıcı faktör analizi doğrudan gözlenemeyen kavramları yani incelenen yapıyı (faktör), gösterge değişkenlerin yani maddelerin ne kadar iyi ölçebildiğini belirlemektir (Hair, Black, Babin ve Anderson, 2014; Kline, 2011). Bahsedilen maddeler incelenen yapıyı belirlemeyi sağlayacak özelliklere ve davranışlara ilişkin ifadelerdir (Raykov ve Marcoulides, 2006). Faktör analizi yöntemleri gözlenen değişkenlerden az sayıdaki faktörü paylaşılan varyans-kovaryansa dayalı olarak oluşturur (Schumacker ve Lomax, 2010). Doğrulayıcı faktör analizi ise önceden belirlenen faktör ya da faktörlerin sürdürülebilirliğini test etmeyi sağlar ve yapı geçerliğine ilişkin kanıt oluşturur (Maruyama, 1998). Yani faktör yapısı önceden belli olduğu gibi hangi gösterge değişkenin hangi faktörle ilişkili olduğu da bellidir (Schumacker ve Lomax, 2010). Böylece ölçme modeli doğrulayıcı faktör analiziyle test edilerek faktör yükleri, faktör varyans ve kovaryansları, göstergelere ilişkin hata varyansları vb. ile ilgili parametreler elde edilir (Brown ve Moore, 2012). Doğrulayıcı faktör analizi gerçekleştirilirken kullanılan bir takım yöntemler bulunmaktadır. Bunlar; Pearson korelasyon matrisine dayalı olarak BAYES, en çok olabilirlik (ML), standart hatalarının ve ortalamaların düzeltildiği en çok olabilirlik yöntemi (MLM), güçlü en çok olabilirlik yöntemi (MLR), standart hatalarının, ortalamaların ve varyansların düzeltildiği en çok olabilirlik yöntemi (MLMV), standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSMV) yöntemi ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, birinci mertebeden türevler yardımıyla kestirilen en çok olabilirlik yöntemi (MLF), MLR, standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmamış en küçük kareler (ULSMV), ağırlıklandırılmış en küçük kareler (WLS), standart hatalarının ve ortalamaların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSM) ve WLSMV yöntemleridir. 1-0 verileri üzerinde doğrulayıcı faktör analizi gerçekleştirilirken kullanılan kestirim yöntemleri, üzerinde çok fazla araştırma gerçekleştirilmeyen bir konudur. Araştırmacılar kullandıkları ölçekler üzerinde doğrulayıcı faktör analizi yaparken bazı durumları gözden kaçırabilmektedir. Bunların başında uygun korelasyon matrisinin kullanımı gelmektedir. Bunun yanında kestirim yöntemi olarak alanyazında sıklıkla kullanılan belirli yöntemlerin (ML) tercih edilmesi ile karşılaşılmaktadır. Araştırmalarda yanlış korelasyon matrisi kullanımı ve yanlış yöntemin kullanılması nedeniyle kestirimlerin daha fazla hata ile sonuçlanacağı ve yanlış faktör yükleri elde edileceğinden hareketle bu araştırmanın yapılmasına ihtiyaç duyulmuştur. Buradan hareketle araştırmada yanıt aranacak sorular şu şekildedir: 1) Tetrakorik korelasyon matrisi ve Pearson korelasyon matrisi ile gerçekleştirilecek doğrulayıcı faktör analizi sonuçları farklılık göstermekte midir? 2) Pearson ve tetrakorik korelasyon matrisleri kullanılarak gerçekleştirilen doğrulayıcı faktör analizi sonuçlarına göre en az hata ve en doğru faktör yükü kestirimi hangi yöntemle elde edilmektedir? 3) Örneklem büyüklüğü farklılaştıkça faktör yükü kestirimleri ve hata miktarları değişmekte midir? 4) Monte Carlo simülasyon çalışması sonuçları gerçek veri ile örtüşmekte midir?
Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellik... more Problem Durumu
Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikle doğrudan gözlenemeyen teorik kavramlar üzerinde çalışırlar. Bu kavramlar psikolojide motivasyon, kaygı olabileceği gibi eğitimde sayısal yetenek olabilir. Bahsedilen teorik kavramları test etmek ve ölçmek için araştırmacılar yapısal eşitlik modellerinden faydalanırlar (Byrne, 2010; Raykov ve Marcoulides, 2006). Yapısal eşitlik modellerinin bir türü doğrulayıcı faktör analizidir. Doğrulayıcı faktör analizi doğrudan gözlenemeyen kavramları yani incelenen yapıyı (faktör), gösterge değişkenlerin yani maddelerin ne kadar iyi ölçebildiğini belirlemektir (Hair, Black, Babin ve Anderson, 2014; Kline, 2011). Bahsedilen maddeler incelenen yapıyı belirlemeyi sağlayacak özelliklere ve davranışlara ilişkin ifadelerdir (Raykov ve Marcoulides, 2006). Faktör analizi yöntemleri gözlenen değişkenlerden az sayıdaki faktörü paylaşılan varyans-kovaryansa dayalı olarak oluşturur (Schumacker ve Lomax, 2010). Doğrulayıcı faktör analizi ise önceden belirlenen faktör ya da faktörlerin sürdürülebilirliğini test etmeyi sağlar ve yapı geçerliğine ilişkin kanıt oluşturur (Maruyama, 1998). Yani faktör yapısı önceden belli olduğu gibi hangi gösterge değişkenin hangi faktörle ilişkili olduğu da bellidir (Schumacker ve Lomax, 2010). Böylece ölçme modeli doğrulayıcı faktör analiziyle test edilerek faktör yükleri, faktör varyans ve kovaryansları, göstergelere ilişkin hata varyansları vb. ile ilgili parametreler elde edilir (Brown ve Moore, 2012). Doğrulayıcı faktör analizi gerçekleştirilirken kullanılan bir takım yöntemler bulunmaktadır. Bunlar; Pearson korelasyon matrisine dayalı olarak BAYES, en çok olabilirlik (ML), standart hatalarının ve ortalamaların düzeltildiği en çok olabilirlik yöntemi (MLM), güçlü en çok olabilirlik yöntemi (MLR), standart hatalarının, ortalamaların ve varyansların düzeltildiği en çok olabilirlik yöntemi (MLMV), standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSMV) yöntemi ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, birinci mertebeden türevler yardımıyla kestirilen en çok olabilirlik yöntemi (MLF), MLR, standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmamış en küçük kareler (ULSMV), ağırlıklandırılmış en küçük kareler (WLS), standart hatalarının ve ortalamaların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSM) ve WLSMV yöntemleridir. 1-0 verileri üzerinde doğrulayıcı faktör analizi gerçekleştirilirken kullanılan kestirim yöntemleri, üzerinde çok fazla araştırma gerçekleştirilmeyen bir konudur. Araştırmacılar kullandıkları ölçekler üzerinde doğrulayıcı faktör analizi yaparken bazı durumları gözden kaçırabilmektedir. Bunların başında uygun korelasyon matrisinin kullanımı gelmektedir. Bunun yanında kestirim yöntemi olarak alanyazında sıklıkla kullanılan belirli yöntemlerin (ML) tercih edilmesi ile karşılaşılmaktadır. Araştırmalarda yanlış korelasyon matrisi kullanımı ve yanlış yöntemin kullanılması nedeniyle kestirimlerin daha fazla hata ile sonuçlanacağı ve yanlış faktör yükleri elde edileceğinden hareketle bu araştırmanın yapılmasına ihtiyaç duyulmuştur. Buradan hareketle araştırmada yanıt aranacak sorular şu şekildedir: 1) Tetrakorik korelasyon matrisi ve Pearson korelasyon matrisi ile gerçekleştirilecek doğrulayıcı faktör analizi sonuçları farklılık göstermekte midir? 2) Pearson ve tetrakorik korelasyon matrisleri kullanılarak gerçekleştirilen doğrulayıcı faktör analizi sonuçlarına göre en az hata ve en doğru faktör yükü kestirimi hangi yöntemle elde edilmektedir? 3) Örneklem büyüklüğü farklılaştıkça faktör yükü kestirimleri ve hata miktarları değişmekte midir? 4) Monte Carlo simülasyon çalışması sonuçları gerçek veri ile örtüşmekte midir?
Araştırma Yöntemi
Araştırma 1-0 verileri üzerinde gerçekleştirilen doğrulayıcı faktör analizi çalışmalarında örneklem büyüklüğüne bağlı olarak hangi korelasyon matrisi ve kestirim yönteminin daha az hatayla kestirim yaptığını belirlemeyi amaçlamakta olup kuramsal birikime katkıda bulunmayı hedeflemektedir. Bu yönüyle temel araştırma niteliğindedir. Temel araştırmalarla ilgilenen araştırmacılar özel olarak eğitim uygulamalarının sonuçlarıyla ilgilenmezler. Bunun yerine bir kuramın süreçlerini geliştirir yada incelerler (Fraenkel, Wallen, & Huyn, 2012; Gay, Mills, & Airasian, 2012). Araştırma, Monte Carlo simülasyon çalışması ve gerçek veriye dayalı olarak gerçekleştirilmiştir. Araştırmada kullanılan gerçek veri, 2013-2014 öğretim yılı II. döneminde uygulanan Temel Eğitimden Ortaöğretime Geçiş Sınavı (TEOG) Türkçe alt testinden elde edilmiştir. Monte Carlo simülasyon çalışmasında ise TEOG sınavına ait parametreler kullanılarak çeşitli örneklem büyüklüklerinde veriler üretilmiştir. Simülasyon çalışmasında 20 maddeden oluşan tek boyutlu, ortalama faktör yükü .70 olan testler elde edilmiştir. Bahsedilen testlerin çarpıklığı ortalama -1, basıklığı ise ortalama 0 olarak belirlenmiştir. Simülasyon faktörü olarak örneklem büyüklüğü seçilmiştir. Bu yönde 250, 500, 1000, 2500, 5000, 10000 örneklem ve 20 madde için 1-0 veri matrisi oluşturulmuştur. Veri üretimi R programında Psych paketi kullanılarak gerçekleştirilmiştir (Revelle, 2016). Sonuçların genellenebilirliği artırmak amacıyla her bir koşul için 20 tekrar yapılmıştır. Gerçek veri ile simülatif verinin karşılaştırılabilmesi için gerçek veri üzerinden rassal örneklem seçimine gidilmiştir. Verilerin analizinde MPLUS programıyla Pearson korelasyon matrisine dayalı olarak BAYES, ML, MLM, MLR, MLMV, WLSMV yöntemleri ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, MLF, MLR, ULSMV, WLS, WLSM, WLSMV yöntemleri ile doğrulayıcı faktör analizleri gerçekleştirilmiştir. Elde edilen kestirimlerin standart hata ve faktör yükü ortalamaları karşılaştırılarak sonuçlar yorumlanmıştır. Beklenen/Geçici Sonuçlar 1-0 veri yapısına uygun olmayan Pearson korelasyon matrisi kullanıldığında farklı yöntemler ve örneklem büyüklüklerinde faktör yükü kestirimleri ortalama .50 civarındadır ve ortalama faktör yükü olarak belirlenen .70’den oldukça uzaktır. Tetrakorik korelasyon matrisi kullanıldığında ise farklı yöntemler ve örneklem büyüklükleri için elde edilen faktör yükü kestirim ortalamaları .70 civarındadır. Standart hatalar incelendiğinde ise Pearson korelasyon matrisi kullanıldığı durumlarda elde edilen hataların tetrakorik korelasyon matrisinin kullanıldığı durumlarda elde edilen hatalara yakın olduğu ve hatta Pearson korelasyon matrisi kullanıldığında bazı yöntemlerce daha az hatayla kestirim yapıldığı görülmektedir. Genel olarak faktör yükleri ve standart hatalar dikkate alındığında tetrakorik korelasyona dayalı kestirim yöntemlerinin kullanılması gerektiği belirtilebilir. Tetrakorik korelasyon matrisine dayalı sonuçlar değerlendirildiğinde örneklem büyüklüğü arttıkça hataların azaldığı belirtilebilir. Özellikle 250 ve 500 örneklem büyüklüğünde hatalar biraz daha yüksek bulunmuştur. Standartlaştırılmış faktör yükleri incelendiğinde WLSMV, WLSM, WLS, BAYES yöntemlerinde .70’e en yakın kestirim 5000 ve 10000 örneklemde elde edilmiştir. MLR, MLF ve ML yöntemleri .70’e en yakın kestirimi 1000 örneklem büyüklüğünde elde etmiştir. En düşük standart hata ve .70’e en yakın faktör yükü ortalaması 10000 örnelem büyüklüğünde ULSMV yöntemi aracılığıyla elde edilmiştir. Genel olarak tetrakorik korelasyona dayalı yöntemler birbirine yakın sonuçlar elde etmiştir fakat WLSMV, WLSM, WLS yöntemleri daha az hata ortaya çıkardığı için tercih edilebilir.
The aim of this study was to investigate the effect of item weighting on the construct validity. ... more The aim of this study was to investigate the effect of item weighting on the construct validity. For this purpose, data of 9773 students who took Turkish subtest in Transition from Primary to Secondary Education Exam (TPSE) applied in 2013-2014 education year second term were used. First, the data set was divided randomly into 250, 500, 1000, 2500, 5000 and 5000 sample sizes. In the processes of weighting for each individual's response pattern, the item reliability index was added to individual response if the sum of the individual's averages and the item's difficulty index was 1 and over.
As a result of the research, it was observed that the item weighting method used in research had a positive effect for different sample sizes on construct validity for the tests scored dichotomous and the five point Likert scales. As a result of simulation study, it was observed that the method had a positive impact on unidimensional tests scored dichotomous. The explained variance increased in the range of between 5.05% 6.10%. 5 point Likert scale’s explained variance increased 4.19%. The item weighting method was applied the simulation study increased explained variance by 9.1%. In order to improve construct validity, it is advisable to use the item weighting method according to these results.
No: 1043-Abstract Presentation Type: Oral Presentation Aim The aim of this study was to examine t... more No: 1043-Abstract Presentation Type: Oral Presentation Aim The aim of this study was to examine the use of exploratory factor analysis (EFA) and confirmatory factor analysis (CFA) in the process of searching evidence for the construct validity of the scale adaptation studies in the journals indexed in the database of TÜBİTAK Journal Park between 2006-2016. Method Document review, a qualitative research method, has been applied in order to examine adaptation studies. For this purpose, 170 scale adaptation studies published in the journals indexed in the Journal Park Database between 2006-2016 were examined. Studies were examined in terms of controlling assumptions, sample size, explained variance ratio, factor extraction method, scree plot, factor loadings, rotation method, number of factors and factor naming for EFA; controlling assumptions, sample size, whether DFA is performed in the same sample of EFA, estimation method, path diagram, t-value, factor loadings and fit indices for CFA. Findings and Results When studies are examined according to years, 1.76% of the studies were carried out in 2006 (min) and 30% in 2015 (max). It was observed that 8.82% of studies was not conducted both EFA and CFA. Item analysis or predictive validation studies was conducted in that studies. Only EFA was performed in 23.52% of the studies, only CFA in 30%, and both EFA and CFA in 37.64%. While 68.75% of EFA and CFA studies were used the same samples and 31.25% were used different. The average sample size was 410,71 in 104 studies performing EFA. The average sample size was 396,30 in 115 studies performing CFA. It can be said that 69.34% of the studies performing EFA were used principal component analysis, 1.92% for principal axis factoring and 4.80% for maximum likelihood method. 26.92% of the studies did not give any information about the factor extraction method. Varimax rotation method was used in 54.80% of the studies. It was also observed that Promax (1.92%) and oblique (14.42%) rotation methods were used. In 13.46% of the studies conducting EFA, any rotation method was not used and in 15.38% of them, the information about the rotation method was not given. Of the studies that performed EFA, 24.04% had 1, 19.23% had 2, 18.27% had 3, 14.42% had 4 and 5, 3.85% had 6 and 7, 1.92% had 9 factors. In 79.81% of the studies, factors were named. In 98.07% of studies, explained variance rate was reported and mean explained variance rate was 52.54%. In addition, explained variance rate when analyzed by factor number, it was observed that mean explained variance rate was 46.99% for 1 factor, 51.04% for 2 factors and 51.95% for 3 factors. The mean explained variance rate was 61.45% for 9 factorial structure. When examining 115 DFA studies, it was observed that in 90.43% of the them, DFA assumptions were not controlled or not reported, and in 9.56%, the assumptions were controlled. As the estimation method, the maximum likelihood method was used in 9.57% and the robust maximum likelihood method was used in 1.74%. Estimation method was not reported in 88.70% of the studies. Path diagram, t-values, and factor loadings were reported 79.13%, 27.83% and 83.43% of the studies, respectively. Factor Abstract Book
Participatory Educational Research, 2022
The aim of the study was to examine the common items in the mixed format (e.g., multiple-choices ... more The aim of the study was to examine the common items in the mixed format (e.g., multiple-choices and essay items) contain parameter drifts in the test equating processes performed with the common item non-equivalent groups design. In this study, which was carried out using Monte Carlo simulation with a fully crossed design, the factors of test length (30 and 50), sample size (1000 and 3000), common item ratio (30 and 40%), ratio of items with item parameter drift (IPD) in common items (20 and 30%), location of common items in tests (at the beginning, randomly distributed, and at the end) and IPD size in multiple-choice items (low [0.2] and high [1.0]) were studied. Four test forms were created, and two test forms do not contain parameter drifts. After the parameter drift was performed on the first of the other two test forms, the parameter drift was again performed on the second test form. Test equating results were compared using the root mean squared error (RMSE) value. As a result of the research, ratio of items with IPD in common items, IPD size in multiple-choice items, common item ratio, sample size and test length on equating errors were found to be significant.
In this study, the purpose is to compare factor retention methods under simulation conditions. Fo... more In this study, the purpose is to compare factor retention methods under simulation conditions. For this purpose, simulations conditions with a number of factors (1, 2 [simple]), sample sizes (250, 1.000, and 3.000), number of items (20, 30), average factor loading (0.50, 0.70), and correlation matrix (Pearson Product Moment [PPM] and Tetrachoric) were investigated. For each condition, 1.000 replications were conducted. Under the scope of this research, performances of the Parallel Analysis, Minimum Average Partial, DETECT, Optimal Coordinate, and Acceleration Factor methods were compared by means of the percentage of correct estimates, and mean difference values. The results of this study indicated that MAP analysis, as applied to both tetrachoric and PPM correlation matrices, demonstrated the best performance. PA showed a good performance with the PPM correlation matrix, however, in smaller samples, the performance of the tetrachoric correlation matrix decreased. The Acceleration Factor method proposed one factor for all simulation conditions. For unidimensional constructs, the DETECT method was affected by both the sample size and average factor loading.
Özet Bu araştırmanın amacı Çakır (2006) tarafından dördüncü sınıf matematik ders kitabının öğretm... more Özet Bu araştırmanın amacı Çakır (2006) tarafından dördüncü sınıf matematik ders kitabının öğretmen görüşlerine göre değerlendirilmesi amacıyla geliştirilen anketin lise öğretmenleri üzerinde uyarlama çalışmasını yürütmek ve anketin ölçek olma özelliğiyle ilgili kanıt aramaktır. Bu amaçla genel tarama modeli kullanılmıştır. Araştırmanın evrenini Anadolu, fen, sosyal bilimler, güzel sanatlar ve spor liselerinde çalışmakta olan matematik, fizik, kimya ve biyoloji öğretmenleri oluşturmaktadır. Örneklem ise tabakalı ve küme örnekleme yöntemleriyle seçilmiş 3700 öğretmenden oluşmuştur. 2014 yılının haziran ayında internet ortamında veriler toplanmış ve katılımda gönüllülük esas alınmıştır. Ortaöğretim düzeyinde kullanılan ders kitaplarında olmayan bazı özelliklerle ilgili maddeler anketten çıkarılmıştır. Araştırmada anket için yapı geçerliği, çapraz geçerlik, sınıflama-sıralama geçerliğine yönelik kanıtlar aranmış, güvenirlik analizi ve madde analizleri yapılmıştır. Araştırma sonucunda anketin 4 faktörlü bir yapıda olduğu gözlenmiştir. Geçerlik ve güvenirlik kanıtları ise anketin ortaöğretim ders kitaplarının öğretmen görüşlerine göre değerlendirilmesinde kullanılabilecek geçerli ve güvenilir sonuçlar veren bir araç olduğu göstermiştir. Tüm sonuçlar birlikte ele alındığında uyarlanan anketin bir ölçek yapısına sahip olduğu değerlendirilmiştir. Ders kitaplarının bütünsel bir şekilde değerlendirilmesini sağlamak amacıyla kullanılacak bu ölçeğin, geçerli ve güvenilir sonuçlar üretebileceği sonucuna varılmıştır.
No: 471 -Abstract Presentation Type: Oral Presentation
Öz Bu çalışmanın amacı 2013-2014 eğitim öğretim yılında uygulanan TEOG ortak ve mazeret sınavında... more Öz Bu çalışmanın amacı 2013-2014 eğitim öğretim yılında uygulanan TEOG ortak ve mazeret sınavındaki Türkçe ve matematik alt testlerinin psikometrik özelliklerini karşılaştırmaktır. Türkçe ve matematik testlerinin ortak ve mazeret sınavları madde güçlüğü, madde ayırıcılık indeksleri, testlerin güvenirliği ve geçerliği gibi psikometrik özellikler çevresinde karşılaştırmalı olarak incelenmiştir. Araştırma Türkçe ortak sınavı için 9773, matematik ortak sınavı için 9485, Türkçe mazeret sınavı için 2747 ve matematik mazeret sınavı için 2323 öğrencinin madde puanları üzerinden yürütülmüştür. Kapsam geçerliği çalışması için uzman görüşlerine başvurulmuştur. Bunun için araştırmacılar tarafından TEOG ortak ve mazeret sınavlarındaki soruların ölçtüğü kazanımları belirlemek ve karşılaştırmak amacıyla soru ve kazanım eşleştirme formu ile soru değerlendirme formu oluşturulmuştur. Araştırma sonucunda hem matematik hem de Türkçe ortak ve mazeret sınavlarının test ve madde istatistiklerinin manidar düzeyde farklı olduğu gözlenmiştir. Uzman görüşlerine dayalı olarak değerlendirilen Türkçe ve matematik testlerinin kapsamının ortak ve mazeret sınavları için benzer olduğu görülmüştür. Matematik testi ortak ve mazeret sınavlarındaki maddelerin aynı yapıyı ölçmediği fakat Türkçe testi ortak ve mazeret sınavlarındaki maddelerin benzer yapıyı ölçtüğü sonucuna ulaşılmıştır. Anahtar Kelimeler: TEOG, geçerlik, güvenirlik, faktör analizi, test ve madde istatistikleri Abstract The aim of this study is to compare the psychometric properties of Turkish and math subtests in common and make-up examination of TEOG applied in 2013-2014 school year. Turkish and math tests of the common and make-up examinations were investigated comparatively within the frame of psychometric properties such as item difficulty, item discrimination index, test reliability and validity. Research was carried out via item scores matrix of 9773 students for Turkish common exam, 9485 students for math common exam, 2747 students for Turkish make-up exam and 2323 students for math make-up exam. It was consulted to expert opinion for the content validity study. According to this, in order to determine and compare the acquisitions that is measured in common and make-up examinations of TEOG, question-acquisition matching form and question assessment form was prepared by researcher. As a result of research, it has been observed that Turkish and math subtests test and item statistics are different in significantly. Content validity which based on expert opinions is in similar level for Turkish and math subtests. The results of the study revealed that math tests of the common and make-up exams items didn't measure the same things in terms of construct validity. Unlike math, Turkish tests of the common and make-up exams items measure the same things in terms of construct validity.
This study aimed at determining the impact of demographic factors on the Internet usage purposes ... more This study aimed at determining the impact of demographic factors on the Internet usage purposes of high school students. The population of the study consisted of students between 9th and 12th grades from the Anatolian high schools, science high schools, social sciences high schools, sports high schools and fine arts high schools in Turkey. The sample was chosen through the stratified and cluster sampling procedure. The students were chosen randomly depending on the regions of their school attendance. The sample for this research numbered 3170 students. The research was conducted in the second term of the 2014-2015 academic year. The data were obtained through online forms and the bases of participation are honesty, sincerity, and volunteerism. The data collection tool is a questionnaire and a demographic information form prepared by the researchers. Chi-square Automatic Interaction Detector (CHAID) analysis was conducted through SPSS in order to determine the demographic factors affecting the purposes of internet usage among high school students. The results of this research show that 9th grade students in Turkey mostly use the Internet to do homework while students from other grades mostly use the Internet for social networking. The male students use the Internet for playing video games more frequently in comparison with female students. Also, socioeconomic status affects the purpose of Internet usage. Hence it is suggested that teachers talking to male students might use the examples of computers and games and with female students they might relate the topics to social media.
Bu araştırmanın amacı Madde Tepki Kuramı’na (MTK) dayalı olarak gerçekleştirilen simülasyon çalış... more Bu araştırmanın amacı Madde Tepki Kuramı’na (MTK) dayalı olarak gerçekleştirilen simülasyon çalışmalarının farklı paket ve programlardan elde edilen sonuçlarının geçerlik ve güvenirlik açısından incelenmesidir. Bu amaçla R program paketlerinden mirt, psych, irtoys ve catIrt paketleri ve MTK’ya dayalı olarak gerçekleştirilen simülasyon çalışmalarında sıklıkla kullanılan WinGen programından elde edilen veri setleri KR20 güvenirlik katsayısı ve açımlayıcı faktör analiz (AFA) sonucunda elde edilen açıklanan varyans oranı, ortalama faktör yükü ve very setlerinin boyutluluğu açısından karşılaştırılmıştır. Araştırma Monte Carlo simülasyon çalışması olarak yürütülmüştür. Araştırmada simülasyon koşulları; madde sayısı (20, 30 ve 40), kullanılan MTK modeli (Rasch, 2 parametreli lojistik model [2PLM] ve 3 parametreli lojistik model [3PLM]), veri üretme programı (WinGen 3.1 ile R paketlerinden irtoys, mirt, psych ve catIrt) ve örneklem büyüklüğü (500, 1000 ve 2000) şeklinde belirlenmiş olup toplam 135 simülasyon koşulunda çalışılmış ve her bir koşul için 1000 replikasyon yapılmıştır. Araştırma sonucunda tüm MTK modellerine göre üretilen veri setlerinin genel olarak tek boyutlu olduğu, açıklanan varyans oranının Rasch modeli için 0.30’un altında kaldığı, 2PLM için bir koşul hariç diğer tüm koşullarda programların 0.30’un üzerinde açıklanan varyansa sahip olduğu, 3PLM için açıklanan varyans oranının genellikle 0.30’un altında olduğu, ortalama faktör yüklerinin ise tüm modeller ve programlar için 0.46’nın üzerinde olduğu gözlenmiştir. Güvenirlik katsayılarının tüm koşullar için 0.75-0.93 aralığında olduğu gözlenmiştir. Araştırma bulgularına göre R paketlerinin MTK kapsamında veri üretiminde simülayon koşullarının büyük kısmında açıklanan varyans oranı, ortalama faktör yükü ve güvenirlik katsayısı açısından daha iyi sonuçlar elde ettiği söylenebilir. Bu nedenle MTK’ya dayalı simülasyon çalışmalarında R paketlerinin tercih edilmesi önerilmektedir.
The aim of this study is to investigate the effect of the number of randomly generated correlatio... more The aim of this study is to investigate the effect of the number of randomly generated correlation matrices during the Parallel Analysis (PA), one of the dimension determination methods in exploratory factor analysis (EFA), on the results of the analysis. For this purpose, the Monte Carlo Simulation study was conducted. As simulation factors, the sample size (250, 500, 1000, 3000), number of items (20, 30), number of dimensions (1 and 2 (simple)), average factor loadings (0.4 and 0.8) and the correlation matrix (Pearson and tetrachoric) was determined. In the study, binary data and fully crossed design was used. Different data sets were generated for the sample size (4 conditions), the number of items (2 conditions), the number of dimensions (2 conditions) and average factor loadings (2 conditions). Thus, 32,000 data sets was generated for 4x2x2x2=32 different conditions because of using 1,000 replications. The number of correlation matrices randomly generated in PA was determined as 1, 5, 25, 50, 100, 500 and 1000, and the results were compared. In the research, psych packet in “R” is used for data generation and analysis. Since the achievement tests in the study were taken at the focus point, data was generated binary structure. In the study, two conditions were determined for number of factors as one and two dimensions. Only simple structured data sets were created in two dimensional structures. Therefore, the correlation between the factors is around 0. Proportion of correct estimates (PC) and average bias statistics were used to assess the results of the research. For PC, the actual number of factors compared to the number of factors suggested in the PA results were compared. For average bias, the actual number of factors was subtracted from the recommended number of factors and averaged for 1000 replications. Thus, it was examined how far it was from the actual number of dimensions. Pearson and tetrachoric correlation matrices were created for the 32,000 data sets in the study. PA was conducted using the created correlation matrices. As a result of the study, the correct factor number was proposed for all conditions where the average factor loading is 0.8. Accordingly, it can be said that when the average factor loading increases, the number of randomly generated correlation matrices is not important. In cases where the sample size was 3000 for conditions with an average factor load of 0.4, the smallest PC value was 98.2%. Accordingly, it can be said that the number of correlation matrices randomly generated when the sample size is 3000 is not very important. It has been observed that the type of correlation matrix used for the conditions where the sample sizes are 250, 500 and 1000 is important. It was consistently observed that when PA conducted with the tetrachoric correlation matrix, it had a lower PC than the analysis conducted with the Pearson correlation matrix. Accordingly, in the case where the sample size is 1000 or less, it may be advisable not to use a Psych package in the R program using a tetrachoric correlation matrix. The number of randomly generated correlation matrices is not very effective on the analysis results. When we examine PC value, the biggest difference was obtained 6.3%. This difference was observed the condition which is sample size 250, number of items 30, number of dimensions 2 and average factor loading 0.4. The difference was observed the number of randomly generated correlation matrices 1 (64.8%) and 1000 (71.1%). When the average bias values were examined, it was observed that it is 0 for all conditions when average factor loading was 0.8. For the all conditions with a sample size of 3000, the average bias value was 0 when analysis conducted with the Pearson correlation matrices, when analysis conducted with the tetrachoric correlation matrices the average bias value was observed that 0.02 and 0.01 when the conditions which is 30 items, 2 factors and 0.4 mean factor loading. The number of random generated correlation matrix were 1 and 5, average bias value was 0.02. the other number of random generated correlation matrix were 0.01. The average bias value ranges from 0.006 to 6.013 for all conditions in the PA result conducted with the tetrachoric correlation matrix in sample sizes smaller than 1000. Accordingly, it can be said that the number of factor was estimated higher than the actual number of factors for these conditions. The increase in the number of randomly generated correlation matrices did not have a great influence on the PA results. When the number of randomly generated correlation matrices was increased from 1 to 1000 in the condition that the sample size was 250, PC value was observed to increase by about 5%. When the sample size was 500, PC value increases by about 4%. When the sample size was 1000, the increase in the correct estimation ratio was 0.1%. The effect of increasing the number of randomly generated correlation matrices was also decreasing when average factor loading and sample size increased. According to the research findings, it can be said that the number of randomly generated correlation matrices is not very effective on PC and average bias value when PA conducted the psych package in the R program.
Simulation studies are important in order to explore possible outcomes of different methods under... more Simulation studies are important in order to explore possible outcomes of different methods under specific circumstances. Studies might be conducted for non-existent data and the question “what kinds of results would we get if we use this method?” may be answered in simulation studies. Below phases are followed in simulation studies: 1) Determination of research question, 2) Determination of condition, 3) Selecting a research design (crossed or nested), 4) Generating data 5) Estimation of parameters, 6) Comparison of estimated and real parameters, 7) Conducting specific numbers of replications and 8) Evaluation of results by using a proper statistical method. Specific numbers of replications have been conducted for generating data, which has certain features with respect to simulation phases. The reason is the fact that simulations are based on sample theory. Thus by conducting specific number of replication, researchers want to make sure that they produced data that has preferred features. Moreover, replication helps making simulation study stabile. Hence, it is possible to provide data sets that are stable. Although more replications mean more proper and more reliable estimations, when replication is conducted too much, both duration of analysis increases and amount of recovery decreases after a specific number. It has been indicated in some studies that the least number of replication is 25. However, it should be taken into account that there is a strong relationship between number of replication and research question. For instance, methods for factor extraction are compared according to conditions of simulation and also it is searched that which method works better in which situation. When real data is obtained, recommended methods for factor extraction might be used by determining the most convenient real data. There is a calculation for determining number of replication by using value of standard deviation of estimated parameters and standard error of the mean. However, if low level of standard deviation of estimated parameters is required, number of replication gets higher. In this research, the effect of replication number on average factor loadings that is obtained from generated data sets is examined. For this purpose, Monte Carlo simulation study was conducted. As simulation factor, sample size (250, 500, 1000 and 3000), average factor loadings (.3, .5 and .7) and number of item (20, 30 and 40) were determined. Thus, analyses were conducted over the condition 4x3x3=36. Numbers of replication were determined as 1, 5, 10, 25, 50, 100, 250, 500 and 1000. Thus, data set which respectively comprises of 36, 180, 360, 900, 1800, 3600, 9000, 18000 and 36000 was analyzed. In this study, data were produced as binary structure (1-0). Data set which are produced within the scope of the research were analyzed with exploratory factor analysis (EFA) by using tetrachoric correlation matrix. Minimum residual method (Minres) was used as factor extraction method in EFA. Based on EFA, average factor loadings were calculated for each data set and compared with factor loading which was predicted at the condition of simulation. Values of average factor loading were compared with factor loading which was predicted at the condition of simulation. Therefore, mean values of average factor loadings were calculated for data sets which were produced according to each condition. In the research, psych packet in “R” is used for data production and analysis. Seed value for each replication was produced and saved, and then these values were used for data production. For instance, the same seed value was used for all situations which have 25 as a number of replication. Research findings showed that when average factor loading was examined, compare to simulation situations which have 1 as number of replication (situation which 1 data set was produced), average factor loading differed between -0.010 and 0.032 by comparison to expected value. It was observed that values varied: if the number of the replication is 5, values are between -0.021 and 0.008; if the number of the replication is 10, values are between -0.007 and 0.021; if the number of the replication is 25 values are between -0.012 and 0.011; if the number of the replication is 50 , values are between -0.005 and 0.007; if the number of the replication is 100, values are between -0.003 and 0.006; if the number of the replication is 250 , values are between -0.002 and 0.007; if the number of the replication is 500, values are between -0.003 and 0.006 ; if the number of the replication is 1000 , values are between -0.002 and 0.004. Based on these results it was observed that if numbers of replication are 1, 5, 10 and 25 average factor loading vary between -0.021 and 0.032 by comparison to expected value. Thus, it can be said that there is some changes in these numbers of replication at second digit after comma. However, if the number of replication is greater than or equal to 50, there are some changes at third digit after comma. These estimations varied between -0.005 and 0.007. Based on the research findings, conducting at least 50 replications is suggested in simulation studies, oriented to EFA. It might be said that factor loading which is greater than or equal to 50 replication become more stable. The value of recovery is 0.003 between 50 replications and 1000 replications. In other words, by virtue of 1000 replications were conducted, 0.003 closer estimations can be done to average factor loading. The consumed time for choosing number of replication and convenience of estimation should be taken into consideration.
The aim of this study is to compare the methods which are produced for estimating test dimensiona... more The aim of this study is to compare the methods which are produced for estimating test dimensionality in terms of correlation matrix, item number, sample size and mean factor loading. Binary (1-0) and unidimensional simulated data were used in this study. The replication number was determined as 20 for each condition. Sample size (500, 1000, 3000 and 7000), item number (20, 30 and 40), mean factor loading (0,50 and 0,70) and correlation matrix (Pearson and tetracoric) were designated as preconditions for simulation. Dimensionality methods of parallel analysis, MAP analysis, CNG index, Bartlet, Anderson and Lawley coefficients, DIMTEST and DETECT methods were compared with each other. Data was produced through Psych package of the R program and analyzed with Pscyh and nFactor packages. However, MAP test was done with the use of Factor 10.4. According to the findings, MAP test was the one which has yielded 100% correct result under all conditions. When a paralel analysis was carried out with tetracoric correlation matrix, 500-people-sample showed 75% correct result in the tests with 20, 30 and 40 items with an average factor loading of 0,5. A paralel analysis has given 75% correct result with a data set of 20 items with an average factor load of 0,8. Three dimensions were identified in CNG coefficient under all conditions and it has yielded 0% accuracy. It has been observed that Bartlet and Anderson indexes have had an average accuracy of 25% and Lawley index has had an average accuracy of 19% under all conditions. DIMTEST has yielded a mean accuracy of 12% while DETECT has shown 0,19%. Since the DETECT value is around 0,1, the data set is thought to be as a unidimensional one. Thus, when the value is analysed accordingly, it has been observed that it has 45% accuracy and it has the tendency to be accurate as the size of the sample increases. According to the findings of the study, it is suggested that MAP test can be used primarily to designate the dimensionality of data and than the results of the paralel analysis could be relied on. Considering the conditions utilized in this research, the authors do not recommend the use of DIMTEST, Bartlet, Anderson, Lawley and CNG coefficients.
In the case of multiple test applications, the equation of the grades students get from different... more In the case of multiple test applications, the equation of the grades students get from different test types is highly significant. Thus, test equating is applied usually during which anchor items are used. However, there are certain problems in that students might remember the anchor items, tests might not include anchor items and/or anchor items are not used in the practice tests. In this case, alternative techniques are required in order to achieve reliable test equating. One of these methods is common subject equating. Nevertheless, the literature does not include much research on the efficiency of common subject equating under various conditions such as test lenght, sample size, ability distribution, item types, ability estimation method and Item Response Theory models. In this sense, this study aims at comparing the common subject equating methods in terms of sample size, test lenght and ability distribution. The study was carried out on simulated data. Simulation conditions were identified so that the sample size (250 and 1000), test lenght (20 and 40) and ability distribution is similar and different. Sample size was depicted so that all subjects were common and/or %20 of the subjects were common. Data was generated using WINGEN, ability parameters were estimated through PARSCALE and test equating was conducted using MS EXCEL. The simulation conditions study of the research is in progress and the findings will be released in the future.
Problem Durumu Bir ölçme aracının geçerliği, test puanlarına dayanarak yapılan çıkarımların deste... more Problem Durumu Bir ölçme aracının geçerliği, test puanlarına dayanarak yapılan çıkarımların desteklenmesi amacıyla kanıtların toplanması sürecidir (Cronbach, 1984). APA, AERA ve NCME (1954) tarafından yapılan genel kabul görmüş sınıflandırmada geçerlik kanıtları içerik, yapı ve ölçüt temellidir. İçerik geçerliği, maddelerin konu ve davranış alanın bir örneklemi olması ile ilgilidir (Cronbach ve Meehl, 1955). İçerik geçerliği için kanıt sunmak amacıyla genellikle uzman görüşlerine başvurulur. Ölçüt geçerliği testin ölçmek isteneni ölçüyor olması ile ilgilidir (Cureton, 1951). Ölçüt temelli kanıtlar elde etmek amacıyla ölçeğin aynı yapıyı veya alt yapıları ölçen geçerliği ve güvenirliği kanıtlanmış alan yazında yer alan diğer ölçeklerle uyum derecesine bakılır. Yapı geçerliği ise test puanlarının ölçülmek istenen yapıyı sadece bu yapının göstergeleri ile ölçüp ölçemediğini gösterir (Kline, 2016). Başka bir ifadeyle, yapı geçerliği, geliştirilen test veya ölçekle ölçülmek istenen yapının ölçülme derecesine karşılık gelir. Cronbach ve Meehl (1955), yapı geçerliğine ilişkin kanıtlar elde etmek amacıyla grup farklılıkları, korelasyon matrisleri ve faktör analizi, iç yapı çalışmaları, şartlarının değişiminin incelendiği çalışmalar ve süreç çalışmaları yöntemlerinin kullanılabileceğini ifade etmiştir. Uygulamalı araştırmalarda, faktör analizi testlerin psikometrik değerlendirmesinde en yaygın kullanılan yöntemdir (Brown, 2015). Temelleri 1900'lı yıllarda atılan (örn. Spearman, 1904) faktör analizinde açımlayıcı ve doğrulayıcı olmak üzere iki teknik kullanılmaktadır. Faktör analizi teknikleri için önemli varsayımlar veri tipi ve kalitesinin uygun olması, değişkenlerin dağılımının bilinmesi ve yeterli örneklem büyüklüğüne ulaşılmasıdır (Floyd ve Widaman, 1995). Açımlayıcı analizde, araştırmacılar en uygun faktör sayını belirlemek ve ölçülen değişkenlerin (maddelerin) çeşitli gizil boyutun makul göstergeleri olup olmadığını ortaya çıkarmayı amaçlar (Brown, 2015). Doğrulayıcı faktör analizi (Jöreskog, 1969, 1971) ise hipotetik bir faktör yapısının, ölçülen değişkenlerin gözlenen kovaryans yapısına uygunluğunu test eder (Floyd ve Widaman, 1995). Açımlayıcı ve doğrulayıcı faktör analizleri benzer bazı varsayımlar gerektirmenin yanında kendilerine özgü süreçler içerirler. Bu süreçlerin gerçekleştirilme durumu ve derecesinin bilinmesi belirli bir örneklem için elde edilen ölçek faktör yapılarını karşılaştırılmalı olarak değerlendirme imkanı sağlayacaktır. Bu çalışmada, Türkiye'de 2006-2016 yılları arasında yayınlanan ölçek geliştirme çalışmalarının açımlayıcı ve doğrulayıcı faktör analizleri süreçleri açısından incelemeyi amaçlamaktadır. Bu kapsamda aşağıdaki araştırma problemlerine yanıt aranmaktadır.
Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikl... more Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikle doğrudan gözlenemeyen teorik kavramlar üzerinde çalışırlar. Bu kavramlar psikolojide motivasyon, kaygı olabileceği gibi eğitimde sayısal yetenek olabilir. Bahsedilen teorik kavramları test etmek ve ölçmek için araştırmacılar yapısal eşitlik modellerinden faydalanırlar (Byrne, 2010; Raykov ve Marcoulides, 2006). Yapısal eşitlik modellerinin bir türü doğrulayıcı faktör analizidir. Doğrulayıcı faktör analizi doğrudan gözlenemeyen kavramları yani incelenen yapıyı (faktör), gösterge değişkenlerin yani maddelerin ne kadar iyi ölçebildiğini belirlemektir (Hair, Black, Babin ve Anderson, 2014; Kline, 2011). Bahsedilen maddeler incelenen yapıyı belirlemeyi sağlayacak özelliklere ve davranışlara ilişkin ifadelerdir (Raykov ve Marcoulides, 2006). Faktör analizi yöntemleri gözlenen değişkenlerden az sayıdaki faktörü paylaşılan varyans-kovaryansa dayalı olarak oluşturur (Schumacker ve Lomax, 2010). Doğrulayıcı faktör analizi ise önceden belirlenen faktör ya da faktörlerin sürdürülebilirliğini test etmeyi sağlar ve yapı geçerliğine ilişkin kanıt oluşturur (Maruyama, 1998). Yani faktör yapısı önceden belli olduğu gibi hangi gösterge değişkenin hangi faktörle ilişkili olduğu da bellidir (Schumacker ve Lomax, 2010). Böylece ölçme modeli doğrulayıcı faktör analiziyle test edilerek faktör yükleri, faktör varyans ve kovaryansları, göstergelere ilişkin hata varyansları vb. ile ilgili parametreler elde edilir (Brown ve Moore, 2012). Doğrulayıcı faktör analizi gerçekleştirilirken kullanılan bir takım yöntemler bulunmaktadır. Bunlar; Pearson korelasyon matrisine dayalı olarak BAYES, en çok olabilirlik (ML), standart hatalarının ve ortalamaların düzeltildiği en çok olabilirlik yöntemi (MLM), güçlü en çok olabilirlik yöntemi (MLR), standart hatalarının, ortalamaların ve varyansların düzeltildiği en çok olabilirlik yöntemi (MLMV), standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSMV) yöntemi ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, birinci mertebeden türevler yardımıyla kestirilen en çok olabilirlik yöntemi (MLF), MLR, standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmamış en küçük kareler (ULSMV), ağırlıklandırılmış en küçük kareler (WLS), standart hatalarının ve ortalamaların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSM) ve WLSMV yöntemleridir. 1-0 verileri üzerinde doğrulayıcı faktör analizi gerçekleştirilirken kullanılan kestirim yöntemleri, üzerinde çok fazla araştırma gerçekleştirilmeyen bir konudur. Araştırmacılar kullandıkları ölçekler üzerinde doğrulayıcı faktör analizi yaparken bazı durumları gözden kaçırabilmektedir. Bunların başında uygun korelasyon matrisinin kullanımı gelmektedir. Bunun yanında kestirim yöntemi olarak alanyazında sıklıkla kullanılan belirli yöntemlerin (ML) tercih edilmesi ile karşılaşılmaktadır. Araştırmalarda yanlış korelasyon matrisi kullanımı ve yanlış yöntemin kullanılması nedeniyle kestirimlerin daha fazla hata ile sonuçlanacağı ve yanlış faktör yükleri elde edileceğinden hareketle bu araştırmanın yapılmasına ihtiyaç duyulmuştur. Buradan hareketle araştırmada yanıt aranacak sorular şu şekildedir: 1) Tetrakorik korelasyon matrisi ve Pearson korelasyon matrisi ile gerçekleştirilecek doğrulayıcı faktör analizi sonuçları farklılık göstermekte midir? 2) Pearson ve tetrakorik korelasyon matrisleri kullanılarak gerçekleştirilen doğrulayıcı faktör analizi sonuçlarına göre en az hata ve en doğru faktör yükü kestirimi hangi yöntemle elde edilmektedir? 3) Örneklem büyüklüğü farklılaştıkça faktör yükü kestirimleri ve hata miktarları değişmekte midir? 4) Monte Carlo simülasyon çalışması sonuçları gerçek veri ile örtüşmekte midir?
Problem Durumu Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellik... more Problem Durumu
Sosyal, davranış ve eğitim bilimlerinde araştırma yapan çoğu araştırmacı genellikle doğrudan gözlenemeyen teorik kavramlar üzerinde çalışırlar. Bu kavramlar psikolojide motivasyon, kaygı olabileceği gibi eğitimde sayısal yetenek olabilir. Bahsedilen teorik kavramları test etmek ve ölçmek için araştırmacılar yapısal eşitlik modellerinden faydalanırlar (Byrne, 2010; Raykov ve Marcoulides, 2006). Yapısal eşitlik modellerinin bir türü doğrulayıcı faktör analizidir. Doğrulayıcı faktör analizi doğrudan gözlenemeyen kavramları yani incelenen yapıyı (faktör), gösterge değişkenlerin yani maddelerin ne kadar iyi ölçebildiğini belirlemektir (Hair, Black, Babin ve Anderson, 2014; Kline, 2011). Bahsedilen maddeler incelenen yapıyı belirlemeyi sağlayacak özelliklere ve davranışlara ilişkin ifadelerdir (Raykov ve Marcoulides, 2006). Faktör analizi yöntemleri gözlenen değişkenlerden az sayıdaki faktörü paylaşılan varyans-kovaryansa dayalı olarak oluşturur (Schumacker ve Lomax, 2010). Doğrulayıcı faktör analizi ise önceden belirlenen faktör ya da faktörlerin sürdürülebilirliğini test etmeyi sağlar ve yapı geçerliğine ilişkin kanıt oluşturur (Maruyama, 1998). Yani faktör yapısı önceden belli olduğu gibi hangi gösterge değişkenin hangi faktörle ilişkili olduğu da bellidir (Schumacker ve Lomax, 2010). Böylece ölçme modeli doğrulayıcı faktör analiziyle test edilerek faktör yükleri, faktör varyans ve kovaryansları, göstergelere ilişkin hata varyansları vb. ile ilgili parametreler elde edilir (Brown ve Moore, 2012). Doğrulayıcı faktör analizi gerçekleştirilirken kullanılan bir takım yöntemler bulunmaktadır. Bunlar; Pearson korelasyon matrisine dayalı olarak BAYES, en çok olabilirlik (ML), standart hatalarının ve ortalamaların düzeltildiği en çok olabilirlik yöntemi (MLM), güçlü en çok olabilirlik yöntemi (MLR), standart hatalarının, ortalamaların ve varyansların düzeltildiği en çok olabilirlik yöntemi (MLMV), standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSMV) yöntemi ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, birinci mertebeden türevler yardımıyla kestirilen en çok olabilirlik yöntemi (MLF), MLR, standart hata, ortalama ve varyansların düzeltildiği ağırlıklandırılmamış en küçük kareler (ULSMV), ağırlıklandırılmış en küçük kareler (WLS), standart hatalarının ve ortalamaların düzeltildiği ağırlıklandırılmış en küçük kareler (WLSM) ve WLSMV yöntemleridir. 1-0 verileri üzerinde doğrulayıcı faktör analizi gerçekleştirilirken kullanılan kestirim yöntemleri, üzerinde çok fazla araştırma gerçekleştirilmeyen bir konudur. Araştırmacılar kullandıkları ölçekler üzerinde doğrulayıcı faktör analizi yaparken bazı durumları gözden kaçırabilmektedir. Bunların başında uygun korelasyon matrisinin kullanımı gelmektedir. Bunun yanında kestirim yöntemi olarak alanyazında sıklıkla kullanılan belirli yöntemlerin (ML) tercih edilmesi ile karşılaşılmaktadır. Araştırmalarda yanlış korelasyon matrisi kullanımı ve yanlış yöntemin kullanılması nedeniyle kestirimlerin daha fazla hata ile sonuçlanacağı ve yanlış faktör yükleri elde edileceğinden hareketle bu araştırmanın yapılmasına ihtiyaç duyulmuştur. Buradan hareketle araştırmada yanıt aranacak sorular şu şekildedir: 1) Tetrakorik korelasyon matrisi ve Pearson korelasyon matrisi ile gerçekleştirilecek doğrulayıcı faktör analizi sonuçları farklılık göstermekte midir? 2) Pearson ve tetrakorik korelasyon matrisleri kullanılarak gerçekleştirilen doğrulayıcı faktör analizi sonuçlarına göre en az hata ve en doğru faktör yükü kestirimi hangi yöntemle elde edilmektedir? 3) Örneklem büyüklüğü farklılaştıkça faktör yükü kestirimleri ve hata miktarları değişmekte midir? 4) Monte Carlo simülasyon çalışması sonuçları gerçek veri ile örtüşmekte midir?
Araştırma Yöntemi
Araştırma 1-0 verileri üzerinde gerçekleştirilen doğrulayıcı faktör analizi çalışmalarında örneklem büyüklüğüne bağlı olarak hangi korelasyon matrisi ve kestirim yönteminin daha az hatayla kestirim yaptığını belirlemeyi amaçlamakta olup kuramsal birikime katkıda bulunmayı hedeflemektedir. Bu yönüyle temel araştırma niteliğindedir. Temel araştırmalarla ilgilenen araştırmacılar özel olarak eğitim uygulamalarının sonuçlarıyla ilgilenmezler. Bunun yerine bir kuramın süreçlerini geliştirir yada incelerler (Fraenkel, Wallen, & Huyn, 2012; Gay, Mills, & Airasian, 2012). Araştırma, Monte Carlo simülasyon çalışması ve gerçek veriye dayalı olarak gerçekleştirilmiştir. Araştırmada kullanılan gerçek veri, 2013-2014 öğretim yılı II. döneminde uygulanan Temel Eğitimden Ortaöğretime Geçiş Sınavı (TEOG) Türkçe alt testinden elde edilmiştir. Monte Carlo simülasyon çalışmasında ise TEOG sınavına ait parametreler kullanılarak çeşitli örneklem büyüklüklerinde veriler üretilmiştir. Simülasyon çalışmasında 20 maddeden oluşan tek boyutlu, ortalama faktör yükü .70 olan testler elde edilmiştir. Bahsedilen testlerin çarpıklığı ortalama -1, basıklığı ise ortalama 0 olarak belirlenmiştir. Simülasyon faktörü olarak örneklem büyüklüğü seçilmiştir. Bu yönde 250, 500, 1000, 2500, 5000, 10000 örneklem ve 20 madde için 1-0 veri matrisi oluşturulmuştur. Veri üretimi R programında Psych paketi kullanılarak gerçekleştirilmiştir (Revelle, 2016). Sonuçların genellenebilirliği artırmak amacıyla her bir koşul için 20 tekrar yapılmıştır. Gerçek veri ile simülatif verinin karşılaştırılabilmesi için gerçek veri üzerinden rassal örneklem seçimine gidilmiştir. Verilerin analizinde MPLUS programıyla Pearson korelasyon matrisine dayalı olarak BAYES, ML, MLM, MLR, MLMV, WLSMV yöntemleri ve tetrakorik korelasyon matrisine dayalı olarak BAYES, ML, MLF, MLR, ULSMV, WLS, WLSM, WLSMV yöntemleri ile doğrulayıcı faktör analizleri gerçekleştirilmiştir. Elde edilen kestirimlerin standart hata ve faktör yükü ortalamaları karşılaştırılarak sonuçlar yorumlanmıştır. Beklenen/Geçici Sonuçlar 1-0 veri yapısına uygun olmayan Pearson korelasyon matrisi kullanıldığında farklı yöntemler ve örneklem büyüklüklerinde faktör yükü kestirimleri ortalama .50 civarındadır ve ortalama faktör yükü olarak belirlenen .70’den oldukça uzaktır. Tetrakorik korelasyon matrisi kullanıldığında ise farklı yöntemler ve örneklem büyüklükleri için elde edilen faktör yükü kestirim ortalamaları .70 civarındadır. Standart hatalar incelendiğinde ise Pearson korelasyon matrisi kullanıldığı durumlarda elde edilen hataların tetrakorik korelasyon matrisinin kullanıldığı durumlarda elde edilen hatalara yakın olduğu ve hatta Pearson korelasyon matrisi kullanıldığında bazı yöntemlerce daha az hatayla kestirim yapıldığı görülmektedir. Genel olarak faktör yükleri ve standart hatalar dikkate alındığında tetrakorik korelasyona dayalı kestirim yöntemlerinin kullanılması gerektiği belirtilebilir. Tetrakorik korelasyon matrisine dayalı sonuçlar değerlendirildiğinde örneklem büyüklüğü arttıkça hataların azaldığı belirtilebilir. Özellikle 250 ve 500 örneklem büyüklüğünde hatalar biraz daha yüksek bulunmuştur. Standartlaştırılmış faktör yükleri incelendiğinde WLSMV, WLSM, WLS, BAYES yöntemlerinde .70’e en yakın kestirim 5000 ve 10000 örneklemde elde edilmiştir. MLR, MLF ve ML yöntemleri .70’e en yakın kestirimi 1000 örneklem büyüklüğünde elde etmiştir. En düşük standart hata ve .70’e en yakın faktör yükü ortalaması 10000 örnelem büyüklüğünde ULSMV yöntemi aracılığıyla elde edilmiştir. Genel olarak tetrakorik korelasyona dayalı yöntemler birbirine yakın sonuçlar elde etmiştir fakat WLSMV, WLSM, WLS yöntemleri daha az hata ortaya çıkardığı için tercih edilebilir.
The aim of this study was to investigate the effect of item weighting on the construct validity. ... more The aim of this study was to investigate the effect of item weighting on the construct validity. For this purpose, data of 9773 students who took Turkish subtest in Transition from Primary to Secondary Education Exam (TPSE) applied in 2013-2014 education year second term were used. First, the data set was divided randomly into 250, 500, 1000, 2500, 5000 and 5000 sample sizes. In the processes of weighting for each individual's response pattern, the item reliability index was added to individual response if the sum of the individual's averages and the item's difficulty index was 1 and over.
As a result of the research, it was observed that the item weighting method used in research had a positive effect for different sample sizes on construct validity for the tests scored dichotomous and the five point Likert scales. As a result of simulation study, it was observed that the method had a positive impact on unidimensional tests scored dichotomous. The explained variance increased in the range of between 5.05% 6.10%. 5 point Likert scale’s explained variance increased 4.19%. The item weighting method was applied the simulation study increased explained variance by 9.1%. In order to improve construct validity, it is advisable to use the item weighting method according to these results.
No: 1043-Abstract Presentation Type: Oral Presentation Aim The aim of this study was to examine t... more No: 1043-Abstract Presentation Type: Oral Presentation Aim The aim of this study was to examine the use of exploratory factor analysis (EFA) and confirmatory factor analysis (CFA) in the process of searching evidence for the construct validity of the scale adaptation studies in the journals indexed in the database of TÜBİTAK Journal Park between 2006-2016. Method Document review, a qualitative research method, has been applied in order to examine adaptation studies. For this purpose, 170 scale adaptation studies published in the journals indexed in the Journal Park Database between 2006-2016 were examined. Studies were examined in terms of controlling assumptions, sample size, explained variance ratio, factor extraction method, scree plot, factor loadings, rotation method, number of factors and factor naming for EFA; controlling assumptions, sample size, whether DFA is performed in the same sample of EFA, estimation method, path diagram, t-value, factor loadings and fit indices for CFA. Findings and Results When studies are examined according to years, 1.76% of the studies were carried out in 2006 (min) and 30% in 2015 (max). It was observed that 8.82% of studies was not conducted both EFA and CFA. Item analysis or predictive validation studies was conducted in that studies. Only EFA was performed in 23.52% of the studies, only CFA in 30%, and both EFA and CFA in 37.64%. While 68.75% of EFA and CFA studies were used the same samples and 31.25% were used different. The average sample size was 410,71 in 104 studies performing EFA. The average sample size was 396,30 in 115 studies performing CFA. It can be said that 69.34% of the studies performing EFA were used principal component analysis, 1.92% for principal axis factoring and 4.80% for maximum likelihood method. 26.92% of the studies did not give any information about the factor extraction method. Varimax rotation method was used in 54.80% of the studies. It was also observed that Promax (1.92%) and oblique (14.42%) rotation methods were used. In 13.46% of the studies conducting EFA, any rotation method was not used and in 15.38% of them, the information about the rotation method was not given. Of the studies that performed EFA, 24.04% had 1, 19.23% had 2, 18.27% had 3, 14.42% had 4 and 5, 3.85% had 6 and 7, 1.92% had 9 factors. In 79.81% of the studies, factors were named. In 98.07% of studies, explained variance rate was reported and mean explained variance rate was 52.54%. In addition, explained variance rate when analyzed by factor number, it was observed that mean explained variance rate was 46.99% for 1 factor, 51.04% for 2 factors and 51.95% for 3 factors. The mean explained variance rate was 61.45% for 9 factorial structure. When examining 115 DFA studies, it was observed that in 90.43% of the them, DFA assumptions were not controlled or not reported, and in 9.56%, the assumptions were controlled. As the estimation method, the maximum likelihood method was used in 9.57% and the robust maximum likelihood method was used in 1.74%. Estimation method was not reported in 88.70% of the studies. Path diagram, t-values, and factor loadings were reported 79.13%, 27.83% and 83.43% of the studies, respectively. Factor Abstract Book
Özet Bu araĢtırmanın amacı matematik, fizik, kimya ve biyoloji öğretim programlarının öğretmen gö... more Özet Bu araĢtırmanın amacı matematik, fizik, kimya ve biyoloji öğretim programlarının öğretmen görüĢleri açısından değerlendirilmesidir. AraĢtırmanın evrenini Türkiye'de Anadolu, fen, sosyal bilimler, spor ve güzel sanatlar liselerinde görev yapan matematik, fizik, kimya ve biyoloji öğretmenleri oluĢturmaktadır. Örneklem ise tabakalı ve küme örnekleme yöntemiyle seçilmiĢ 5767 öğretmenden oluĢmuĢtur. Veri toplama aracı olarak araĢtırmacılar tarafından hazırlanan anket formu kullanılmıĢtır. Anket formunda 5'li likert tipinde 15 madde bulunmaktadır. Hazırlanan anket internet ortamında uygulanarak veriler toplanmıĢtır. Katılımda dürüstlük, içtenlik ve gönüllülük esas alınmıĢtır. Veri analizi için SPSS programı ile basit uyum analizi yapılmıĢtır. AraĢtırma sonucunda biyoloji ve fizik öğretmenlerinin program tasarımının, programı anlamayı kolaylaĢtırıcı buldukları, yenilenen programın eski programa göre daha iyi tasarlandığını belirttiği, kimya öğretmenlerinin ise bu görüĢe katılmadığı söylenebilir. Biyoloji programındaki etkinlik örnekleri sayıca yeterli bulurken matematik programındakilerin yetersiz bulunduğu gözlenmiĢtir. Biyoloji ve fizik öğretmenleri programın içeriğindeki sınırların açık ve net bir Ģekilde belirlendiğini düĢünürken, kimya öğretmenleri bu görüĢe katılmamaktadır. Fizik ve biyoloji öğretmenleri kazanımların öğrencinin günlük yaĢantısıyla bağ kurmasına yardımcı olduğunu ve yaparak-yaĢayarak öğrenmeyi temele alan bir felsefe üzerine kurulduğunu düĢünürken matematik ve kimya öğretmenleri bu görüĢe katılmamaktadır. Fizik, kimya ve biyoloji öğretmenleri kazanımlarda güncel bilgilerin yer aldığını düĢünmektedir. Matematik, fizik ve biyoloji öğretmenleri programlarda gereksiz bilgi ve fazla ayrıntının bulunmadığını düĢünürken kimya öğretmenleri fazla ayrıntılı olduğunu düĢünmektedir. Biyoloji öğretmenleri programda kullanılan kavramların sınıf seviyesine uygun olduğunu düĢünürken kimya öğretmenleri uygun olmadığını, fizik ve biyoloji öğretmenleri öğretim programının sınıf seviyesine uygun olduğunu, matematik ve kimya öğretmenleri ise uygun olmadığını düĢünmektedir. Matematik ve biyoloji öğretmenleri ise programın ders saatleriyle uyumlu olduğunu düĢünürken kimya ve fizik öğretmenleri programlarının içeriğinin belirtilen ders saatleriyle uyumlu olmadığını düĢünmektedir. Fizik ve biyoloji öğretmenleri programın konu sıralamasının bilinenden bilinmeyene doğru olduğunu düĢünürken kimya öğretmenleri bu görüĢe katılmamaktadır. Fizik, kimya ve biyoloji öğretmenleri programın ölçme ve değerlendirme yaklaĢımını benimsediği ve programların güncel ölçme ve değerlendirme uygulamalarına uygun olduğunu düĢündüğü gözlenmiĢtir.