Özkan Aslan | Afyon Kocatepe University (original) (raw)
Papers by Özkan Aslan
Uluslararasi Disiplinler Arasi Dil Arastirmalari Dergisi, 2021
Türk dillerinin ve lehçelerinin sınıflandırılmasında genel olarak Türklerin yaşadığı bölgelerin c... more Türk dillerinin ve lehçelerinin sınıflandırılmasında genel olarak Türklerin yaşadığı bölgelerin coğrafi konumlarına ve ses özelliklerine göre yapılmış sınıflandırmalar ön plana çıkmaktadır. Türklerin tarihindeki göçlerin yoğunluğu ve farklı kültürlerle karşı karşıya gelmiş olması, sınıflandırmayı daha da güçleştirmektedir. Kuzeydoğu grubu lehçeleriyle ilgili sınıflandırmalarda Altay, Hakas ve Tuva Türkçeleri yer alırken kimi sınıflandırmalarda bu gruba Yakutça (Sahaca) da katılmakta (bk. Killi, 2002; Özyetgin, 2006 vd.) kimi sınıflandırmalarda ise Halaçça ve Çuvaşça ile birlikte Türk dilinin uzak lehçelerinden sayılmaktadır (bk. Kirişçioğlu, ve ark. 2018). Yine de Yakutçanın bu grupla olan ilişkisinin altı pek çok çalışmada çizilmiştir. Bu çalışmanın iki amacı vardır. İlki; Altay Türkçesi, Hakas Türkçesi, Tuva Türkçesi ve Yakutçanın çeşitli ölçütler açısından karşılaştırılması, ikincisi Altay Türkçesi, Hakas Türkçesi, Tuva Türkçesi ve Yakutça tümceleri ile Türkiye Türkçesi tümceleri arasındaki düzenleme uzaklıklarının hesaplanmasıdır. Bu bağlamda Türk dillerinin sınıflandırılması çalışmalarına disiplinler arası bir katkı sağlamak amaçlanmaktadır. Elde edilen bulgulara göre Yakutça sözcükler diğer Türk lehçelerine oranla anlamlı derecede uzundur. Bu durum Yakutçada uzun ünlülerin harf tekrarıyla gösterilmesinden kaynaklanıyor olabilir. İncelenen lehçeler arasında tespit edilen yüksek korelasyonlar, bu lehçelerin coğrafyaya ve diller arası ses denkliklerine dayalı Kuzeydoğu dilleri sınıflandırmasına paralel bir sayısal bulgudur. Yapılan entropi analizi sonucunda en düşük entropi ve en yüksek şaşırma değerleri Yakutça metinler için elde edilmiştir. Bu bulgu, Yakutçanın sınıflandırmalarda hem Kuzeydoğu lehçelerinden biri olarak kabul edilip hem de ayrı tutulmasını destekleyen bir sonuç olarak ortaya çıkmıştır. Ayrıca Levenshtein uzaklığı açısından yapılan inceleme de bu görüşle uyuşmaktadır. Ayrıca çok boyutlu ölçekleme analiziyle ortaya çıkan şekil, diğer bulguların çoğunluğu ile aynı sonucu vermiş, Yakutçanın; Altay Türkçesi, Hakas Türkçesi ve Tuva Türkçesine kıyasla anlamlı derecede farklı olduğu tezini güçlendirmiştir.
International Journal Of Turkish Literature Culture Education, 2017
the expression "suffix lH is the opposite of the suffix sHz" is insufficient. Moreover, the scale... more the expression "suffix lH is the opposite of the suffix sHz" is insufficient. Moreover, the scale showed that it is not enough to divide the suffixes of Turkish into two groups of derivational suffixes and inflectional suffixes. In classifying suffixes, functions must be considered first. For this, it should be the starting point to identify functions with rigorous and comprehensive work. Determining the functions of the suffixes in word derivation is an activity that can directly contribute to the production of ontological knowledge, the development of the wordnet and many studies in the field of natural language processing. We believe that the emerging work will be an encouraging contribution to similar works to be done between the disciplines of computer science, Turkology and lexicography.
Information Processing & Management, 2018
Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to ... more Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to specify chunk boundaries and classes. Although chunking generally refers to simple chunks, it is possible to customize the concept. A simple chunk is a small structure, such as a noun phrase, while constituent chunk is a structure that functions as a single unit in a sentence, such as a subject. For an agglutinative language with a rich morphology, constituent chunking is a significant problem in comparison to simple chunking. Most of Turkish studies on this issue use the IOB tagging schema to mark the boundaries. In this study, we proposed a new simpler tagging schema, namely OE, in constituent chunking for Turkish. "E" represents the rightmost token of a chunk, while "O" stands for all other items. In reference to OE, we also used a schema called OB, where "B" represents the leftmost token of a chunk. We aimed to identify both chunk boundaries and chunk classes using the conditional random fields (CRF) method. The initial motivation was to employ the fact that Turkish phrases are head-final for chunking. In this context, we assumed that marking the end of a chunk (OE) would be more advantageous than marking the beginning of a chunk (OB). In support of the assumption, the test results reveal that OB has the worst performance and OE is significantly a more successful schema in many cases. Especially in long sentences, this contrast is more obvious. Indeed, using OE means simply marking the head of the phrase (chunk). Since the head and the distinctive label "E" are aligned, CRF finds the chunk class more easily by using the information contained in the head. OE also produced more successful results than the schemas available in the literature. In addition to comparing tagging schemas, we performed four analyses. Along with the examination of window size, which is a parameter of CRF, it is adequate to select and accept this value as 3. A comparison of the evaluation measures for chunking revealed that F-score was a more balanced measure in contrast to token accuracy and sentence accuracy. As a result of the feature analysis, syntactic features improves chunking performance significantly under all conditions. Yet when withdrawing these features, a pronounced difference between OB and OE is forthcoming. In addition, flexibility analysis shows that OE is more successful in different data.
Lingua
A morphological lexicon that is a computational source should be considered together with derivat... more A morphological lexicon that is a computational source should be considered together with derivational morphology especially for agglutinative languages. To the best of our knowledge, in the Turkish language there has been no study that analyzes the derivational suffixes on the lexicon in a computational paradigm. This study provides a very rich lexical resource, filling a gap in the field, and would hopefully lead to new related studies as well. The morphological lexicon can be used in morphological analysis as well as in several other tasks, such as stemming and part of speech (POS) tagging. In this study, we introduce a morphological lexicon named TrLex and present its components, preparation processes and some statistics. We observed that more than half of the single-word lemmas (56.7%) are in the derived structure. Since the word formation in Turkish prefer the morphological processes, this number is higher than the rate of compound-type words (2.7%). As a result of the work, we obtained a knowledge-intensive data table including several fields such as form, structure, semantic information. We also extracted Lexical Markup Framework (LMF) formatted file containing only morphological and POS information and made the file freely available.
Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to ... more Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to specify chunk boundaries and classes. Although chunking generally refers to simple chunks, it is possible to customize the concept. A simple chunk is a small structure, such as a noun phrase, while constituent chunk is a structure that functions as a single unit in a sentence, such as a subject. For an agglutinative language with a rich morphology, constituent chunking is a significant problem in comparison to simple chunking. Most of Turkish studies on this issue use the IOB tagging schema to mark the boundaries.
In this study, we proposed a new simpler tagging schema, namely OE, in constituent chunking for Turkish. “E” represents the rightmost token of a chunk, while “O” stands for all other items. In reference to OE, we also used a schema called OB, where “B” represents the leftmost token of a chunk. We aimed to identify both chunk boundaries and chunk classes using the conditional random fields (CRF) method. The initial motivation was to employ the fact that Turkish phrases are head-final for chunking. In this context, we assumed that marking the end of a chunk (OE) would be more advantageous than marking the beginning of a chunk (OB). In support of the assumption, the test results reveal that OB has the worst performance and OE is significantly a more successful schema in many cases. Especially in long sentences, this contrast is more obvious. Indeed, using OE means simply marking the head of the phrase (chunk). Since the head and the distinctive label “E” are aligned, CRF finds the chunk class more easily by using the information contained in the head. OE also produced more successful results than the schemas available in the literature.
In addition to comparing tagging schemas, we performed four analyses. Along with the examination of window size, which is a parameter of CRF, it is adequate to select and accept this value as 3. A comparison of the evaluation measures for chunking revealed that F-score was a more balanced measure in contrast to token accuracy and sentence accuracy. As a result of the feature analysis, syntactic features improves chunking performance significantly under all conditions. Yet when withdrawing these features, a pronounced difference between OB and OE is forthcoming. In addition, flexibility analysis shows that OE is more successful in different data.
A morphological lexicon that is a computational source should be considered together with derivat... more A morphological lexicon that is a computational source should be considered together with derivational morphology especially for agglutinative languages. To the best of our knowledge, in the Turkish language there has been no study that analyzes the derivational suffixes on the lexicon in a computational paradigm. This study provides a very rich lexical resource, filling a gap in the field, and would hopefully lead to new related studies as well. The morphological lexicon can be used in morphological analysis as well as in several other tasks, such as stemming and part of speech (POS) tagging. In this study, we introduce a morphological lexicon named TrLex and present its components, preparation processes and some statistics. We observed that more than half of the single-word lemmas (56.7%) are in the derived structure. Since the word formation in Turkish prefer the morphological processes, this number is higher than the rate of compound-type words (2.7%). As a result of the work, we obtained a knowledge-intensive data table including several fields such as form, structure, semantic information. We also extracted Lexical Markup Framework (LMF) formatted file containing only morphological and POS information and made the file freely available.
Bu çalışmada, Türk Dil Kurumu Türkçe Sözlük madde başları üzerinde gerçekleştirilen biçim bilimse... more Bu çalışmada, Türk Dil Kurumu Türkçe Sözlük madde başları üzerinde gerçekleştirilen biçim bilimsel çözümleme işlemi sonucunda ortaya çıkan türetim ekleri arasından addan sıfat yapan ekler seçilmiş ve bu ekler üzerinde anlamsal işlevler belirlenmeye çalışılmıştır. İncelemede ekler çok boyutlu ölçekleme çözümlemesi ile görselleştirilmeye çalışılmış; eklerin geçtiği madde başlarına ait tanım cümleleri çözümlenerek karakteristik sözcükler çıkarılmış; bu sözcükler incelenerek eklerin anlamsal işlevleri belirlenmeye çalışılmış; ekler beş değişken açısından karşılaştırılarak bir işletim eki-türetim eki skalası oluşturma denemesi yapılmıştır.
Çalışmanın sonucu olarak kısaca şunları söyleyebiliriz: Eklerin karşılaştırılmasında veya kümelenmesinde salt biçimsel özellikler açıklayıcı değildir. Söz gelimi “lH eki sHz ekinin zıttıdır” önermesi yetersizdir. Ayrıca işletim eki-türetim eki skalası oluşturma denemesi göstermiştir ki, Türkçenin eklerinin işletim eki ve türetim eki şeklinde iki gruba ayrılması yeterli değildir. Eklerin sınıflandırılmasında öncelikle işlevler dikkate alınmalıdır. Bunun için de titiz ve kapsamlı bir çalışmayla sonlu sayıda olan işlevleri belirlemek başlama noktası olmalıdır.
Eklerin sözcük türetiminde üstlendiği işlevleri belirlemek ontolojik bilgi üretimi, sözcük ağı (wordnet) geliştirme ve doğal dil işleme alanındaki birçok çalışmaya doğrudan katkısı olabilecek bir iştir. Ortaya çıkan çalışmanın, bilgisayar bilimleri, Türkoloji ve sözlük bilim disiplinleri arasında yapılacak benzer çalışmalar için cesaret verici bir katkı oluşturacağına inanıyoruz.
Bu çalışmada Türkçede tümce başında (T-başı) yer alan ve nesne olarak yan tümce seçen 22 adet bil... more Bu çalışmada Türkçede tümce başında (T-başı) yer alan ve nesne olarak yan tümce seçen 22 adet biliş ve duygu eylemi ile bunların yapı ve işlev özellikleri incelenmiştir. Türkçe üzerine yapılan dilbilim araştırmalarında bildiğimiz kadarıyla T-başı eylemler daha önce ele alınmadığı için, bu çalışma bu konudaki boşluğu doldurmayı amaçlamaktadır. Çalışmanın verisini oluşturan ve çekimli eylemle başlayan tümceler, ODTÜ Türkçe derleminden (Bkz. Say, vd. 2002) otomatik olarak seçilmiş ve daha sonra kapsam dışı veriler elenmiştir. Çalışmanın kapsamı içinde yer alan veriler, betimsel istatistiklere dökülmüş ve her eylemin dilsel özellikleri incelenmiştir. Bulgularımız, T-başı eylemlerin çoğunlukla birinci ve ikinci kişi ekleri ve geniş ve şimdiki zaman ekleriyle kullanıldığını göstermiştir. Bunun nedeni de T-başı eylemlerin konuşmada şimdiki zamanla ilintili, konuşucunun duygu, düşünce ve yan tümce önermesine ilişkin kesinlik derecesini belirttiği kiplik gibi davranması ve bu nedenle öznellik içermesi ya da dinleyicinin dikkatini çekme, onu yan tümcedeki içeriğe yönlendirme görevi üstlenmesidir. Dolayısıyla, verimizde yer alan T-başı eylemler, öznellik ve kişilerarası iletişimde konuşma yönlendiricileri olarak görülebilir.
Uluslararasi Disiplinler Arasi Dil Arastirmalari Dergisi, 2021
Türk dillerinin ve lehçelerinin sınıflandırılmasında genel olarak Türklerin yaşadığı bölgelerin c... more Türk dillerinin ve lehçelerinin sınıflandırılmasında genel olarak Türklerin yaşadığı bölgelerin coğrafi konumlarına ve ses özelliklerine göre yapılmış sınıflandırmalar ön plana çıkmaktadır. Türklerin tarihindeki göçlerin yoğunluğu ve farklı kültürlerle karşı karşıya gelmiş olması, sınıflandırmayı daha da güçleştirmektedir. Kuzeydoğu grubu lehçeleriyle ilgili sınıflandırmalarda Altay, Hakas ve Tuva Türkçeleri yer alırken kimi sınıflandırmalarda bu gruba Yakutça (Sahaca) da katılmakta (bk. Killi, 2002; Özyetgin, 2006 vd.) kimi sınıflandırmalarda ise Halaçça ve Çuvaşça ile birlikte Türk dilinin uzak lehçelerinden sayılmaktadır (bk. Kirişçioğlu, ve ark. 2018). Yine de Yakutçanın bu grupla olan ilişkisinin altı pek çok çalışmada çizilmiştir. Bu çalışmanın iki amacı vardır. İlki; Altay Türkçesi, Hakas Türkçesi, Tuva Türkçesi ve Yakutçanın çeşitli ölçütler açısından karşılaştırılması, ikincisi Altay Türkçesi, Hakas Türkçesi, Tuva Türkçesi ve Yakutça tümceleri ile Türkiye Türkçesi tümceleri arasındaki düzenleme uzaklıklarının hesaplanmasıdır. Bu bağlamda Türk dillerinin sınıflandırılması çalışmalarına disiplinler arası bir katkı sağlamak amaçlanmaktadır. Elde edilen bulgulara göre Yakutça sözcükler diğer Türk lehçelerine oranla anlamlı derecede uzundur. Bu durum Yakutçada uzun ünlülerin harf tekrarıyla gösterilmesinden kaynaklanıyor olabilir. İncelenen lehçeler arasında tespit edilen yüksek korelasyonlar, bu lehçelerin coğrafyaya ve diller arası ses denkliklerine dayalı Kuzeydoğu dilleri sınıflandırmasına paralel bir sayısal bulgudur. Yapılan entropi analizi sonucunda en düşük entropi ve en yüksek şaşırma değerleri Yakutça metinler için elde edilmiştir. Bu bulgu, Yakutçanın sınıflandırmalarda hem Kuzeydoğu lehçelerinden biri olarak kabul edilip hem de ayrı tutulmasını destekleyen bir sonuç olarak ortaya çıkmıştır. Ayrıca Levenshtein uzaklığı açısından yapılan inceleme de bu görüşle uyuşmaktadır. Ayrıca çok boyutlu ölçekleme analiziyle ortaya çıkan şekil, diğer bulguların çoğunluğu ile aynı sonucu vermiş, Yakutçanın; Altay Türkçesi, Hakas Türkçesi ve Tuva Türkçesine kıyasla anlamlı derecede farklı olduğu tezini güçlendirmiştir.
International Journal Of Turkish Literature Culture Education, 2017
the expression "suffix lH is the opposite of the suffix sHz" is insufficient. Moreover, the scale... more the expression "suffix lH is the opposite of the suffix sHz" is insufficient. Moreover, the scale showed that it is not enough to divide the suffixes of Turkish into two groups of derivational suffixes and inflectional suffixes. In classifying suffixes, functions must be considered first. For this, it should be the starting point to identify functions with rigorous and comprehensive work. Determining the functions of the suffixes in word derivation is an activity that can directly contribute to the production of ontological knowledge, the development of the wordnet and many studies in the field of natural language processing. We believe that the emerging work will be an encouraging contribution to similar works to be done between the disciplines of computer science, Turkology and lexicography.
Information Processing & Management, 2018
Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to ... more Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to specify chunk boundaries and classes. Although chunking generally refers to simple chunks, it is possible to customize the concept. A simple chunk is a small structure, such as a noun phrase, while constituent chunk is a structure that functions as a single unit in a sentence, such as a subject. For an agglutinative language with a rich morphology, constituent chunking is a significant problem in comparison to simple chunking. Most of Turkish studies on this issue use the IOB tagging schema to mark the boundaries. In this study, we proposed a new simpler tagging schema, namely OE, in constituent chunking for Turkish. "E" represents the rightmost token of a chunk, while "O" stands for all other items. In reference to OE, we also used a schema called OB, where "B" represents the leftmost token of a chunk. We aimed to identify both chunk boundaries and chunk classes using the conditional random fields (CRF) method. The initial motivation was to employ the fact that Turkish phrases are head-final for chunking. In this context, we assumed that marking the end of a chunk (OE) would be more advantageous than marking the beginning of a chunk (OB). In support of the assumption, the test results reveal that OB has the worst performance and OE is significantly a more successful schema in many cases. Especially in long sentences, this contrast is more obvious. Indeed, using OE means simply marking the head of the phrase (chunk). Since the head and the distinctive label "E" are aligned, CRF finds the chunk class more easily by using the information contained in the head. OE also produced more successful results than the schemas available in the literature. In addition to comparing tagging schemas, we performed four analyses. Along with the examination of window size, which is a parameter of CRF, it is adequate to select and accept this value as 3. A comparison of the evaluation measures for chunking revealed that F-score was a more balanced measure in contrast to token accuracy and sentence accuracy. As a result of the feature analysis, syntactic features improves chunking performance significantly under all conditions. Yet when withdrawing these features, a pronounced difference between OB and OE is forthcoming. In addition, flexibility analysis shows that OE is more successful in different data.
Lingua
A morphological lexicon that is a computational source should be considered together with derivat... more A morphological lexicon that is a computational source should be considered together with derivational morphology especially for agglutinative languages. To the best of our knowledge, in the Turkish language there has been no study that analyzes the derivational suffixes on the lexicon in a computational paradigm. This study provides a very rich lexical resource, filling a gap in the field, and would hopefully lead to new related studies as well. The morphological lexicon can be used in morphological analysis as well as in several other tasks, such as stemming and part of speech (POS) tagging. In this study, we introduce a morphological lexicon named TrLex and present its components, preparation processes and some statistics. We observed that more than half of the single-word lemmas (56.7%) are in the derived structure. Since the word formation in Turkish prefer the morphological processes, this number is higher than the rate of compound-type words (2.7%). As a result of the work, we obtained a knowledge-intensive data table including several fields such as form, structure, semantic information. We also extracted Lexical Markup Framework (LMF) formatted file containing only morphological and POS information and made the file freely available.
Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to ... more Chunking is a task which divides a sentence into non-recursive structures. The primary aim is to specify chunk boundaries and classes. Although chunking generally refers to simple chunks, it is possible to customize the concept. A simple chunk is a small structure, such as a noun phrase, while constituent chunk is a structure that functions as a single unit in a sentence, such as a subject. For an agglutinative language with a rich morphology, constituent chunking is a significant problem in comparison to simple chunking. Most of Turkish studies on this issue use the IOB tagging schema to mark the boundaries.
In this study, we proposed a new simpler tagging schema, namely OE, in constituent chunking for Turkish. “E” represents the rightmost token of a chunk, while “O” stands for all other items. In reference to OE, we also used a schema called OB, where “B” represents the leftmost token of a chunk. We aimed to identify both chunk boundaries and chunk classes using the conditional random fields (CRF) method. The initial motivation was to employ the fact that Turkish phrases are head-final for chunking. In this context, we assumed that marking the end of a chunk (OE) would be more advantageous than marking the beginning of a chunk (OB). In support of the assumption, the test results reveal that OB has the worst performance and OE is significantly a more successful schema in many cases. Especially in long sentences, this contrast is more obvious. Indeed, using OE means simply marking the head of the phrase (chunk). Since the head and the distinctive label “E” are aligned, CRF finds the chunk class more easily by using the information contained in the head. OE also produced more successful results than the schemas available in the literature.
In addition to comparing tagging schemas, we performed four analyses. Along with the examination of window size, which is a parameter of CRF, it is adequate to select and accept this value as 3. A comparison of the evaluation measures for chunking revealed that F-score was a more balanced measure in contrast to token accuracy and sentence accuracy. As a result of the feature analysis, syntactic features improves chunking performance significantly under all conditions. Yet when withdrawing these features, a pronounced difference between OB and OE is forthcoming. In addition, flexibility analysis shows that OE is more successful in different data.
A morphological lexicon that is a computational source should be considered together with derivat... more A morphological lexicon that is a computational source should be considered together with derivational morphology especially for agglutinative languages. To the best of our knowledge, in the Turkish language there has been no study that analyzes the derivational suffixes on the lexicon in a computational paradigm. This study provides a very rich lexical resource, filling a gap in the field, and would hopefully lead to new related studies as well. The morphological lexicon can be used in morphological analysis as well as in several other tasks, such as stemming and part of speech (POS) tagging. In this study, we introduce a morphological lexicon named TrLex and present its components, preparation processes and some statistics. We observed that more than half of the single-word lemmas (56.7%) are in the derived structure. Since the word formation in Turkish prefer the morphological processes, this number is higher than the rate of compound-type words (2.7%). As a result of the work, we obtained a knowledge-intensive data table including several fields such as form, structure, semantic information. We also extracted Lexical Markup Framework (LMF) formatted file containing only morphological and POS information and made the file freely available.
Bu çalışmada, Türk Dil Kurumu Türkçe Sözlük madde başları üzerinde gerçekleştirilen biçim bilimse... more Bu çalışmada, Türk Dil Kurumu Türkçe Sözlük madde başları üzerinde gerçekleştirilen biçim bilimsel çözümleme işlemi sonucunda ortaya çıkan türetim ekleri arasından addan sıfat yapan ekler seçilmiş ve bu ekler üzerinde anlamsal işlevler belirlenmeye çalışılmıştır. İncelemede ekler çok boyutlu ölçekleme çözümlemesi ile görselleştirilmeye çalışılmış; eklerin geçtiği madde başlarına ait tanım cümleleri çözümlenerek karakteristik sözcükler çıkarılmış; bu sözcükler incelenerek eklerin anlamsal işlevleri belirlenmeye çalışılmış; ekler beş değişken açısından karşılaştırılarak bir işletim eki-türetim eki skalası oluşturma denemesi yapılmıştır.
Çalışmanın sonucu olarak kısaca şunları söyleyebiliriz: Eklerin karşılaştırılmasında veya kümelenmesinde salt biçimsel özellikler açıklayıcı değildir. Söz gelimi “lH eki sHz ekinin zıttıdır” önermesi yetersizdir. Ayrıca işletim eki-türetim eki skalası oluşturma denemesi göstermiştir ki, Türkçenin eklerinin işletim eki ve türetim eki şeklinde iki gruba ayrılması yeterli değildir. Eklerin sınıflandırılmasında öncelikle işlevler dikkate alınmalıdır. Bunun için de titiz ve kapsamlı bir çalışmayla sonlu sayıda olan işlevleri belirlemek başlama noktası olmalıdır.
Eklerin sözcük türetiminde üstlendiği işlevleri belirlemek ontolojik bilgi üretimi, sözcük ağı (wordnet) geliştirme ve doğal dil işleme alanındaki birçok çalışmaya doğrudan katkısı olabilecek bir iştir. Ortaya çıkan çalışmanın, bilgisayar bilimleri, Türkoloji ve sözlük bilim disiplinleri arasında yapılacak benzer çalışmalar için cesaret verici bir katkı oluşturacağına inanıyoruz.
Bu çalışmada Türkçede tümce başında (T-başı) yer alan ve nesne olarak yan tümce seçen 22 adet bil... more Bu çalışmada Türkçede tümce başında (T-başı) yer alan ve nesne olarak yan tümce seçen 22 adet biliş ve duygu eylemi ile bunların yapı ve işlev özellikleri incelenmiştir. Türkçe üzerine yapılan dilbilim araştırmalarında bildiğimiz kadarıyla T-başı eylemler daha önce ele alınmadığı için, bu çalışma bu konudaki boşluğu doldurmayı amaçlamaktadır. Çalışmanın verisini oluşturan ve çekimli eylemle başlayan tümceler, ODTÜ Türkçe derleminden (Bkz. Say, vd. 2002) otomatik olarak seçilmiş ve daha sonra kapsam dışı veriler elenmiştir. Çalışmanın kapsamı içinde yer alan veriler, betimsel istatistiklere dökülmüş ve her eylemin dilsel özellikleri incelenmiştir. Bulgularımız, T-başı eylemlerin çoğunlukla birinci ve ikinci kişi ekleri ve geniş ve şimdiki zaman ekleriyle kullanıldığını göstermiştir. Bunun nedeni de T-başı eylemlerin konuşmada şimdiki zamanla ilintili, konuşucunun duygu, düşünce ve yan tümce önermesine ilişkin kesinlik derecesini belirttiği kiplik gibi davranması ve bu nedenle öznellik içermesi ya da dinleyicinin dikkatini çekme, onu yan tümcedeki içeriğe yönlendirme görevi üstlenmesidir. Dolayısıyla, verimizde yer alan T-başı eylemler, öznellik ve kişilerarası iletişimde konuşma yönlendiricileri olarak görülebilir.