All-words word sense disambiguation in Turkish
Başlık:
All-words word sense disambiguation in Turkish
Personal Author:
Yayın Bilgileri:
[s.l. : s.n.], 2019.
Fiziksel Tanımlama:
x, 43 leaves : illustrations, tables ; 30 cm + 1 CD-ROM.
Genel Not:
Date of approval: 2019
Abstract:
Word sense disambiguation (WSD) is the identi cation of the meaning of words in context in a computational manner. The main subject of this study is to implement and compare the WSD results of various supervised classi ers (Naive Bayes, K Nearest Neighbor, Rocchio and C4.5) in all-words setting. To this end, we have constructed an all-words sense annotated Turkish corpus, using traditional method of manual tagging. During the annotation, a pre-built parallel treebank (aligned from Penn Treebank) has been tagged with the senses of Turkish Language Institutions dictionary. The approach of annotating a treebank allowed us to generate a full-coverage resource, in which syntactic and semantic information merged. In the WSD evaluations, three distinct experiments have been organized to determine the efect of using different feature sets on the disambiguation performance. First experiment has been conducted with a simple feature set that includes the fundamental local features. In the second experiment, the initial feature set has been augmented with several effective morphological features, and in the third one, the feature set has further been extended with the syntactic features. Our test results show that all classi ers have achieved better results in parallel to growing feature set. Additionally, integration of syntactic features has proved to be useful for WSD.
Anlam belirsizliğini giderme, kelimelerin bağlam içerisindeki anlamının hesaplamalı yöntemlerle belirlenmesidir. Bu çalışmanın ana konusu, çeşitli gözetimli sınıflandırma metodlarını (Naive Bayes, K Nearest Neighbor, Rocchio ve C4.5) Türkçe bir metindeki tüm sözcüklerin anlam belirsizliğini gidermek için uygulamak ve elde edilen sonuçları karşılaştırmaktır. Bu amaçla, geleneksel elle işaretleme yöntemini kullanarak Türkçe tüm sözcükler için bir derlem oluşturduk. Etiketleme esnasında, önceden çözümlenmiş (Penn Treebank) ve Türkçe ye uyarlanmış paralel bir derlem Türk Dil Kurumunun sözlüğündeki anlamlarla etiketlenmiştir. Çözümlenmiş bir derlemin etiketlenmesi bize içerisinde anlamsal ve sözdizimsel bilginin harmanlandığı tam kapsamlı bir derlem meydana getirme imkanı tanımıştır. Anlam belirsizliğini giderme testlerinde farklı özellik kümelerinin performansa olan etkisini saptamak için üç ayrı deney hazırlanmıştır. Birinci deney, temel lokal özellikleri içeren yalın bir özellik seti ile yapılmıştır. İkinci deneyde bu yalın küme çeşitli morfolojik (biçimbilimsel) özelliklerle genişletilmiştir. Üçüncü deneyde ise sözdizimsel özelliklerin eklenmesiyle daha da kapsamlı bir özellik kümesi oluşturulmuştur. Deney sonuçları tüm sınıflandırma yöntemlerinin özellik kümesinin genişletilmesine paralel olarak daha yüksek performans değerleri elde ettiğini göstermektedir. Ayrıca, sözdizimsel özelliklerin entegrasyonunun anlam belirsizliğini gidermede faydalı olduğu gösterilmiştir.
Added Uniform Title:
Thesis (Master) -- Işık University: Graduate School for Science and Engineering.
M.S. -- Computer Engineering.
Graduate School for Science and Engineering -- Computer Engineering.
Türkçe tüm sözcükler için anlam belirsizliğini giderme. English.
Elektronik Erişim:
Click for open access
Dil:
English