Cover image for Improving search engine performance with context extraction using Lucene, DBPedia-Spotlight, and Wordnet
Improving search engine performance with context extraction using Lucene, DBPedia-Spotlight, and Wordnet
Title:
Improving search engine performance with context extraction using Lucene, DBPedia-Spotlight, and Wordnet
Personal Author:
Publication Information New:
[s.l. : s.n.], 2014.
Physical Description:
x, 46 leaves : illustrations ; 30 cm + 1 CD-ROM.
Abstract:
Abstract: Search engines are common tools which retrieve information from considerable amount of data according to the user needs. The data size that needs to be handled and retrieving relevant information, are the main problems of every search engine. Additionally, in order to improve the performance of a search engine, there are various approaches and methods are applied. On the other hand, using context information besides words in the document is a quite new area. Including Context Information" into the game is a promising eld of work. In this research, we use context information extracted from the documents in the collection to improve the performance of the search engine. In rst step, we extract context using Lucene, DBPedia-Spotlight, and Wordnet. As the second step, we build a graph using extracted context information. In the third step, in order to group similar contexts, we cluster context graph. In the fourth step, we rescore results using context-clusters and context-information of documents, as well as queries. In the fth step, we implement a data collection tool to collect gold-standard data. In the sixth and nal step, we compare the results of our algorithm with gold-standard data set. According to experimental results, using context information may improve the search engine performance but the collection should be relatively big.

Özet: Arama motorları, kullanıcıların ihtiyaçlarına göre ilgili bilgileri kayda değer miktarda veri içerisinden sunan araçlardır. İşlenmesi gereken verinin büyüklüğü ve ilgili bilgileri kullanıcıya sunmak arama motorlarının iki ana problemini oluşturur. Arama motoru performansını artırmak için pek çok yaklaşım ve metod bulunmaktad ır. Bunlara ek olarak arama motorlarının performansını artırmak için dökümanın içerdiği kelimelerin yanında bağlam bilgisini kullanmak oldukça yeni bir alan. Oyuna Bağlam Bilgisini dahil etmek gelecek vaat eden bir çalışma alanı sunmakta. Bu çalışmamızda, arama motoru performansını artırmak için döküman ve sorgulardan çıkardığımız bağlam bilgisini kullanıyoruz. İlk adım olarak Lucene, DBPedia- Spotlight ve Wordnet'i kullanarak bağlam bilgisi çıkarıyoruz. İkinci adımda, çıkardığımız bağlam bilgilerini kullanarak bir çizge oluşturuyoruz. Üçüncü adımda, birbirine yakın bağlamları gruplamak için çizge üzerinde ki kümeleme yapıyoruz. Dördüncü adımda, döküman ve sorguları bağlam çizgesini ve ilgili bağlam bilgilerini kullanarak sonuçları yeniden puanlıyoruz. Beşinci adım olarak referans verisi toplamak için bir uygulama geliştirip bu uygulama ile kullanıcılardan veri topluyoruz. Altıncı ve son adımda ise kullanıcılardam topladığımız referans bilgisi ile sonuçlarımızı karşılaştırıp yaptığımız çalışmanın performansını ölçüyoruz. Aldığımız sonuçların bize gösterdiğine göre bağlam bilgisini kullanmak arama motorlar ının performansını artırabilir ancak kullanılacak döküman kümesi göreceli olarak büyük olmalı.
Added Uniform Title:
Thesis (Master) -- Işık University: Graduate School for Science and Engineering.

M.S. -- Computer Engineering.

Graduate School for Science and Engineering -- Computer Engineering.

Arama motoru performansının solr, depedia-spotlight ve wordnet kullanılarak yapılan bağlam çıkarımı ile artırılması. English.
Electronic Access:
Click for open access
Language:
Turkish

English