Ithb Repository

Perbandingan Sistem Temu Balik Metode BM25 dan Metode Neural Network dengan BERT Preprocessing pada Dataset Cranfield

Andreas Aditya, - (2022) Perbandingan Sistem Temu Balik Metode BM25 dan Metode Neural Network dengan BERT Preprocessing pada Dataset Cranfield. S1 thesis, Institut Teknologi Harapan Bangsa.

[thumbnail of 1118008_TA_Title.pdf] Text
1118008_TA_Title.pdf

Download (263kB)
[thumbnail of 1118008_TA_Author.pdf] Text
1118008_TA_Author.pdf
Restricted to Repository staff only

Download (279kB)
[thumbnail of 1118008_TA_Chapter1.pdf] Text
1118008_TA_Chapter1.pdf

Download (73kB)
[thumbnail of 1118008_TA_Chapter2.pdf] Text
1118008_TA_Chapter2.pdf
Restricted to Repository staff only

Download (1MB)
[thumbnail of 1118008_TA_Chapter3.pdf] Text
1118008_TA_Chapter3.pdf

Download (1MB)
[thumbnail of 1118008_TA_Chapter4.pdf] Text
1118008_TA_Chapter4.pdf
Restricted to Repository staff only

Download (2MB)
[thumbnail of 1118008_TA_Chapter5.pdf] Text
1118008_TA_Chapter5.pdf

Download (68kB)
[thumbnail of 1118008_TA_Appendix.pdf] Text
1118008_TA_Appendix.pdf
Restricted to Repository staff only

Download (161kB)
[thumbnail of 1118008_Paper-TA.pdf] Text
1118008_Paper-TA.pdf

Download (1MB)

Abstract

Perkembangan sistem temu balik informasi memunculkan berbagai metode machine learning yang menggunakan konteks dari dokumen untuk menemukan informasi yang dicari. Model BERT yang digunakan oleh Google merupakan model terbaik dari sistem pencarian situs di internet. Penelitian ini membandingkan BERT yang digunakan sebagai komponen preprocessing dokumen dan query untuk model neural network dengan metode BM25 pada dataset Cranfield. Metode BM25 memiliki 2 indikator yaitu b dan k yang masing-masing berfokus pada weight untuk panjang dokumen dan frekuensi kemunculan kata. Indikator yang digunakan untuk metode neural network dengan BERT preprocessing adalah ukuran subsegment sebuah dokumen, learning rate, ukuran layer neural network, dan metode penggabungan nilai relevansi subsegment. Dataset yang digunakan dalam penelitian ini adalah dataset Cranfield yang berisi 1400 dokumen dan 225 query. Berdasarkan pengujian semua indikator, metode BM25 memberikan nilai nDCG@20 sebesar 0.5054 dan metode neural network dengan BERT preprocessing menghasilkan nilai nDCG@20 sebesar 0.5520.

Item Type: Thesis (S1)
Additional Information: Pembimbing 1 : Oviliani Yenti Yuliana, Ph.D. | Pembimbing 2 : Dr. Hery Heryanto, S.Kom., M.Kom.
Uncontrolled Keywords: Information Retrieval, Deep Learning, BM25, BERT, Natural Language Processing (NLP).
Subjects: T Technology > T Technology (General)
Divisions: ITHB > Teknik Informatika
Depositing User: Mr Agung
Date Deposited: 31 May 2023 05:06
Last Modified: 31 May 2023 05:08
URI: http://repository.ithb.ac.id/id/eprint/33

Actions (login required)

View Item
View Item

Ithb Repository is powered by EPrints 3.4 which is developed by the School of Electronics and Computer Science at the University of Southampton. About EPrints | Accessibility