Evaluasi Pengukuran Semantik Sinonim KBBI Menggunakan Pendekatan Word Embedding
Abstract
Kamus Besar Bahasa Indonesia (KBBI) ialah salah satu sumber utama penyedia data dalam penelitian menentukan kemiripan makna kata dalam bahasa Indonesia. Penelitian ini membahas cara metode word embedding dan teknik pembobotan term frequency-inverse document frequency (TF-IDF) mengukur tingkat kemiripan pasangan makna kata sinonim, dengan tujuan mengukur kemiripan pasangan makna kata sinonim dalam KBBI menggunakan cosine similarity dengan memanfaatkan teknik pembobotan TF-IDF dan beberapa model word embedding serta menerapkan latent semantic analysis (LSA). Metodologi penelitian ini dimulai dengan pengumpulan data, kemudian prapemrosesan teks yang terdiri atas case folding, stopword removal, stemming, dan tokenization. Selanjutnya, data yang telah diproses direpresentasikan ke dalam bentuk vektor menggunakan model word embedding, seperti Word2Vec, fastText, GloVe, bidirectional encoder representations from transformers (Sentence-BERT, S-BERT), dan teknik pembobotan TF-IDF. Lalu, LSA diterapkan untuk mereduksi dimensi vektor sebelum dilakukan uji kesamaan dengan cosine similarity dan diakhiri dengan evaluasi hasil. Hasil penelitian menunjukkan bahwa penggunaan fastText berhasil meningkatkan nilai kesamaan antara makna dua kata sinonim dengan nilai rata-rata yang diperoleh pada uji kesamaan dari 30 pasang makna kata sinonim adalah 0,901, dengan hasil evaluasi menunjukkan akurasi 0,88, recall 1,00, presisi 0,81, dan F1-score 0,90. Dengan temuan ini, dapat disimpulkan bahwa penggunaan fastText lebih efektif dalam meningkatkan akurasi pengukuran kemiripan makna kata sinonim. Rekomendasi untuk penelitian selanjutnya melibatkan perluasan korpus data dan eksplorasi lebih lanjut terhadap word embedding dalam uji kesamaan makna kata. Penelitian ini memberikan kontribusi pada pengembangan pemrosesan bahasa alami dan berpotensi menjadi dasar untuk aplikasi berbasis pemrosesan bahasa yang lebih akurat dalam mengukur kemiripan makna kata dalam KBBI.
References
Y. Caterina, M.A. Yaqin, and S. Zaman, “Pengukuran kemiripan makna kalimat dalam bahasa Indonesia menggunakan metode path,” Fountain Inform. J., vol. 6, no. 2, pp. 45–50, Nov. 2021, doi: 10.21111/fij.v6i2.4844.
N.P. Paino, D.D.S. Hutagaol, and A.U. Sagala, “Analisis penanda hubungan sinonim dan hiponimi pada puisi ‘Membaca Tanda-Tanda’ karya Taufiq Ismail,” Pena Literasi, J. Pendidik. Bhs. Sastra Indones., vol. 4, no. 1, pp. 37–44, Apr. 2021, doi: 10.24853/pl.4.1.37-44.
J. Wang and Y. Dong, “Measurement of text similarity: A survey,” Information, vol. 11, no. 9, pp. 1–17, Sep. 2020, doi: 10.3390/info11090421.
G.U. Abriani and M.A. Yaqin, “Implementasi metode semantic similarity untuk pengukuran kemiripan makna antar kalimat,” ILKOMNIKA, J. Comput. Sci. Appl. Inform., vol. 1, no. 2, pp. 47–57, Dec. 2019, doi: 10.28926/ilkomnika.v1i2.15.
R.M. Arrasyid, D.E. Putera, and A.Y.P. Yusuf, “Analisis sentimen review pembelian produk di marketplace Shopee menggunakan pendekatan natural language processing,” J. Tekno Kompak, vol. 18, no. 2, pp. 319–330, Aug. 2024, doi: 10.33365/jtk.v18i2.3813.
S.A. Zulvian, K. Prihandani, and A.A. Ridha, “Perbandingan metode MSD dan cosine similarity pada sistem rekomendasi dengan pendekatan item-based collaborative filtering,” Intecoms, J. Inf. Technol. Comput. Sci., vol. 4, no. 2, pp. 340–347, Dec. 2021, doi: 10.31539/intecoms.v4i2.2781.
Rismayani et al., “Implementasi algoritma text mining dan cosine similarity untuk desain sistem aspirasi publik berbasis mobile,” Komputika, J. Sist. Komput., vol. 11, no. 2, pp. 169–176, Oct. 2022, doi: 10.34010/komputika.v11i2.6501.
Y.A. Pradana, I. Cholissodin, and D. Kurnianingtyas, “Analisis sentimen pemindahan Ibu Kota Indonesia pada media sosial Twitter menggunakan metode LSTM dan Word2Vec,” JPTIIK (J. Pengembangan Teknol. Inf. Ilmu Komput.), vol. 7, no. 5, pp. 2389–2397, May 2023.
A. Nurdin, B.A.S. Aji, A. Bustamin, and Z. Abidin, “Perbandingan kinerja word embedding Word2Vec, GloVe, dan fastText pada klasifikasi teks,” J. Tekno Kompak, vol. 14, no. 2, pp. 74–79, Aug. 2020, doi: 10.33365/jtk.v14i2.796.
R. P. Nawangsari, R. Kusumaningrum, and A. Wibowo, “Word2Vec for Indonesian sentiment analysis towards hotel reviews: An evaluation study,” Procedia Comput. Sci., vol. 157, pp. 360–366, Sep 2019, doi: 10.1016/j.procs.2019.08.178.
R.P. Hastuti, V. Riona, and M. Hardiyanti, “Content retrieval dengan fastText word embedding pada learning management system olimpiade,” J. Internet Softw. Eng., vol. 4, no. 1, pp. 18–22, May 2023, doi: 10.22146/jise.v4i1.6766.
B. Juarto and A.S. Girsang, “Neural collaborative with sentence BERT for news recommender system,” JOIV, Int. J. Inform. Vis., vol. 5, no. 4, pp. 448–455, Dec. 2021, doi: 10.30630/joiv.5.4.678.
L. Cagliero, P. Garza, and E. Baralis, “ELSA: A multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis,” ACM Trans. Inf. Syst. (TOIS), vol. 37, no. 2, pp. 1–33, Apr. 2019, doi: 10.1145/3298987.
M. Panji M and A.F. Huda, “Calculating the similarity of Indonesian sentences using latent semantic indexing based on KBBI,” in 2022 Int. Conf. Inform. Multimed. Cyber Inf. Syst. (ICIMCIS), 2022, pp. 148–153, doi: 10.1109/ICIMCIS56303.2022.10017797.
A. Sanjaya and S.D. Sasongko, “Uji kemiripan kalimat menggunakan fungsi terbilang pada pre-processing dan cosine similarity dalam bahasa Indonesia,” NERO (Netw. Eng. Res. Oper.), vol. 7, no. 2, pp. 95–104, Nov. 2022.
A. Sanjaya, et al., “Pengukuran kemiripan makna menggunakan cosine similarity dan basis data sinonim kata,” J. Teknol. Inf. Ilmu Komput., vol. 10, no. 4, pp. 747–752, Aug. 2023, doi: 10.25126/jtiik.2023106864.
R.G. Ramli and Y. Sibaroni, “Klasifikasi topik Twitter menggunakan metode random forest dan fitur ekspansi Word2Vec,” e-Proceeding Eng., vol. 9, no. 1, pp. 79–92, Feb. 2022.
W. Widayat, “Analisis sentimen movie review menggunakan Word2Vec dan metode LSTM deep learning,” J. Media Inform. Budidarma, vol. 5, no. 3, pp. 1018–1026, Jul. 2021, doi: 10.30865/mib.v5i3.3111.
E. Suryati, Styawati, and A.A. Aldino, “Analisis sentimen transportasi online menggunakan ekstraksi fitur model Word2Vec text embedding dan algoritma support vector machine (SVM),” J. Teknol. Sist. Inf., vol. 4, no. 1, pp. 96–106, Mar. 2023, doi: 10.33365/jtsi.v4i1.2445.
G.W. Aldiansyah, P.P. Adikara, and R.C. Wihandika, “Rekomendasi lagu cross language berdasarkan lirik menggunakan Word2Vec,” JPTIIK (J. Pengembangan Teknol. Inf. Ilmu Komput.), vol. 3, no. 8, pp. 8036–8041, Aug. 2019.
R. Julistiana , “Kosa Kata Bahasa Indonesia Yang Unik Dan Menarik,” Abdima Dejurnal, vol. 1, no. 1, hlm. 106–112, Apr. 2024.
X. Rong, “Word2Vec parameter learning explained,” 2014, arXiv: 1411.2738.
H. Arfandy and I.A. Musdar, “Rancang bangun sistem cerdas pemberian nilai otomatis untuk ujian esai menggunakan algoritma cosine similarity,” Inspiration: J. Teknol. Inf. Komun., vol. 10, no. 2, pp. 123–136, Dec. 2020.
A.E. Sari, S. Widowati, and K.M. Lhaksmana, “Klasifikasi ulasan pengguna aplikasi mandiri online di Google Play Store dengan menggunakan metode information gain dan naive Bayes classifier,” e- e-Proceeding Eng., vol. 6, no. 2, pp. 9143–9157, Aug. 2019.
R.S. Amardita, Adiwijaya, and M.D. Purbolaksono, “Analisis sentimen terhadap ulasan Paris van Java resort lifestyle place di Kota Bandung menggunakan algoritma KNN,” JURIKOM (J. Ris. Komput.), vol. 9, no. 1, pp. 62–68, Feb. 2022, doi: 10.30865/jurikom.v9i1.3793.
S. Lumbansiantar, S. Dwiasnati, and N.S. Fatonah, “Penerapan metode cosine similarity dalam mendeteksi plagiarisme pada jurnal,” Format, J. Ilm. Tek. Inform., vol. 12, no. 2, pp. 142–150, Jul. 2023, doi: 10.22441/format.2023.v12.i2.007.
Apriani, H. Zakiyudin, and K. Marzuki, “Penerapan algoritma cosine similarity dan pembobotan TF-IDF system penerimaan mahasiswa baru pada kampus swasta,” J. Bumigora Inf. Technol. (BITe), vol. 3, no. 1, pp. 19–27, Jun. 2021, doi: 10.30812/bite.v3i1.1110.
A.B.P. Negara, H. Muhardi, and I.M. Putri, “Analisis sentimen maskapai penerbangan menggunakan metode naive Bayes dan seleksi fitur information gain,” J. Teknol. Inf. Ilmu Komput., vol. 7, no. 3, pp. 599–606, Jun. 2020, doi: 10.25126/jtiik.202071947.
I.K.B.A.W. Kencana and W. Maharani, “Klasifikasi opini pada fitur produk berbasis graph,” e-Proc. Eng., vol. 4, no. 2, pp. 3148–3155, Aug. 2017.
M.D.R. Wahyudi, “Penerapan algoritma cosine similarity pada text mining terjemah Al-Qur’an berdasarkan keterkaitan topik,” Semesta Tek., vol. 22, no. 1, pp. 41–50, May 2019, doi: 10.18196/st.221235.
© Jurnal Nasional Teknik Elektro dan Teknologi Informasi, under the terms of the Creative Commons Attribution-ShareAlike 4.0 International License.