Mendeteksi Cyberhate pada Twitter Menggunakan Text Classification dan Crowdsourced Labeling

Dana Sulistyo Kusumo; Hadi Kurniawan Sidiq; Indra Lukmana Sardi

Dana Sulistyo Kusumo Universitas Telkom
Hadi Kurniawan Sidiq Universitas Telkom
Indra Lukmana Sardi Universitas Telkom

Kata Kunci: Crowdsourced Labeling, CyberhateTweets, Hate Speech Detection, Text Classification

Abstrak

Pada masa kampanye pemilihan umum presiden 2019 di Indonesia, banyak dukungan yang dilakukan masyarakat dengan berbagai macam bentuk dukungan, seperti dukungan berupa selebaran dan juga tulisan pada media sosial. Pada media sosial seperti Twitter misalnya, selama masa pemilihan presiden terdapat banyak tagar-tagar dukungan seperti #2019gantipresiden, #2019tetapjokowi, dan tagar lainnya, yang terkait pemilihan presiden Indonesia. Namun, tidak jarang terdapat ujaran kebencian atau hate speech yang terkandung pada tweet dengan tagar tersebut. Hate speech yang disebarluaskan di internet (cyberhate) dapat menyebabkan munculnya perselisihan antar individu maupun kelompok. Pada masa kampanye pemilihan presiden ini, cyberhate dapat menyebabkan perselisihan antar kelompok pendukung kedua pasangan calon presiden dan dapat berakibat konflik seperti kerusuhan dan aksi lainnya yang merugikan negara. Dalam makalah ini digunakan algoritme SVM untuk mendeteksi cyberhate yang menghasilkan keakuratan terbaiknya sebesar 97%. Selain itu, juga diterapkan crowdsourced labeling dalam pelabelan dataset yang digunakan, yang menghasilkan validitas data sebesar 98% data valid dengan tujuh data yang salah.

Referensi

I. Alfina, R. Mulia,M.I. Fanany, dan Y. Ekanata, “Hate Speech Detection in the Indonesian Language: A Dataset and Preliminary Study,” 2017 Int. Conf. on Advanced Computer Science and Information Systems (ICACSIS), 2017, hal. 233-238.

H. Margono, X. Yi, dan G.K. Raikundalia, ”Mining Indonesian Cyberbullying Patterns in Social Networks,” Proc. of Thirty-Seventh Australasian Computer Science Conference, 2014, hal. 115-124.

S.H. Pratiwi, “Detection of Hate Speech against Religion on Tweet in the Indonesian Language Using Naïve Bayes Algorithm and Support Vector Machine,” B.Sc. Tesis, Universitas Indonesia, Jakarta, Indonesia, 2016.

I. Alfina, D. Sigmawaty, F. Nurhidayati, dan A.N. Hidayanto, “Utilizing Hashtags for Sentiment Analysis of Tweets in the Political Domain,” Proc. of the 9th Int. Conf. on Machine Learning and Computing, 2017, hal. 43-47.

A. Kahl, C. McConnell, dan W. Tsuma, “Crowdsourcing as a Tool in Conflict Prevention,” Conflict Trends, Vol. 2012, No. 1, hal. 27-34, Jan 2012.

(2018) “Pembobotan Kata atau Term Weighting TF-IDF,” [Online], https://informatikalogi.com/term-weighting-tfidf, tanggal akses: 3-Mei-2019.

J. Ramos, "Using TF-IDF to Determine Word Relevance in Document Queries," 1st Int. Conf. on Machine Learning, 2003, hal. 1-4.

A. Kontostathis, K. Reynolds, A. Garron dan L. Edwards, “Detecting Cyberbullying: Query Terms and Techniques,” Proc. of the 5th Annual ACM Web Science Conference (WebSci '13), 2013, hal. 195-204.

H. Nurrahmi dan D. Nurjanah, “Indonesian Twitter Cyberbullying Detection using Text Classification and User Credibility,” Int. Conf. on Information and Communications Technology (ICOIACT), 2018, hal 543-548.

I.E. Allen dan C.A. Seaman, (2007) "Likert Scale and Data Analyses," [Online], http://asq.org/quality-progress/2007/07/statistics/likertscaleand-data-analyses.html. tanggal akses: 20-Mei-2019.

K. Dinakar, B. Jones, C. Havasi, H. Lieberman, dan R. Picard, "Common Sense Reasoning for Detection, Prevention, and Mitigation of Cyberbullying," ACM Transactions on Interactive Intelligent Systems, Vol. 2, No. 3, hal. 18:1-30, 2012.

Nama Pengguna
Kata Sandi
Remember me
Daftar