Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia

Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma s...

Full description

Saved in:
Bibliographic Details
Main Author: Thamrin, Husni
Format: UMS Journal (OJS)
Language:eng
Published: Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia 2015
Online Access:https://journals.ums.ac.id/index.php/khif/article/view/1174
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1805342485402091520
author Thamrin, Husni
author_facet Thamrin, Husni
author_sort Thamrin, Husni
collection OJS
description Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi tertinggi sebesar 0,7508.
format UMS Journal (OJS)
id oai:ojs2.journals.ums.ac.id:article-1174
institution Universitas Muhammadiyah Surakarta
language eng
publishDate 2015
publisher Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia
record_format ojs
spelling oai:ojs2.journals.ums.ac.id:article-1174 Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia Thamrin, Husni Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi tertinggi sebesar 0,7508. Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia 2015-12-16 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion application/pdf https://journals.ums.ac.id/index.php/khif/article/view/1174 10.23917/khif.v1i1.1174 Khazanah Informatika : Jurnal Ilmu Komputer dan Informatika; Vol. 1 No. 1 Desember 2015; 7-11 Khazanah Informatika; Vol. 1 No. 1 Desember 2015; 7-11 2477-698X 2621-038X eng https://journals.ums.ac.id/index.php/khif/article/view/1174/1013 Copyright (c) 2016 Khazanah Informatika http://creativecommons.org/licenses/by-sa/4.0
spellingShingle Thamrin, Husni
Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title_full Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title_fullStr Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title_full_unstemmed Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title_short Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
title_sort efektivitas algoritma semantik dengan keterkaitan kata dalam mengukur kemiripan teks bahasa indonesia
url https://journals.ums.ac.id/index.php/khif/article/view/1174
work_keys_str_mv AT thamrinhusni efektivitasalgoritmasemantikdenganketerkaitankatadalammengukurkemiripanteksbahasaindonesia