Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia
Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma s...
Saved in:
Main Author: | |
---|---|
Format: | UMS Journal (OJS) |
Language: | eng |
Published: |
Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia
2015
|
Online Access: | https://journals.ums.ac.id/index.php/khif/article/view/1174 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1805342485402091520 |
---|---|
author | Thamrin, Husni |
author_facet | Thamrin, Husni |
author_sort | Thamrin, Husni |
collection | OJS |
description | Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi tertinggi sebesar 0,7508. |
format | UMS Journal (OJS) |
id | oai:ojs2.journals.ums.ac.id:article-1174 |
institution | Universitas Muhammadiyah Surakarta |
language | eng |
publishDate | 2015 |
publisher | Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia |
record_format | ojs |
spelling | oai:ojs2.journals.ums.ac.id:article-1174 Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia Thamrin, Husni Algoritma similaritas terhadap teks telah diterapkan pada berbagai aplikasi seperti deteksi plagiasi, pengelompokan dokumen, klasifikasi teks berita, mesin penjawab otomatis dan aplikasi penerjemahan bahasa. Beberapa aplikasi telah menunjukkan hasil yang baik. Sayangnya, upaya menerapkan algoritma similaritas semantik belum cukup berhasil terhadap teks bahasa Indonesia karena minimnya koleksi basis pengetahuanbahasa Indonesia, misalnya terkait keberadaan tesaurus atau word net. Penelitian ini berfokus pada upaya menghimpun hiponim dan meronim pada bahasa Indonesia, membangun korpus pasangan kalimat yang direview oleh penutur bahasa untuk menilai tingkat similaritas, dan mencermati efektivitas algoritma similaritas semantik dalam mengukur kemiripan kalimat bahasa Indonesia yang ada dalam korpus. Kemiripan kata diperoleh dari keterkaitan kata dalam bentuk sinonim, hiponim dan meronim sebagai basis pengetahuan. Penelitian ini menunjukkan bahwa penggunaan basis pengetahuan tersebut meningkatkan skor similaritas kalimat yang mengandung kata-kata yang berkaitan secara leksikal. Pada penelitian ini dihitung korelasi antara skor similaritas hasil perhitungan algoritma dengan skor kemiripan kalimat sebagaimana dipersepsikan oleh penutur bahasa. Tiga macam algoritma perhitungan telah diujicoba. Perhitungan similaritas menggunakan persentase jumlah kemunculan kata yang sama memberikan angka korelasi sebesar 0,7128. Angka korelasi untuk perhitungan similaritas menggunakan fungsi kosinus adalah sebesar 0,7408. Sedangkan perhitungan similaritas menggunakan algoritma semantik yang memperhatikan keterkaitan kata memberikan tingkat korelasi tertinggi sebesar 0,7508. Department of Informatics, Universitas Muhammadiyah Surakarta, Indonesia 2015-12-16 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion application/pdf https://journals.ums.ac.id/index.php/khif/article/view/1174 10.23917/khif.v1i1.1174 Khazanah Informatika : Jurnal Ilmu Komputer dan Informatika; Vol. 1 No. 1 Desember 2015; 7-11 Khazanah Informatika; Vol. 1 No. 1 Desember 2015; 7-11 2477-698X 2621-038X eng https://journals.ums.ac.id/index.php/khif/article/view/1174/1013 Copyright (c) 2016 Khazanah Informatika http://creativecommons.org/licenses/by-sa/4.0 |
spellingShingle | Thamrin, Husni Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title | Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title_full | Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title_fullStr | Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title_full_unstemmed | Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title_short | Efektivitas Algoritma Semantik dengan Keterkaitan Kata dalam Mengukur Kemiripan Teks Bahasa Indonesia |
title_sort | efektivitas algoritma semantik dengan keterkaitan kata dalam mengukur kemiripan teks bahasa indonesia |
url | https://journals.ums.ac.id/index.php/khif/article/view/1174 |
work_keys_str_mv | AT thamrinhusni efektivitasalgoritmasemantikdenganketerkaitankatadalammengukurkemiripanteksbahasaindonesia |