A SURVEY ON SIMILARITY MEASURES IN TEXT MINING
(SURVEI TENTANG TINDAKAN KESAMAAN DALAM PENAMBANGAN TEKS)
M.K.Vijaymeena1 and K.Kavitha2 1M.E.
Scholar, Department of Computer Science & Engineering, Nandha Engineering
College, Erode-638052, Tamil Nadu, India
2
Assistant Professor, Department of Computer Science &
Engineering, Nandha Engineering College, Erode-638052, Tamil Nadu, India
1. ABSTRAK
Volume
sumber daya teks telah meningkat di perpustakaan digital dan internet. Mengorganisasikan dokumen teks ini telah menjadi kebutuhan praktis. Untuk
mengorganisasikan sejumlah besar objek ke dalam
jumlah kecil atau minimum kelompok koheren secara otomatis, teknik Clustering
digunakan. Dokumen-dokumen ini banyak digunakan untuk pencarian informasi dan
tugas-tugas pemrosesan Bahasa manusia . Algoritma Clustering yang
berbeda membutuhkan metrik untuk mengukur seberapa berbedanya dua dokumen yang diberikan. Perbedaan ini sering diukur dengan ukuran
kesamaan seperti jarak Euclidean, kesamaan Cosine dll. Proses pengukuran
kesamaan dalam penambangan teks dapat digunakan untuk mengidentifikasi
algoritma pengelompokan yang sesuai untuk masalah spesifik. Survei ini membahas karya-karya yang ada pada kesamaan teks dengan
mempartisi mereka menjadi tiga pendekatan signifikan; Kesamaan berbasis string,
berbasis pengetahuan dan kesamaan berbasis Corpus.
2. INTI DARI ISI JURNAL
Jurnal Survei tentang
tindakan kesamaan dalam penambangan teks ini membahas karya yang ada pada kesamaan teks dengan mempartisi
mereka menjadi tiga pendekatan signifikan; Kesamaan berbasis string, berbasis
pengetahuan dan kesamaan berbasis Corpus.
Pada pendeketan kesamaan
berbasis string diimplementasikan dalam bentuk paket SimMetrics . Metrik yang
digunakan untuk mengukur jarak antara string teks disebut String metrik dan
digunakan untuk pencocokan string dan perbandingan
Pada kesamaan berbasis
pengetahuan ukuran kesamaan semantik dan didasarkan pada pengidentifikasian
tingkat kesamaan antara kata-kata dan menggunakan berbagai informasi yang
berasal dari jaringan semantik [15]. Jaringan semantik yang paling populer
dikenal sebagai WordNet yang merupakan basis data leksikal besar bahasa
Inggris. Kata benda, kata kerja, kata keterangan, dan kata sifat dikelompokkan
ke dalam kelompok sinonim kognitif yang dikenal sebagai sinkronisasi.
Pada kesamaan berbasis corpus
ukuran kesamaan semantik yang menentukan kesamaan antara kata-kata berdasarkan
informasi yang diperoleh dari korpora.
Algoritma Berbasis String
digunakan untuk mengukur kesamaan Lexical; Algoritma Berbasis Corpus dan
Pengetahuan Berbasis didasarkan pada kesamaan Semantic
3. METODE YANG DIGUNAKAN
Metode yang digunakan adalah Teknik Perbaikan guna menyaring informasi yang berlebihan dan digunakan untuk mengelompokkan data yang terkait erat. Ini mewakili rangkaian lengkap pemangkasan, pemesanan, generalisasi, dan pengelompokan.
4. KELEBIHAN
Pada jurnal ini menguraikan
dengan baik terhadap pendekatan yang digunakan secara signifikan. Dengan
meningkatnya sumber daya kata pada internet dan perpustakaan digital dilakukan Teknik
clustering yang mengorganisasikan sejumlah besar objek ke dalam jumlah kecil atau minimum kelompok koheren secara otomatis dan tentunya memudahkan pengelompokan pada penambangan kata .
5. KEKURANGAN
Pada jurnal ini banyaknya
rumus yang tidak awam sehingga dibutuhkan pemahaman yang ekstra dalam memahami
maksud dari rumus yang diberikan.
6. KESIMPULAN
Text Mining merupakan bidang
penelitian yang signifikan yang mendapatkan popularitas yang meningkat dalam
beberapa tahun terakhir. Mengukur kesamaan antara dokumen teks adalah operasi
penting dari text mining. Dalam survei ini, tiga pendekatan kesamaan teks
seperti String-based, Corpus-based dan kesamaan Knowledge-based dibahas.
String-based dioperasikan pada komposisi karakter dan urutan string. kesamaan
Corpus-based adalah ukuran kesamaan semantik yang menentukan kesamaan antara
kata-kata berdasarkan informasi yang diperoleh dari corpus besar. Ukuran
kesamaan semantik dikenal sebagai kesamaan Berbasis Pengetahuan didasarkan pada
tingkat kesamaan antara kata-kata dan konsep. Beberapa algoritma ini
digabungkan bersama dalam banyak penelitian dan mereka adalah langkah-langkah
kesamaan hybrid. paket kesamaan berguna seperti SimMetrics, WordNet Similarity
dan NLTK disebutkan. Arsitektur sistem untuk sebuah sistem text mining tingkat
lanjut dan fungsi dari berbagai komponen dijelaskan. Berbagai aplikasi real
time yang berbeda dari text mining digunakan dalam lingkungan seperti Industri
Mobil dan Industri Layanan Kesehatan telah dibahas.
7.SARAN/PENGEMBANGAN BERIKUTNYA
Jurnal yang ada sudah sangat bagus hanya saja akan lebih baik lagi jika rumus yang diuraikan dapat lebih mudah dipahami oleh orang awam yang tidak begitu mengerti fungsi matematika seperti pada bagian sub materi Ukuran kesamaan berbasis istilah.