Selasa, 15 Januari 2019

Tugas Desain Pemodelan Grafik Ke - 4


A SURVEY ON SIMILARITY MEASURES IN TEXT MINING


(SURVEI TENTANG TINDAKAN KESAMAAN DALAM PENAMBANGAN TEKS)


M.K.Vijaymeena1 and K.Kavitha2  1M.E. Scholar, Department of Computer Science & Engineering, Nandha Engineering College, Erode-638052, Tamil Nadu, India
2
Assistant Professor, Department of Computer Science & Engineering, Nandha Engineering College, Erode-638052, Tamil Nadu, India  

1. ABSTRAK


Volume sumber daya teks telah meningkat di perpustakaan digital dan internet. Mengorganisasikan dokumen teks ini telah menjadi kebutuhan praktis. Untuk mengorganisasikan sejumlah besar objek ke dalam jumlah kecil atau minimum kelompok koheren secara otomatis, teknik Clustering digunakan. Dokumen-dokumen ini banyak digunakan untuk pencarian informasi dan tugas-tugas pemrosesan Bahasa manusia . Algoritma Clustering yang berbeda membutuhkan metrik untuk mengukur seberapa berbedanya dua dokumen yang diberikan. Perbedaan ini sering diukur dengan ukuran kesamaan seperti jarak Euclidean, kesamaan Cosine dll. Proses pengukuran kesamaan dalam penambangan teks dapat digunakan untuk mengidentifikasi algoritma pengelompokan yang sesuai untuk masalah spesifik. Survei ini membahas karya-karya yang ada pada kesamaan teks dengan mempartisi mereka menjadi tiga pendekatan signifikan; Kesamaan berbasis string, berbasis pengetahuan dan kesamaan berbasis Corpus.


2. INTI DARI ISI JURNAL


Jurnal Survei tentang tindakan kesamaan dalam penambangan teks ini membahas karya  yang ada pada kesamaan teks dengan mempartisi mereka menjadi tiga pendekatan signifikan; Kesamaan berbasis string, berbasis pengetahuan dan kesamaan berbasis Corpus.
Pada pendeketan kesamaan berbasis string diimplementasikan dalam bentuk paket SimMetrics . Metrik yang digunakan untuk mengukur jarak antara string teks disebut String metrik dan digunakan untuk pencocokan string dan perbandingan
Pada kesamaan berbasis pengetahuan ukuran kesamaan semantik dan didasarkan pada pengidentifikasian tingkat kesamaan antara kata-kata dan menggunakan berbagai informasi yang berasal dari jaringan semantik [15]. Jaringan semantik yang paling populer dikenal sebagai WordNet yang merupakan basis data leksikal besar bahasa Inggris. Kata benda, kata kerja, kata keterangan, dan kata sifat dikelompokkan ke dalam kelompok sinonim kognitif yang dikenal sebagai sinkronisasi.
Pada kesamaan berbasis corpus ukuran kesamaan semantik yang menentukan kesamaan antara kata-kata berdasarkan informasi yang diperoleh dari korpora.
Algoritma Berbasis String digunakan untuk mengukur kesamaan Lexical; Algoritma Berbasis Corpus dan Pengetahuan Berbasis didasarkan pada kesamaan Semantic


3. METODE YANG DIGUNAKAN


Metode yang digunakan adalah Teknik Perbaikan guna menyaring informasi yang berlebihan dan digunakan untuk mengelompokkan data yang terkait erat. Ini mewakili rangkaian lengkap pemangkasan, pemesanan, generalisasi, dan pengelompokan.

4. KELEBIHAN


Pada jurnal ini menguraikan dengan baik terhadap pendekatan yang digunakan secara signifikan. Dengan meningkatnya sumber daya kata pada internet dan perpustakaan digital dilakukan Teknik clustering yang mengorganisasikan sejumlah besar objek ke dalam jumlah kecil atau minimum kelompok koheren secara otomatis dan tentunya memudahkan pengelompokan pada penambangan kata .

5. KEKURANGAN


Pada jurnal ini banyaknya rumus yang tidak awam sehingga dibutuhkan pemahaman yang ekstra dalam memahami maksud dari rumus yang diberikan.

6. KESIMPULAN


Text Mining merupakan bidang penelitian yang signifikan yang mendapatkan popularitas yang meningkat dalam beberapa tahun terakhir. Mengukur kesamaan antara dokumen teks adalah operasi penting dari text mining. Dalam survei ini, tiga pendekatan kesamaan teks seperti String-based, Corpus-based dan kesamaan Knowledge-based dibahas. String-based dioperasikan pada komposisi karakter dan urutan string. kesamaan Corpus-based adalah ukuran kesamaan semantik yang menentukan kesamaan antara kata-kata berdasarkan informasi yang diperoleh dari corpus besar. Ukuran kesamaan semantik dikenal sebagai kesamaan Berbasis Pengetahuan didasarkan pada tingkat kesamaan antara kata-kata dan konsep. Beberapa algoritma ini digabungkan bersama dalam banyak penelitian dan mereka adalah langkah-langkah kesamaan hybrid. paket kesamaan berguna seperti SimMetrics, WordNet Similarity dan NLTK disebutkan. Arsitektur sistem untuk sebuah sistem text mining tingkat lanjut dan fungsi dari berbagai komponen dijelaskan. Berbagai aplikasi real time yang berbeda dari text mining digunakan dalam lingkungan seperti Industri Mobil dan Industri Layanan Kesehatan telah dibahas.

7.SARAN/PENGEMBANGAN BERIKUTNYA


Jurnal yang ada sudah sangat bagus hanya saja akan lebih baik lagi jika rumus yang diuraikan dapat lebih mudah dipahami oleh orang awam yang tidak begitu mengerti fungsi matematika seperti pada bagian sub materi Ukuran kesamaan berbasis istilah.


 


Tidak ada komentar:

Posting Komentar