March 5, 2012

Pengertian Data Mining



Data Mining adalah suatu kelas aplikasi database yang berfungsi melakukan pencarian pola-pola tersembunyi di dalam suatu kumpulan data yang bisa digunakan untuk memprediksikan tren atau perilaku yang akan datang.

Misalnya, perangkat lunak data mining bisa membantu perusahaanritel untuk menemukan pelanggan yang memiliki ketertarikan tertentu.Istilah ini umumnya dipersempit artinya yaitu hanya untuk menggambarkan perangkat lunak yang merepresentasikan data dengan cara-cara yang baru. Namun sebenarnya perangkat lunak data mining tidak hanya berfungsi mengubah presentasi tersebut, melainkan juga menemukan relasi tak dikenal antar-data. Data mining dikenal di dunia sains dan matematis namun juga digunakan secara lebih luas oleh para pemasar untuk merangkum data konsumen dari beragam Web site.

Pengertian Data Mining menurut para ahli :
Definisi data mining berdasarkan [JK06] adalah proses mengekstraksi pola-pola yang menarik (tidak remeh-temeh, implisit, belum diketahui sebelumnya, dan berpotensi untuk bermanfaat) dari data yang berukuran besar. Ada beberapa istilah yang mempunyai kemiripan dengan data mining, yaitu ekstraksi pengetahuan, analisis pola, pengerukan data, dan lain-lain. Ada yang berpendapat data mining merupakan sinonim dari istilah knowledge discovery in database (KDD).

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi  yang selama ini tidak diketahui secara manual dari suatu basisdata.  Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.

Manfaat Data Mining :

  • Classification, Menentukan karakteristik dari kelompok tertentu.
  • Clustering, Identifikasi kelompok/groups dari item-tem yangberbagi satu karakteristik. Clustering berbeda dengan classification,dimana tidak ada penentuan terlebih dulu karakteristik
  • Association, Identifikasi relationships antara event-event yangterjadi pada suatu saat.
  • Sequencing, Identifies relationships yang ada sepanjang satuperiode waktu.
  • Forecasting, Estimasi nilai2 masadatang berdasarkan patternsdalam sekumpulan besar data.
  • Regression, Memetakan sebuah data item pada satu variableprediksi.
  • Time Series analysis, menguji sebuah nilai atas variasinya sepanjang waktu.

Tujuan Data Mining :
Tujuan dari data mining adalah menemukan hubungan-hubungan ataupola-pola yang mungkin memberikan indikasi yang bermanfaat. Kehadiran data mining dilatar belakangi oleh berlimpahnya data(overload data) yang dialami oleh berbagai institusi, perusahaanatau organisasi. Berlimpahnya data ini merupakan akumulasi datatransaksi yang terekam bertahun-tahun. Data–data tersebut merupakan  data  transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut On Line Transaction Processing).

Data mining juga dilatarbelakangi oleh atau adanya ledakan informasi (explotion information) dari berbagai media terutama internet. Delapan puluh persen informasi yang disajikan media internet dalam bentuk tak terstruktur (unstructured information). Media internet menyajikan informasi dalam berbagai format file, bahasa, dan bentuk penyajian seperti teks, gambar, suara ataupun  video. Kendala lainyang melatarbelakangi adalah tidak dilengkapinya informasi dengan metadata yang terstandarisasi atau bahkan tidak menyertakannya sama sekali.

Pertumbuhan yang pesat dari akumulasi data/informasi itu telah menciptakan kondisi dimana suatu institusi memiliki bergunung-gunung data tetapi  miskin informasi yang bermaanfaat(“rich of data but poor of information”). Tidak jarang “gunung” data itu dibiarkan begitu saja seakan-akan menjadi  “kuburan data” (datatombs). Pertanyaannya sekarang, apakah gunung data tersebut akan dibiarkan, tidak berguna lalu dibuang, ataukah dapat ditambang untuk menemukan “emas” yaitu informasi yang lebih bermanfaat. Jawabnya ya, data mining hadir untuk menjawab tantangan tersebut.

Model dalam Data Mining :
Model verifikasi menggunakan pendekatan top down dengan mengambil hipotesa dari user dan memeriksa validasinya dengan data sehingga bisa dibuktikan kebenaran hipotesa tersebut. Model knowledge Discovery menggunakan pendekatan bottom up untuk mendapatkan informasi yang sebelumnya tidak diketahui.

Model knowledge Discovery dibagi menjadi 2 :

1. Direct knowladge discovery
Data mining akan mencoba mencari penjelasan nilai target field tertentu ( seperti penghasilan, respons, usia, dan lain-lain) terhadap filed-filed yang lain.

2. Undirected knowladge discovery
Tidak ada target filed karena komputer akan mencari pola yang ada pada data. Jadi undirected knowladge discovery digunakan untuk mengenali hubungan / relasi yang ada pada data sedangkan directed knowladge discovery akan menjelaskan hubungan / relasi tersebut.

Konsep Data Mining :
Data mining sangat perlu diperlukan dilakukan terutama dalam mengelola Data yang sangat besar untuk memudahkan aktifitas recording suatu transaksi dan untuk proses data warehousing agar dapat memberikan informasi yang akurat bagi penggunanya.

Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan. berikut langkah-langkahnya :

  • Data cleaning (untuk menghilangkan noise data yang tidak konsisten) 
  • Data integration (di mana sumber data yang terpecah dapat disatukan)
  • Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
  • Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi)
  • Knowledge Discovery (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
  • Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)
  • Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kepada user).

Metode Data Mining :
Metode data mining dapat diklasifikasikan berdasarkan fungsi yang dilakukan atau berdasarkan jenis aplikasinya :
  • Klasifikasi (supervised)
  • Clustering (unsupervised)
  • Association Rules (unsupervised)
  • Attribute Importance (supervised)

0 comments