Perlombongan data

Daripada Wikipedia, ensiklopedia bebas.
Jump to navigation Jump to search

Perlombongan data ialah suatu proses menemukan corak dalam set data besar yang melibatkan persimpangan pembelajaran mesin, statistik dan sistem pangkalan data.[1] Proses penting ini menggunakan kaedah kecerdasan untuk memperoleh corak data.[1][2] Ia merupakan subbidang sains komputer yang bersifat antara disiplin.[1][3][4]

Proses ini bermatlamat memperoleh maklumat daripada set data seterusnya menukarkan maklumat tersebut menjadi suatu struktur yang mudah difahami untuk penggunaan selanjutnya.[1] Proses perlombongan ini merupakan langkah menganalisis dalam proses penemuan pengetahuan dalam pangkalan data (knowledge discovery in databases, atau KDD).[5]

Proses[sunting | sunting sumber]

"Proses penemuan pengetahuan dalam pangkalan data" ditakrifkan secara umumnya melalui langkah-langkah berikut:

  1. Pemilihan (Selection)
  2. Prapemprosesan (Pre-processing)
  3. Penukaran (Transformation)
  4. Perlombongan data
  5. Pentafsiran atau penilaian (Interpretation/evaluation).[5]

Prapemprosesan[sunting | sunting sumber]

Set data dunia sebenar lazimnya mengandungi pelbagai isu antaranya data tidak lengkap (incomplete data), data hingar (noise data) dan data tidak konsisten. Oleh itu langkah prapemprosesan data perlu dilaksanakan terlebih dahulu sebelum teknik perlombongan data diaplikasikan ke atas data tersebut. Secara umumnya tugas prapemprosesan data boleh dikategorikan kepada empat iaitu:

  • Pembersihan data
  • Integrasi data
  • Transformasi data
  • Pengurangan data

Langkah-langkah prapemprosesan data dilaksanakan secara berulang sehingga mencapai output yang dikehendaki dan tidak perlu menuruti jujukan langkah tertentu. Bahkan bukan kesemua langkah tersebut perlu dilaksanakan, sebaliknya ia bergantung kepada kualiti set data yang ingin diproses.

Perlombongan Data[sunting | sunting sumber]

Teknik perlombongan data boleh dikategorikan kepada dua iaitu:

  • Deskriptif - digunakan untuk mengesan pola yang menerangkan hubungan di antara atribut-atribut. Dua jenis teknik perlombongan data deskriptif:
    • Pengelompokan (Clustering) - penemuan kelompok dan struktur dalam data yang sedikit sebanyak "serupa" tanpa mengunakan struktur yang diketahui dalam data
    • Petua sekutuan (Association rule) - pencarian hubungan antara pemboleh ubah; sebagai contoh, tabiat pembelian pelangga
  • Peramalan - digunakan untuk meramal nilai suatu atribut berdasarkan nilai atribut-atribut yang lain. Dua jenis teknik perlombongan data peramalan:
    • Klasifikasi (Classification) - digunakan untuk meramal atribut diskret
    • Regresi (Regression) - digunakan untuk meramal atribut selanjar

Rujukan[sunting | sunting sumber]

  1. ^ a b c d "Data Mining Curriculum". ACM SIGKDD. 30 April 2006. Dicapai 27 Januari 2014. 
  2. ^ Han, Kamber, Pei, Jaiwei, Micheline, Jian (9 Jun 2011). Data Mining: Concepts and Techniques (edisi ke-3). Morgan Kaufmann. ISBN 978-0-12-381479-1. 
  3. ^ Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Dicapai 12 September 2010. 
  4. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Dicapai 7 Ogos 2012. 
  5. ^ a b Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Dicapai 17 Disember 2008.