Perlombongan data

Daripada Wikipedia, ensiklopedia bebas.
Jump to navigation Jump to search

Perlombongan data ialah suatu proses menemukan corak dalam set data besar yang melibatkan persimpangan pembelajaran mesin, statistik dan sistem pangkalan data.[1] Proses penting ini menggunakan kaedah kecerdasan untuk memperoleh corak data.[1][2] Ia merupakan subbidang sains komputer yang bersifat antara disiplin.[1][3][4]

Proses ini bermatlamat memperoleh maklumat daripada set data seterusnya menukarkan maklumat tersebut menjadi suatu struktur yang mudah difahami untuk penggunaan selanjutnya.[1] Proses perlombongan ini merupakan langkah menganalisis dalam proses penemuan pengetahuan dalam pangkalan data (knowledge discovery in databases, atau KDD).[5]

Proses[sunting | sunting sumber]

"Proses penemuan pengetahuan dalam pangkalan data" ditakrifkan secara umumnya melalui langkah-langkah berikut:

  1. Pemilihan (Selection)
  2. Prapemprosesan (Pre-processing)
  3. Penukaran (Transformation)
  4. Perlombongan data
  5. Pentafsiran atau penilaian (Interpretation/evaluation).[5]

Prapemprosesan[sunting | sunting sumber]

Suatu set data sasaran yang cukup besar sehingga mengandungi corak yang wujud dalam data sambil ia boleh dilombong dengan tepatnya dalam suatu tempoh masa yang jelas harus dibina sebelum algoritma perlombongan data dapat digunakan. Data dapat diperolehi daripada sumber tertentu seperti pasar atau gudang data. Langkah ini penting untuk menganalisis set data yang multivariat sebelum pelombongan berlaku. Set data sasaran ini kemudiannya "dibersihkan" bagi membuang sebarang pemerhatian yang mengandungi hingar statistik (statitical noise) dan data yang hilang.

Perlombongan data[sunting | sunting sumber]

Perlombongan data melibatkan enam kelas tugasan yang awam iaitu:[5]

  • Pengesanan anomali (anomaly detection) – pengenalpastian catatan data yang tidak normal yang barangkalinya menarik perhatian atau ralat data yang memerlukan siasatan lanjut.
  • Pembelajaran peraturan sekutuan (Association rule learning) – pencarian hubungan antara pemboleh ubah; sebagai contoh, tabiat pembelian pelanggan yang dikumpul syarikat pasar raya melalui pembelajaran peraturan sekutuan boleh digunakan untuk menentukan produk mana yang dibelikan bersama lalu maklumat tersebut dihantarkan untuk tujuan pemasaran.
  • Pengelompokan (Clustering) – penemuan kelompok dan struktur dalam data yang sedikit sebanyak "serupa" tanpa mengunakan struktur yang diketahui dalam data.
  • Pengelasan (Classification) – membuat sesuatu struktur yang diketahui itu lebih umum agar ia dipakai pada data baru.
  • Regresi (Regression) – percubaan mencari fungsi yang memodelkan data dengan ralat yang paling kurang untuk menganggarkan hubungan antara data atau pangkalan data.
  • Peringkasan (Summarization) – memberikna perwakilan yang lebih padat kepada set data termasuk melalui visualisasi dan pemnghasilan laporan.

Rujukan[sunting | sunting sumber]

  1. ^ a b c d "Data Mining Curriculum". ACM SIGKDD. 30 April 2006. Dicapai 27 Januari 2014. 
  2. ^ Han, Kamber, Pei, Jaiwei, Micheline, Jian (9 Jun 2011). Data Mining: Concepts and Techniques (edisi ke-3). Morgan Kaufmann. ISBN 978-0-12-381479-1. 
  3. ^ Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Dicapai 12 September 2010. 
  4. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Dicapai 7 Ogos 2012. 
  5. ^ a b c Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Dicapai 17 Disember 2008.