Pengelasan statistik

Daripada Wikipedia, ensiklopedia bebas.
Lompat ke: pandu arah, cari

Pengelasan statistik merupakan satu prosedur statistik di mana butiran diletakkan ke dalam kumpulan berdasarkan maklumat kuantitatif mengenai ciri-ciri yang terdapat pada butiran-butiran tersebut (dirujuk sebagai sifat, pembolehubah, ciri dll.) dan berdasarkan set latihan sebelum itu.

Secara rasmi: masalah ini boleh dinyatakan seperti berikut: diberikan data latihan \{(\mathbf{x_1},y_1),\dots,(\mathbf{x_n}, y_n)\} hasilkan satu pengelas h:\mathcal{X}\rightarrow\mathcal{Y} yang memetakan objek \mathbf{x} \in \mathcal{X} kepada label pengelasannya y \in \mathcal{Y}. Sebagai contoh, jika masalahnya ialah menuras spam, maka \mathbf{x_i} ialah sejenis gambaran e-mel dan y adalah sama ada "Spam" atau "Bukan-Spam".

Algoritma pengelasan statistik biasanya digunakan dalam sistem pengecaman pola.

Teknik pengelasan statistik[sunting | sunting sumber]

Sementara terdapat banyak kaedah untuk pengelasan, semuanya menyelesaikan satu dari tiga masalah matematik berkaitan.

Pertama adalah mencari peta ruang ciri (feature space) (biasanya pelbagai dimensi ruang vektor (vector space) bagi set label. Ia bersamaan dengan membahagikan ruang ciri kepada kawasan, kemudian meletakkan label kepada setiap kawasan. Algoritma sedemikian (contoh, algoritma jiran terdekat) biasanya tidak menghasilkan keyakinan atau kebarangkalian kelas, melainkan pasca-pemprosesan digunakan. Set algoritma lain pula menggunakan pengelompokan tanpa pengawasan kepada ruang ciri, kemudian cuba melabel setiap kelompok atau kawasan.

Masalah kedua adalah untuk menganggap pengelasan sebagai masalah anggaran, di mana matlamat adalah untuk menganggar fungsi bagi bentuk

P({\rm class}|{\vec x}) = f\left(\vec x;\vec \theta\right)

di mana input vektor ciri adalah \vec x, dan fungsi f biasanya diparameter oleh sebahagian parameter \vec \theta. Dalam pendekatan statistik Bayesan bagi masalah ini, berlainan dengan memilih satu vektor parameter \vec \theta, hasil dikamir bagi kesemua theta yang mungkin, dengan turutan berat bagi ketepatan berdasarkan data latihan D:

P({\rm class}|{\vec x}) = \int f\left(\vec x;\vec \theta\right)P(\vec \theta|D) d\vec \theta

Masalah ketiga berkait dengan masalah kedua, tetapi masalahnya adalah bagi menganggar kebarangkalian bersyarat (conditional probability) P(\vec x|{\rm class}) dan kemudian menggunakan teorem Bayes untuk menghasilkan kemungkinan kelas sebagaimana dalam masalah kedua.

Contoh algorithm pengelasan termasuk:

Domain aplikasi[sunting | sunting sumber]

Lihat juga[sunting | sunting sumber]