Pergi ke kandungan

Pembelajaran pengukuhan

Daripada Wikipedia, ensiklopedia bebas.

Berinspirasikan psikologi tingkah laku, pembelajaran pengukuhan ialah satu kawasan pembelajaran mesin dan sains komputer, mengenai cara satu agen akan mengambil tindakan dalam satu persekitaran untuk memaksimumkan sesetengah tanggapan ganjaran longgokan.

Pembelajaran Pengukuhan (Reinforcement Learning – RL) ialah satu bidang antara disiplin dalam pembelajaran mesin dan kawalan optimum yang mengkaji bagaimana agen pintar harus mengambil tindakan dalam persekitaran yang dinamik untuk memaksimumkan isyarat ganjaran. Pembelajaran pengukuhan merupakan salah satu daripada tiga paradigma asas dalam pembelajaran mesin, selain pembelajaran diselia (supervised learning) dan pembelajaran tanpa penyeliaan (unsupervised learning).

Pembelajaran pengukuhan berbeza daripada pembelajaran diselia kerana ia tidak memerlukan pasangan input-output yang berlabel dan tidak memerlukan tindakan yang kurang optimum diperbetulkan secara eksplisit. Sebaliknya, fokus diberikan kepada pencarian imbangan antara penerokaan (meneroka kawasan yang belum diketahui) dan pengeksploitasian (menggunakan pengetahuan sedia ada) dengan matlamat memaksimumkan ganjaran terkumpul, walaupun maklum balas ganjaran tersebut mungkin tidak lengkap atau tertangguh. Usaha mencapai imbangan ini dikenali sebagai dilema penerokaan–pengeksploitasian (exploration–exploitation dilemma).

Persekitaran dalam RL lazimnya dinyatakan dalam bentuk Proses Keputusan Markov (Markov Decision Process – MDP), kerana banyak algoritma pembelajaran pengukuhan menggunakan teknik pengaturcaraan dinamik.[1] Perbezaan utama antara kaedah pengaturcaraan dinamik klasik dan algoritma pembelajaran pengukuhan ialah algoritma RL tidak mengandaikan model matematik yang tepat bagi MDP, dan ia menyasarkan MDP berskala besar di mana kaedah tepat tidak lagi praktikal.[2]

Disebabkan sifatnya yang umum, pembelajaran pengukuhan dikaji dalam pelbagai disiplin seperti teori permainan, teori kawalan, penyelidikan operasi, teori maklumat, pengoptimuman berasaskan simulasi, sistem berbilang agen, kecerdasan kawanan, dan statistik.

Dalam bidang penyelidikan operasi dan teori kawalan, RL turut dikenali sebagai pengaturcaraan dinamik hampiran (approximate dynamic programming) atau pengaturcaraan neuro-dinamik (neuro-dynamic programming).

Masalah yang dikaji dalam RL juga terdapat dalam teori kawalan optimum, yang lebih menumpukan kepada kewujudan dan pencirian penyelesaian optimum serta algoritma untuk mengira penyelesaian tersebut secara tepat — dan kurang menekankan aspek pembelajaran atau penghampiran, terutamanya apabila model matematik persekitaran tidak diketahui.

  1. ^ van Otterlo, Martijn; Wiering, Marco (2012), Wiering, Marco; van Otterlo, Martijn (penyunting), Reinforcement Learning and Markov Decision Processes (dalam bahasa Inggeris), Springer, m/s. 3–42, doi:10.1007/978-3-642-27645-3_1, ISBN 978-3-642-27645-3, dicapai pada 2025-06-27
  2. ^ Li, Shengbo Eben (2023). "Reinforcement Learning for Sequential Decision and Optimal Control". SpringerLink (dalam bahasa Inggeris). doi:10.1007/978-981-19-7784-8.

Pautan luar

[sunting | sunting sumber]

Jika anda melihat rencana yang menggunakan templat {{tunas}} ini, gantikanlah dengan templat tunas yang lebih spesifik.