Pembelajaran pengukuhan
Berinspirasikan psikologi tingkah laku, pembelajaran pengukuhan ialah satu kawasan pembelajaran mesin dan sains komputer, mengenai cara satu agen akan mengambil tindakan dalam satu persekitaran untuk memaksimumkan sesetengah tanggapan ganjaran longgokan.
Pembelajaran Pengukuhan (Reinforcement Learning – RL) ialah satu bidang antara disiplin dalam pembelajaran mesin dan kawalan optimum yang mengkaji bagaimana agen pintar harus mengambil tindakan dalam persekitaran yang dinamik untuk memaksimumkan isyarat ganjaran. Pembelajaran pengukuhan merupakan salah satu daripada tiga paradigma asas dalam pembelajaran mesin, selain pembelajaran diselia (supervised learning) dan pembelajaran tanpa penyeliaan (unsupervised learning).
Pembelajaran pengukuhan berbeza daripada pembelajaran diselia kerana ia tidak memerlukan pasangan input-output yang berlabel dan tidak memerlukan tindakan yang kurang optimum diperbetulkan secara eksplisit. Sebaliknya, fokus diberikan kepada pencarian imbangan antara penerokaan (meneroka kawasan yang belum diketahui) dan pengeksploitasian (menggunakan pengetahuan sedia ada) dengan matlamat memaksimumkan ganjaran terkumpul, walaupun maklum balas ganjaran tersebut mungkin tidak lengkap atau tertangguh. Usaha mencapai imbangan ini dikenali sebagai dilema penerokaan–pengeksploitasian (exploration–exploitation dilemma).
Persekitaran dalam RL lazimnya dinyatakan dalam bentuk Proses Keputusan Markov (Markov Decision Process – MDP), kerana banyak algoritma pembelajaran pengukuhan menggunakan teknik pengaturcaraan dinamik.[1] Perbezaan utama antara kaedah pengaturcaraan dinamik klasik dan algoritma pembelajaran pengukuhan ialah algoritma RL tidak mengandaikan model matematik yang tepat bagi MDP, dan ia menyasarkan MDP berskala besar di mana kaedah tepat tidak lagi praktikal.[2]
Prinsip
[sunting | sunting sumber]Disebabkan sifatnya yang umum, pembelajaran pengukuhan dikaji dalam pelbagai disiplin seperti teori permainan, teori kawalan, penyelidikan operasi, teori maklumat, pengoptimuman berasaskan simulasi, sistem berbilang agen, kecerdasan kawanan, dan statistik.
Dalam bidang penyelidikan operasi dan teori kawalan, RL turut dikenali sebagai pengaturcaraan dinamik hampiran (approximate dynamic programming) atau pengaturcaraan neuro-dinamik (neuro-dynamic programming).
Masalah yang dikaji dalam RL juga terdapat dalam teori kawalan optimum, yang lebih menumpukan kepada kewujudan dan pencirian penyelesaian optimum serta algoritma untuk mengira penyelesaian tersebut secara tepat — dan kurang menekankan aspek pembelajaran atau penghampiran, terutamanya apabila model matematik persekitaran tidak diketahui.
Rujukan
[sunting | sunting sumber]- ^ van Otterlo, Martijn; Wiering, Marco (2012), Wiering, Marco; van Otterlo, Martijn (penyunting), Reinforcement Learning and Markov Decision Processes (dalam bahasa Inggeris), Springer, m/s. 3–42, doi:10.1007/978-3-642-27645-3_1, ISBN 978-3-642-27645-3, dicapai pada 2025-06-27
- ^ Li, Shengbo Eben (2023). "Reinforcement Learning for Sequential Decision and Optimal Control". SpringerLink (dalam bahasa Inggeris). doi:10.1007/978-981-19-7784-8.
Pautan luar
[sunting | sunting sumber]- Reinforcement Learning Repository (Inggeris)
- Reinforcement Learning and Artificial Intelligence Diarkibkan 2019-02-07 di Wayback Machine (Sutton's lab at the University of Alberta)
- (Inggeris) Upah Gaji
- (Inggeris) Nguliday
- Autonomous Learning Laboratory (Barto's lab at the University of Massachusetts Amherst) (Inggeris)
- RL-Glue (Inggeris)
- Software Tools for Reinforcement Learning (Matlab and Python) Diarkibkan 2013-07-21 di Wayback Machine (Inggeris)
- The UofA Reinforcement Learning Library (texts) Diarkibkan 2012-02-06 di Wayback Machine (Inggeris)
- The Reinforcement Learning Toolbox from the (Graz University of Technology) (Inggeris)
- Hybrid reinforcement learning Diarkibkan 2019-08-18 di Wayback Machine (Inggeris)
- Piqle: a Generic Java Platform for Reinforcement Learning (Inggeris)
- A Short Introduction To Some Reinforcement Learning Algorithms Diarkibkan 2010-06-12 di Wayback Machine (Inggeris)
- Reinforcement Learning applied to Tic-Tac-Toe Game Diarkibkan 2016-08-28 di Wayback Machine (Inggeris)
- Scholarpedia Reinforcement Learning (Inggeris)
- Scholarpedia Temporal Difference Learning (Inggeris)
- Stanford Reinforcement Learning Course Diarkibkan 2012-03-21 di Wayback Machine (Inggeris)
- Real-world reinforcement learning experiments Diarkibkan 2018-10-08 di Wayback Machine at Delft University of Technology (Inggeris)
- Reinforcement Learning Tools for Matlab (Inggeris)
- Stanford University Andrew Ng Lecture on Reinforcement Learning (Inggeris)
Jika anda melihat rencana yang menggunakan templat {{tunas}} ini, gantikanlah dengan templat tunas yang lebih spesifik.