Mở đầu
Dựa trên https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz
Reinforcement learning RL là học cách hành động (action) để tối ưu (maximize) lợi ích (reward)
Agent là hàm ý chỉ 1 object được train để làm 1 task chỉ định 1 cách tối ưu nhất. Tuy nhiên nếu được train không tốt thì agent có khả năng xảy ra các behavior (hành vi) kì lạ
Tóm lại, với RL, ta quan tâm đến:
- action
- optimize (maximize)
- reward
- agent
- task
- behavior
- environment (môi trường)
Mặt toán học
- Dựa trên state S(t) của enviroment hiện tại mà agent sẽ đưa ra action a(t)
- Sau khi nhận tương tác thì enviroment biến chuyển thành S(t+1) tại thời điểm t+1
- Agent nhận được reward r(t) phụ thuộc vào a(t) và S(t)
- Vì ta không biết thời điểm kết thúc của vòng lặp này nên tổng reward sẽ là chuỗi vô hạn
- Vì chuỗi không thể hội tụ được nên cần được thay đổi thành 1 hàm tốt hơn. Cí dụ dưới đây, họ đã dùng 1 term thường thấy là discount factor (discount race) (việc hội tụ là bắt buộc để có khả năng train)
Cả quá trình trên được gọi là Markov Decision Processes (MDPs). Về cơ bản thì MDP cung cấp framework cho các tình huống decision-making. Đồng thời, outcomes xảy ra cũng có phần ngẫu nhiên vì phu thuộc các action của agent (hoặc decision maker). reward thu được bởi decision maker phụ thuộc trên action mà decision maker chọn và dựa trên cả 2 State S(t+1) và S(t) của enviromentVậy ta có định nghĩa reward Rai(sj, sk) thu được khi agent chọn action ai ở state sj và làm enviroment chuyển từ state sj sang sk. Agent đó đang follow theo 1 policy pi π
Mỗi một state sj thuộc S thì agent chọn cho nó 1 action ai thuộc A. Vậy nên policy là thứ bảo với agent cái action nào nên được chọn trong mỗi stateVậy, mục tiêu train làVề cơ bản thì cố gắng maximize hàm reward ở mỗi state từ lúc bắt đầu đến lúc kết thúc dựa trên policy pi (optimazation problem) -> Optimal policy: optimize việc tìm nghiệm
Dựa vào từng tiêu chí, ta sẽ có nhưng reward criteria khác nhau. Ở trên là infinite horizon sum reward criteria
Với mỗi criteria (tiêu chí) khác nhau ta lại có algorithm khác nhau. Ví dụ với infinite horizon sum reward criteria thì ta có Q-learning algorithm
Tham khảo
- https://viblo.asia/p/gioi-thieu-ve-reinforcement-learning-rl-djeZ1GEY5Wz
Nhận xét
Đăng nhận xét