Q–Learning و یادگیری تقویتی – خودآموز سریع و جامع
به نظر میرسد مساله قلعه حل شده است! اما اکنون چطور باید ارزش را برای هر جز Q-Table محاسبه کرد؟! الگوریتم Q-learning: یادگیری تابع ارزش عمل. تابع ارزش عمل (یا Q-function) دو ورودی حالت و عمل را دریافت میکند.
WhatsApp: +86 18221755073