本發明涉及一種基于強化學習的火電燃燒優化方法,包括以下步驟:1)獲取火力發電燃燒過程中的相關變量,定義Mt={it,st,pt}為t時刻的數據信息;2)構建預測網絡,根據最近兩次歷史數據信息Mt?1、Mt以及下一時刻的可控輸入it+1預測下一時刻的中間狀態量st+1和性能指標pt+1;3)定義St={Mt?2,Mt?1,it}為馬爾科夫決策問題在t時刻的狀態,以輸入對應的增量矢量作為馬爾科夫決策問題的動作At,并且以前后狀態的線性加權綜合指標KPI的增量ΔCIt作為馬爾科夫決策問題的獎勵Rt,并定義狀態跳轉;4)采用深度決定性策略梯度對馬爾科夫決策問題進行求解。與現有技術相比,本發明具有泛化能力強、普遍適用性、快速響應等優點。
聲明:
“基于強化學習的火電燃燒優化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)