2026世界杯(中國) 傳統(tǒng)UED瓶頸被沖破, 強(qiáng)化學(xué)習(xí)也能精確定位「最近發(fā)展區(qū)」


本文第一作家來自國防科技大學(xué)數(shù)智建模與仿真國度級重心實驗室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 級博士生原方,通信作家為國防科技大學(xué)曾俊杰助理磋商員、李慶倫博士,并由尹三軍磋商員、秦龍副老師、沈想淇長聘副老師(廈門大學(xué))、謝毓湘老師、楊俊強(qiáng)副磋商員共同相助完成。磋商團(tuán)隊永久聚焦建師法真、強(qiáng)化學(xué)習(xí)等干系地方磋商。
純熟強(qiáng)化學(xué)習(xí)智能體時,一個常見問題是:有些 level 太淺顯,智能體跑幾遍就會;有些 level 又太難,智能體簡直得不到有用反應(yīng)。前者僅僅在近似已有才能,后者則會把純熟預(yù)算浮濫在無效探索上。信得過有價值的純熟環(huán)境,時常位于二者之間。它剛好越過智能體刻下才能規(guī)模,但又莫得難到全齊學(xué)不會。換句話說,強(qiáng)化學(xué)習(xí)純熟也存在某種「最近發(fā)展區(qū)」:高效純熟的樞紐,不僅僅生成更多 level,而是找到刻下階段最值得學(xué)的 level。
Unsupervised Environment Design(UED)恰是圍繞這一問題伸開。UED 不再把純熟環(huán)境看作固定數(shù)據(jù)集,而是通過自動生成、選定或重放 level,動態(tài)塑造純熟散播,讓智能體在不絕學(xué)習(xí)中贏得更好的泛化才能。但 UED 靠近一個中樞不毛:系統(tǒng)需要知說念,哪些 level 信得過推動了智能體學(xué)習(xí)。
近日,來自國防科技大學(xué)、廈門大學(xué)等機(jī)構(gòu)的磋商者提議了 PACE(Parameter Change Environment Design)。PACE 使用 level 指引的計謀參數(shù)變化看成純熟價值信號,徑直預(yù)計該 level 是否帶來實踐學(xué)習(xí)進(jìn)展。該責(zé)任已被 ICML 2026 領(lǐng)受。

論文題目:PACE: Parameter Change for Unsupervised Environment Design
論文斡旋:https://doi.org/10.48550/arXiv.2605.01358
UED:讓純熟環(huán)境我方釀成課程
UED 的起點(diǎn)并不復(fù)雜。傳統(tǒng)強(qiáng)化學(xué)習(xí)往往先給定一批純熟環(huán)境,再讓智能體在其中反復(fù)學(xué)習(xí)。但純熟環(huán)境并非越多越好,也不是越難越好。若是 level 太淺顯,智能體很快參預(yù)「興隆區(qū)」,只可牢固還是掌合手的行為;若是 level 太難,智能體又會參預(yù)「心焦區(qū)」,永久得不到有用獎勵。兩種情況齊會削弱學(xué)習(xí)惡果和最終泛化才能。
在 UED 之前,Domain Randomization 還是標(biāo)明,環(huán)境各種性有助于培植泛化才能;但這類設(shè)施往往僅僅靜態(tài)地立地采樣環(huán)境參數(shù),難以憑證智能體刻下的學(xué)習(xí)狀況動態(tài)治愈純熟內(nèi)容。
UED 進(jìn)一步將「純熟什么」納入學(xué)習(xí)過程:系統(tǒng)不再把純熟環(huán)境視為固定布景,而是動態(tài)生成、選定或重放 level,并憑證某種評價信號決定哪些 level 更值得保留、重放或進(jìn)一步剪輯。遐想情況下,這些 level 應(yīng)該不絕迫臨智能體刻下才能規(guī)模:既不減弱被經(jīng)管,2026世界杯(中國)也不全齊超出可學(xué)習(xí)范疇。
現(xiàn)存 UED 設(shè)施往往需要一個 score 來評價 level。常見作念法包括 regret、GAE、MaxMC 等。這些信號在履行中有用,但它們更多從可解性差距、價值忖度顛倒或講演忖度啟程,莫得評估「此次純熟到底帶來了幾許計謀改變」。另一類設(shè)施更徑直,舉例 Marginal Benefit 會比擬計謀更新前后的進(jìn)展變化,因此更接近果真學(xué)習(xí)逾越。但它需要迥殊 rollout 來忖度更新前后的講演,算計支出更高,忖度方差也更大。
因此,UED 的中樞問題就變成了:若何淺顯而準(zhǔn)確地判斷一個 level 是否信得過推動了智能體的學(xué)習(xí)?
PACE:用參數(shù)變化預(yù)計學(xué)習(xí)逾越
PACE 的中樞判斷很徑直:若是一個 level 信得過促成了學(xué)習(xí),那么智能體在這個 level 上純熟后,計謀參數(shù)應(yīng)該發(fā)生挑升旨的變化。也即是說,PACE 不再把 level 的價值設(shè)立在 regret、GAE 或 Monte Carlo return 等盤曲音號上,而是徑直不雅察該 level 指引的計謀更新。




進(jìn)一步假定這一步更新沿著局部梯度地方進(jìn)行,即


將其代入一階伸開,可得主義培植的近似時勢:

這個近似關(guān)系闡揚(yáng):在局部梯度更新假定下,一個 level 帶來的主義培植與其指引的計謀參數(shù)變化普遍范數(shù)成正比。因此,PACE 將 level score 界說為:



圖 1:PACE 責(zé)任經(jīng)過圖。
基于這一 score,PACE 的開動過程不錯分為兩個部分:level scoring 和 policy training(圖 1)。



所有過程不拒接替進(jìn)行:新 level 被生成并打分,高價值 level 被寫入 buffer,buffer 中的 level 又被優(yōu)先重放來純熟計謀。由此,PACE 用計謀參數(shù)變化構(gòu)造出一種內(nèi)生的學(xué)習(xí)逾越信號,并用它驅(qū)動純熟課程隨智能體才能動態(tài)演化。
實驗限度:從迷宮泛化到怒放式任務(wù)




圖 2:MiniGrid 上的零樣本移動性能。

表 1:MiniGrid 上的合座泛化方針。
為了進(jìn)一步磨真金不怕火 PACE 在更復(fù)雜任務(wù)中的適用性,論文還在 Craftax 上進(jìn)行實驗。Craftax 是一個面向怒放式強(qiáng)化學(xué)習(xí)的 JAX benchmark。跟著探索激動,智能體會碰到新的區(qū)域、機(jī)制和主義,任務(wù)散播也會不絕變化,因此更能磨真金不怕火 UED 設(shè)施是否能在長純熟過程中不絕提供有用課程。


表 2:Craftax 上 20 個未見過 levels 上的平均講演和軌范差。
結(jié)語與預(yù)計
在強(qiáng)化學(xué)習(xí)智能體需要不絕適合未見環(huán)境的布景下2026世界杯(中國),若何準(zhǔn)確識別信得過推動學(xué)習(xí)的 levels 是 UED 的樞紐問題;PACE 通過參數(shù)變化這一淺顯、低方差、算計友好的內(nèi)生信號,將環(huán)境評價徑直設(shè)立在 realized learning progress 之上,從而減少代理方針偏差、高方差忖度和迥殊 rollout 支出的影響,并為構(gòu)建更融會、更可擴(kuò)張的自適合純熟課程提供了新的想路。