国产中文无码av每日更新在线观看, 亚洲天堂中文字幕一区二区三区免费, 国产口爆吞精在线观视频-黄色国产, 92福利-国内精品久久久久久99,亚洲成AV人A片不卡无码,浪潮AV无码专区,老熟女败火白浆,中文字幕日产av,色情日本免费看大片

更新于 7月18日

強化學習(決策智能方向)

2.5-5萬
  • 北京石景山區(qū)
  • 3-5年
  • 碩士
  • 全職
  • 招1人

職位描述

人工智能
【崗位職責】
1、算法創(chuàng)新與理論突破-設計面向復雜動態(tài)環(huán)境的強化學習算法,解決樣本效率低、探索-利用權衡、稀疏獎勵多目標優(yōu)化等關鍵問題。探索基于模型(Model-based RL)、分層強化學習(HRL)、元強化學習逆強化學習(IRL)等前沿方(Meta-RL)、向的技術融合與改進。
2、結合大模型技術,研發(fā)語言驅動強化學習(Language-guided RL)、世界模型(World Models)等跨模態(tài)決策框架。大規(guī)模強化學習系統(tǒng)構建-構建分布式強化學習訓練框架,優(yōu)化并行采樣、離線強化學習(Offline RL)與在線學習的混合訓練機制。開發(fā)高效仿真環(huán)境與智能體交互接口,支持高保真物理模擬、多智能體協(xié)同訓練及超長序列決策任務。
3、了解自適應獎勵函數(shù)與課程學習(Curriculum Learning)策略,加速智能體在復雜場景中的能力進化。
4、前沿探索與跨領域研究-研究多智能體強化學習(MARL)中的合作與競爭機制,解決非穩(wěn)態(tài)環(huán)境、信用分配、通信效率等挑戰(zhàn)。探索強化學習與神經(jīng)符號系統(tǒng)(Neuro-symbolic Al)、因果推理的結合提升決策的可解釋性與魯棒性。
5、推動強化學習(RL)在大規(guī)模、高維、稀疏獎勵環(huán)境中的技術落地,構建具備自我進化能力的智能系統(tǒng),賦能自主協(xié)同決策等核心業(yè)務場景。
【任職要求】
1、教育背景:計算機科學、數(shù)學、控制理論、自動化、運籌學或相關領域碩/博士學歷。
2、技術能力:熟悉強化學習經(jīng)典算法(如DQN、PPOSAC、TD3)及最新進展,Gym、MuJoCo、ISSAC Sim等工具鏈。
3、對復雜系統(tǒng)建模與決策優(yōu)化有強烈熱情。
【加分項】
1、具備大規(guī)模分布式訓練經(jīng)驗(Ray、RLlib等框架),熟悉離線強化學習、模仿學習與仿真到真實(Sim2Real)遷移技術。
2、在算法層有深度實踐:稀疏獎勵優(yōu)化、多智能體協(xié)同、元學習與快速適應。
3、發(fā)表過RL相關論文,或主導過開源RL項目者優(yōu)先。
4、熟悉PyTorch深度學習技術框架,具備從算法設計到工程落地的全流程能力。

工作地點

北京石景山區(qū)雙園路

職位發(fā)布者

黃珊/人事經(jīng)理

三日內活躍
立即溝通
中國電子科技集團有限公司電子科學研究院
中國電科電子科學研究院(以下簡稱電科院)1984年正式成立,國家級科研機構。自誕生之日起,先后承擔了一大批國家重大戰(zhàn)略工程總體任務,具備良好的創(chuàng)新引領力、人才凝聚力和行業(yè)影響力。在網(wǎng)絡信息體系建設、信息技術發(fā)展戰(zhàn)略研究、綜合電子信息系統(tǒng)和預警指揮機研制等領域取得了豐碩成果,為國防現(xiàn)代化建設和國民經(jīng)濟發(fā)展做出了突出貢獻。偉大的事業(yè)造就偉大的隊伍、鍛造偉大的精神,在近四十年強軍報國的奮斗征程中,形成了以我國綜合電子信息系統(tǒng)開拓者和奠基人童志鵬院士、“中國預警機之父”王小謨院士、空警2000總設計師陸軍院士為代表的科學家隊伍,錘煉凝結出“自力更生、協(xié)同作戰(zhàn)、頑強拼搏、創(chuàng)新圖強”的預警機精神,是電科院不斷奮進向前的最寶貴財富和最深厚文化滋養(yǎng)。建院以來,先后榮獲國家最高科學技術獎、國家科技進步特等獎、國家科技進步一等獎、國防科技進步特等獎等國家和省部級科學技術進步獎共110余項。強基固本,轉變轉型。站在新的發(fā)展關鍵節(jié)點上,電科院聚焦總體能力提升,奮力推進以“三基”工程為龍頭的業(yè)務體系發(fā)展,廣納天下英才、誠邀各路賢能,共為民族偉業(yè)、共鑄大國重器,在強軍報國的偉大事業(yè)中書寫人生華章、實現(xiàn)人生理想!
公司主頁