崗位職責:
1、主導研發(fā)基于計算機視覺和多模態(tài)大模型的UI理解技術。讓Agent能夠實時“看懂”屏幕上的內(nèi)容,精準識別并定位窗口、按鈕、輸入框、圖片等各類UI元素,并理解其功能與上下文關系。
2、構建一個通用的、跨平臺的設備控制層,將底層的鼠標、鍵盤、手機觸摸等操作封裝為大模型可調(diào)用的原子能力,解決在不同分辨率、操作系統(tǒng)和應用界面下的操作泛化性難題。
3、設計和研發(fā)專為GUI交互設計的長程規(guī)劃與決策能力,研發(fā)自我糾錯與反思機制,當操作失誤或遇到非預期界面時,能夠自主分析原因并嘗試新的解決方案。
4、完成上級安排的相關工作。
任職要求:
1、計算機相關專業(yè)本科及以上學歷,3年以上大模型相關技術研發(fā)經(jīng)驗。
2、深入理解并熟悉主流Agent框架思想(如ReAct、CoT、ToT等)。
3、對大模型的Function Calling/Tool-Using機制有深刻見解和實踐。
4、熟悉各類GUI自動化框架,如Browser-use、Playwright、Selenium、Appium、PyAutoGUI等,并理解其底層原理。
5、精通在UI場景下的OCR、目標檢測、圖像分割等技術,有微調(diào)多模態(tài)大模型進行UI理解的經(jīng)驗者優(yōu)先。
6、了解操作系統(tǒng)底層機制(Windows API、Android Accessibility Service等),熟悉如何通過系統(tǒng)級接口獲取UI信息和模擬用戶輸入。
7、熟悉大模型原理,具備SFT、RL等模型訓練方面的實戰(zhàn)經(jīng)驗,有GUI自動化相關的強化學習經(jīng)驗者優(yōu)化。
8、對新技術有強烈的熱愛、好奇心和鉆研精神,具備卓越的團隊協(xié)作、溝通和問題解決能力,自驅、富有責任心和主人翁精神,極致追求算法創(chuàng)新和產(chǎn)品效果。