崗位職責:
1、負責設(shè)計、構(gòu)建和優(yōu)化高質(zhì)量的代碼數(shù)據(jù)集,以支持代碼大模型的研發(fā)
2、建立和完善數(shù)據(jù)質(zhì)量評估體系,定期對數(shù)據(jù)集進行審核,保證數(shù)據(jù)的準確性、完
整性和一致性。
3、確保所有數(shù)據(jù)收集和使用過程遵守相關(guān)的法律法規(guī),實施有效的數(shù)據(jù)保護措施,
維護用戶隱私。
4、緊跟行業(yè)動態(tài)和技術(shù)進步,不斷探索新的方法和技術(shù)來提升數(shù)據(jù)處理效率和效果
崗位要求:
1.至少2年以上的AI/NLP領(lǐng)域工作經(jīng)驗,特別在代碼大數(shù)據(jù)處理方面擁有深入的理解和實踐經(jīng)驗。
2.具備從零開始構(gòu)建大規(guī)模多語言代碼數(shù)據(jù)集的能力,包括但不限于數(shù)據(jù)采集、清洗、標注及結(jié)構(gòu)化處理。熟悉如何通過算法提高數(shù)據(jù)質(zhì)量和減少噪音。在GitHub、Stack Overflow Kaggle等平臺有系統(tǒng)性代碼數(shù)據(jù)采集經(jīng)驗(需提供案例說明)。
3.精通Python及其相關(guān)數(shù)據(jù)處理庫(如Scrapy,pandas.SQL等),并能夠開發(fā)自定義腳本或工具來加速數(shù)據(jù)處理流程。對大數(shù)據(jù)處理框架(如Hadoop.Spark)有一定了解更佳,
4.對開源生態(tài)有深刻理解,熟悉主流開源協(xié)議(MIT/GPL/Apache等)及數(shù)據(jù)合規(guī)要求,需能主動參與開源社區(qū),識別有價值的數(shù)據(jù)源,并確保所有數(shù)據(jù)操作符合合規(guī)要求。
5.對于特定領(lǐng)域的數(shù)據(jù)處理(例如算法競賽、開源項目貢獻歷史等)有獨特見解和成功案例者優(yōu)先考慮。能夠基于具體業(yè)務(wù)場景,提出創(chuàng)新性的數(shù)據(jù)解決方案。
6.優(yōu)秀的溝通能力和團隊合作精神,能夠與跨職能團隊有效合作,共同推動項目的進展。