1. 執(zhí)行圖像、文本、語音等不同類型的數(shù)據(jù)進行分類、注釋及標記,為AI模型訓練提供高質(zhì)量數(shù)據(jù)支持;
2. 對原始數(shù)據(jù)進行預處理與清洗,識別并剔除噪聲數(shù)據(jù);
3. 維護標注數(shù)據(jù)集的版本管理及元信息記錄;
4. 協(xié)助團隊完成數(shù)據(jù)集的構(gòu)建,確保數(shù)據(jù)標注的準確性與一致性;
5. 協(xié)同算法團隊理解標注需求,保障標注數(shù)據(jù)支撐模型訓練目標;
6. 協(xié)助開發(fā)團隊測試標注工具,反饋功能優(yōu)化點;
7. 參與數(shù)據(jù)標注流程的優(yōu)化和改進,提出提高效率和質(zhì)量的建議;
8. 定期匯報工作進度,參與團隊討論和技術交流。
能力要求:
1、計算機、軟件或相關專業(yè),本科及以上學歷,2年以上數(shù)據(jù)開發(fā)相關經(jīng)驗;
2、有業(yè)務數(shù)據(jù)調(diào)研分析能力,熟悉數(shù)據(jù)倉庫原理,熟悉范式、維度等主流建模理論;
3、有實際模型設計及ETL開發(fā)經(jīng)驗,熟悉HQL,掌握各種場景SQL處理能力,熟悉Linux平臺;
4、熟悉關系型數(shù)據(jù)的開發(fā),如:Mysql/drds/Postgresql/Oracle/Sqlserver;
5、熟悉Hadoop生態(tài)體系如:Hive、Kafka、Spark、Flink、HBase、流式計算等技術,有Hadoop實戰(zhàn)使用經(jīng)驗:
6、精通Python,Java、Scala等任一編程語言;
7、良好的團隊合作意識,較強的溝通能力。