大模型技术专家
|
|
北京市 |
|
2024-04-22 |
Seniority level职位级别 | 中高级 |
Industry公司行业 | 半导体 |
Employment type职位性质 | 全职 |
Function工作职能 | |
Number招聘人数 | 1 |
职位描述
1、负责大模型算法全周期研发及配套关键技术研究优化,包括多模态模型训练,模型微调(如LoRA、P-Tuning)以及量化和分布式部署等;
2、负责大模型在垂直领域应用的设计划与落地,包括制定创新性的产品研发战略和组合方案,实现模型研发和能力优化,完成年度新产品研发重点任务和阶段研发目标,支撑公司在大模型领域的演进和提升。
3、管理NLP团队,致力于各类人才的培养和技术方向的规划,组织内部技术交流培训,提升团队建模研究和模型工程落地的技术能力。
4、面向大模型重要行业会议、技术研究成果汇报等场合,完成交流演讲汇报。
5、持续关注大模型领域的最新研究与应用趋势,并据此为公司提供具有前瞻性的技术指导和解决方案,引领公司大模型技术进步。
职位要求
1、国际知名院校硕士及以上学历,博士优先。人工智能、数学、通信工程、电子信息工程等相关专业,3年以上相关工作经验。
2、在大型科技公司(如谷歌、微软、亚马逊、百度、腾讯等)的人工智能部门工作,主持或作为核心技术骨干完成大模型项目的实施、调优和部署,具备完整垂直领域大模型研发和配套产品开发经验。
3、具有良好的大模型研发与落地相关技术能力,包括:
1) 精通Python、C/C++、Go等编程语言,熟练掌握PyTorch或TensorFlow等主流深度学习框架;
2) 精通NLP、AIGC、多模态、CV和语音等AI算法,对开源大模型项目(如BERT、GPT、T5、GLM、LLaMA等)有深入研究和实践经验;
3) 精通大模型3D/4D并行技术以及训练、微调技术,如LoRA、p-tuning、SFT、RLHF等;
4) 熟悉大模型的分布式系统和多GPU优化,具有跟踪和探索分布式优化新技术的能力,熟悉包括Kubeflow在内的AI平台;
5) 熟悉大模型分布式训练技术和框架库,如Megatron、DeepSpeed、Deepspeed-Chat等,熟悉框架库源码,有千卡以上集群的大模型训练经验
6) 精通大模型推理优化技术、模型压缩技术,如量化、剪枝和蒸馏等。
4、具有良好的形象气质、逻辑思维能力、沟通交流能力、演示汇报能力,具有较为丰富的演示汇报(包括汇报工作成果、宣读论文、技术交流等)经验,擅长演示汇报材料制作,能够有针对性、清晰且有条理地面向不同层次的听众表达思想观点、展示工作成果。
5、有领导跨学科团队的经验,具备良好的团队组织管理能力,应变能力和工作目标的执行能力,统筹规划设计能力,以及跨团队协作能力。