阿里云-大模型预训练算法专家-杭州/北京
2.6-5万元/月
更新 2025-12-21 14:42:09
浏览 291
职位详情
大模型算法
3-5年
职位描述
负责云计算方向的预训练大模型研发,为行业应用提供通用基础模型支持。主要职责涵盖:
1.构建预训练数据体系,涉及通用文本的采集与清洗、云服务领域语料的甄别与构造,以及特定任务所需数据的整理与生成,研发高效的数据自动筛选与配比策略。
2.模型评估体系建设,制定科学的评估指标框架,构建面向通用能力与专业领域的评测数据集,确保评估结果全面准确体现模型表现。
3.训练过程可视化,搭建完整的训练监控机制,实现训练状态实时追踪与异常预警,提前识别潜在性能问题。
4.模型结构改进,研究适配云计算场景的网络架构,探索方向包括:MOE结构、预训练蒸馏方法、长序列建模技术、线性注意力设计及强化学习融合应用。
5.训练效率提升,基于主流训练平台进行性能调优,结合模型特性与任务目标优化训练流程,并开发实用工具加快实验迭代周期。
职位要求
1.计算机、软件工程、数学等相关专业硕士及以上学位,具备扎实的问题分析与解决能力;
2.密切跟踪人工智能前沿进展,热衷技术创新,具有主动攻坚克难的内在驱动力;
3.具备百亿参数以上大模型预训练或再预训练实际经验;
4.拥有在百卡级GPU集群环境下开展训练的实践经验;
5.熟悉Megatron-LLM、DeepSpeed、Colossal-AI等主流训练框架者优先考虑;
6.在NIPS/NeurIPS、ICLR、ICML、ACL等国际顶级会议或期刊发表过相关论文者优先。
负责云计算方向的预训练大模型研发,为行业应用提供通用基础模型支持。主要职责涵盖:
1.构建预训练数据体系,涉及通用文本的采集与清洗、云服务领域语料的甄别与构造,以及特定任务所需数据的整理与生成,研发高效的数据自动筛选与配比策略。
2.模型评估体系建设,制定科学的评估指标框架,构建面向通用能力与专业领域的评测数据集,确保评估结果全面准确体现模型表现。
3.训练过程可视化,搭建完整的训练监控机制,实现训练状态实时追踪与异常预警,提前识别潜在性能问题。
4.模型结构改进,研究适配云计算场景的网络架构,探索方向包括:MOE结构、预训练蒸馏方法、长序列建模技术、线性注意力设计及强化学习融合应用。
5.训练效率提升,基于主流训练平台进行性能调优,结合模型特性与任务目标优化训练流程,并开发实用工具加快实验迭代周期。
职位要求
1.计算机、软件工程、数学等相关专业硕士及以上学位,具备扎实的问题分析与解决能力;
2.密切跟踪人工智能前沿进展,热衷技术创新,具有主动攻坚克难的内在驱动力;
3.具备百亿参数以上大模型预训练或再预训练实际经验;
4.拥有在百卡级GPU集群环境下开展训练的实践经验;
5.熟悉Megatron-LLM、DeepSpeed、Colossal-AI等主流训练框架者优先考虑;
6.在NIPS/NeurIPS、ICLR、ICML、ACL等国际顶级会议或期刊发表过相关论文者优先。
相似职位
很抱歉,暂无相似职位!