职位信息
职责描述
1、负责深入探索和追踪强化学习领域的前沿算法及技术动态,及时将其应用于公司业务场景,推动业务发展。
2、负责强化学习算法的研究与开发工作,包括但不限于奖励模型的设计与优化、强化学习算法的实现及效果调优等,以提升模型的性能和效率。
3、对现有强化学习模型进行评估和优化,针对实际业务问题提出有效的解决方案,持续提升音乐大模型偏好对齐能力。
4、撰写技术文档,记录算法设计、实现过程及实验结果,为团队成员提供技术支持和知识共享。
任职要求
1、计算机科学、数学、人工智能、机器学习等相关专业。
2、具备扎实的数学基础,熟悉概率论、线性代数、数值优化等数学工具在强化学习中的应用。
3、具备强化学习实践经验,熟悉经典强化学习算法,以及深度强化学习的前沿技术,如DPO、PPO、GRPO等。
4、具备大语言模型奖励模型开发、强化学习调优经验者优先。
5、具备较强的问题分析和解决能力,能够快速定位并解决强化学习模型开发过程中遇到的各种问题。
6、熟练掌握深度学习的理论和方法,精通PyTorch、TensorFlow等主流深度学习框架,能够灵活运用其进行模型搭建和训练。
7、具备良好的数据洞察能力,能够从数据中挖掘有价值的信息,为算法优化提供依据。
8、加分项:有音乐背景、热爱音乐、具备强烈的进取心和求知欲,热衷于追求技术创新,能够不断学习和掌握新的技术和方法。
公司简介
趣丸科技成立于2014年,是中国领先的国家高新技术企业,形成了集兴趣社交、人工智能、电子竞技等业务于一体的多元业务矩阵。公司专注人工智能交互前沿技术研究和提供企业级解决方案,坚持创新驱动,已构建全栈式AI交互技术产业生态,在数字人、智能视听、三维生成、AI音乐等领域均有落地应用。公司持续多年保持研发投入与研发强度双增长。截止2025年1月,公司研发人员占比超62%,在全球获得专利、软著等知识产权数超1700项。近五年(2020年-2024年),公司累计研发投入超19亿元。
展开更多

联系我们
联系地址:广州市天河区黄埔大道西122号星辉中心
联 系 人:杨洁妮
广州:广州天河区天河路
198号南方精典大厦6楼
番禺:广州市番禺区市桥桥
兴大道10号番禺人才二楼招
聘大厅(市桥汽车站西门旁)