Job168 APP  |  
濡絾鐗犻妴锟�闁靛棌鍋搢闁靛棌鍋�婵炲鍔岄崬锟�闁靛棌鍋搢闁靛棌鍋�闁谎嗩嚙缂嶏拷
算法研究员(强化学习)     

广州趣丸网络科技有限公司 | 民营企业 | 1000人以上 | 互联网/电子商务

 

收藏 |
算法研究员(强化学习)    

广州趣丸网络科技有限公司 | 民营企业 | 1000人以上 | 互联网/电子商务

该公司所有职位
职位类别:不限
工作性质:全职
最低学历要求:博士
年龄要求: 不限
专业要求:
工作年限:不限
婚姻要求:不限
工作地区:广州市
户籍要求:不限
目前住地:不限
职位信息
职责描述
1、负责深入探索和追踪强化学习领域的前沿算法及技术动态,及时将其应用于公司业务场景,推动业务发展。
2、负责强化学习算法的研究与开发工作,包括但不限于奖励模型的设计与优化、强化学习算法的实现及效果调优等,以提升模型的性能和效率。
3、对现有强化学习模型进行评估和优化,针对实际业务问题提出有效的解决方案,持续提升音乐大模型偏好对齐能力。
4、撰写技术文档,记录算法设计、实现过程及实验结果,为团队成员提供技术支持和知识共享。

任职要求
1、计算机科学、数学、人工智能、机器学习等相关专业。
2、具备扎实的数学基础,熟悉概率论、线性代数、数值优化等数学工具在强化学习中的应用。
3、具备强化学习实践经验,熟悉经典强化学习算法,以及深度强化学习的前沿技术,如DPO、PPO、GRPO等。
4、具备大语言模型奖励模型开发、强化学习调优经验者优先。
5、具备较强的问题分析和解决能力,能够快速定位并解决强化学习模型开发过程中遇到的各种问题。
6、熟练掌握深度学习的理论和方法,精通PyTorch、TensorFlow等主流深度学习框架,能够灵活运用其进行模型搭建和训练。
7、具备良好的数据洞察能力,能够从数据中挖掘有价值的信息,为算法优化提供依据。
8、加分项:有音乐背景、热爱音乐、具备强烈的进取心和求知欲,热衷于追求技术创新,能够不断学习和掌握新的技术和方法。
公司简介
趣丸科技成立于2014年,是中国领先的国家高新技术企业,形成了集兴趣社交、人工智能、电子竞技等业务于一体的多元业务矩阵。公司专注人工智能交互前沿技术研究和提供企业级解决方案,坚持创新驱动,已构建全栈式AI交互技术产业生态,在数字人、智能视听、三维生成、AI音乐等领域均有落地应用。公司持续多年保持研发投入与研发强度双增长。截止2025年1月,公司研发人员占比超62%,在全球获得专利、软著等知识产权数超1700项。近五年(2020年-2024年),公司累计研发投入超19亿元。
展开更多
联系我们

联系地址:广州市天河区黄埔大道西122号星辉中心 

联 系 人:杨洁妮

缂備焦宕橀崕濠氭儗妤e啫钃熼柕澶樼厛閸わ拷 闁荤姍鍥舵闁稿鎷�: 缂傚倷绀侀悧蹇涘磻閿燂拷: 广州趣丸网络科技有限公司闂侀潧妫岄崑锟�闂侀潧妫岄崑锟�
该公司所有职位
广州市 | 硕士 | 不限
 
岗位职责: 1,负责AI社交产品的用户需求挖掘与场景分析,结合心理学理论(如用户行为动机、情感需求、社交认知模型)设计社交产品功能,形成产品需求文档(PRD)。  2,探索AI技术(如大语言模型、情感计算、个性化推荐)在社交场景中的应用,设计创新交互形态(如虚拟陪伴、智能匹配、情绪感知等)。  3,通过用户访谈、行为数据分析、A/B测试等方式,研究用户社交行为及心理诉求,优化产品交互逻辑与情感化设计。  4,协调算法、研发、设计团队,推动AI模型与社交功能的落地,确保技术实现与用户体验的平衡。    5,跟踪AI社交领域趋势,研究竞品功能与商业模式,提出差异化创新方案。  任职要求:1,2025届本科及以上学历,心理学、社会学相关专业优先,需具备用户行为分析与心理洞察能力。    2,熟练使用Axure、Figma等原型工具,掌握用户调研方法(如问卷设计、焦点小组)。  3,有AI相关实习经验(如大模型应用、社交类产品设计)或心理学实验设计经验者优先。  3,热爱社交事业,具备同理心与敏锐的用户洞察力,能够从心理学角度挖掘社交痛点(如孤独感、社交焦虑等)。  4,逻辑清晰,沟通能力强,能高效协调技术团队与业务部门。  5,对数据敏感,能通过定量与定性分析驱动决策。  
广州市 | 本科 | 不限
 
广州市 | 本科 | 不限
 
职责描述1、通过市场分析、用户调研等手段,为产品制定营销方案并推进执行,及时反馈方案的执行效果并提供优化建议,辅助产品找到PMF。2、熟悉海外社媒渠道的运营和红人营销的推广:能根据需求搭建社区运营流程和策略,在多个社交媒体平台上建联、沟通、维护内容创作者,负责社区内的舆论监控与舆情反馈,渠道包括但不限于: Discord,Reddit,Facebook和 github等;能发掘优质红人资源,根据平台和用户制定brief,完成红人营销的工作。3、开拓和发掘海外地区的宣传资源,包括不限于潜在的联运资源、推广资源、供应商和异业合作伙伴等 。4、能基于营销策略,引导广告投放侧的工作,针对营销方案的执行能定期输出相关分析、总结和优化建议。任职要求1、本科及以上学历,有海外(主要是北美)Marketing 经验优先,有团队管理的经验优先。2、优秀的英文听说读写能力,英语可作为工作语言。3、有海外留学/工作/生活的经历,对欧美用户的文化有一定的了解。有海外社媒使用经验,有相关社区运营(尤其是Discord和reddit)经验者优先。4、乙方广告公司北美用户增长经验优先。5、对不同平台的内容和红人有较强的网感,有参与或主导过成功的欧美产品营销经验。6、责任心强,沟通能力强,有一定问题解决能力,可快速对各种情况做出反应反馈。  
广州市 | 博士 | 不限
 
职责描述1、负责深入探索和追踪强化学习领域的前沿算法及技术动态,及时将其应用于公司业务场景,推动业务发展。2、负责强化学习算法的研究与开发工作,包括但不限于奖励模型的设计与优化、强化学习算法的实现及效果调优等,以提升模型的性能和效率。3、对现有强化学习模型进行评估和优化,针对实际业务问题提出有效的解决方案,持续提升音乐大模型偏好对齐能力。4、撰写技术文档,记录算法设计、实现过程及实验结果,为团队成员提供技术支持和知识共享。任职要求1、计算机科学、数学、人工智能、机器学习等相关专业。2、具备扎实的数学基础,熟悉概率论、线性代数、数值优化等数学工具在强化学习中的应用。3、具备强化学习实践经验,熟悉经典强化学习算法,以及深度强化学习的前沿技术,如DPO、PPO、GRPO等。4、具备大语言模型奖励模型开发、强化学习调优经验者优先。5、具备较强的问题分析和解决能力,能够快速定位并解决强化学习模型开发过程中遇到的各种问题。6、熟练掌握深度学习的理论和方法,精通PyTorch、TensorFlow等主流深度学习框架,能够灵活运用其进行模型搭建和训练。7、具备良好的数据洞察能力,能够从数据中挖掘有价值的信息,为算法优化提供依据。8、加分项:有音乐背景、热爱音乐、具备强烈的进取心和求知欲,热衷于追求技术创新,能够不断学习和掌握新的技术和方法。  

投递简历后可与HR聊天哦

 

 
1998闁挎繐鎷�2025 闁告顨嗛弻鐔哥閻戞ê顤呯紓鍐挎嫹 闁绘鐗婂ḿ鍫ュ箥閳ь剟寮垫径鍫氬亾閳ь剟骞掗妸銊ョ濞达綀娉曢弫锟�360闁哄绶氶埀顒傚枑缁佽崵鎲撮崼婵囩彜闁挎冻鎷�闁绘劗鎳撻崵顔界▔鐎n厽绁�闁挎冻鎷� 1024*768濞寸姰鍎扮粭鍌炲礆閸℃岸鍝洪柣婊冩储閳ь兘鍋撻柛婧垮姀椤曟鎮滈鐘叉疇闁挎冻鎷�020-85597575
ICP閻犱胶枪瑜拌尙鎷犳担绋垮▏闁挎稒姘ㄩ懣鐕烠P濠㈣鎷�13019620闁告瑱鎷�闁靛棌鍋撻柕鍡忓亾缂備礁绻楅幆鈧悹浣呵硅ぐ鑼嫚娴h櫣妞介柛娆忓殩缁辨壆鍒掗ˉ锟�2-20191758闁靛棌鍋撻柕鍡忓亾闁兼枻缍€楠炲粩SO9001:2008闁哄鍟埢澶屾媼閵堝牏妲堝ù婊呭劋婢х姷绱旈幋鐘靛讲
缂侇喓鍊曢崣鏇犵磾閹存繄鏆斿璁规嫹 44010602005986闁告瑱鎷�
首页
电话咨询
企业服务热线

020-85597575

个人服务热线

020-85597251

二维码
APP
小程序
公众号
顶部