•  网站地图 |
  •  加入收藏 |
  •  必一体育app下载 |
条码与RFID解决方案专家!
集条码打印、扫描、采集于一体化解决方案的高新技术企业
全国咨询热线

029-89353355

必一体育app下载 contact us

手机:18991830957
座机:029-89353355
Q Q:359316042
邮箱:info@kssfl.com
地址:西安市雁塔区雁塔西路158号双鱼大厦A座13层

企业公众号

产品推荐 Related

查看更多>>

当前位置 > 首页 > 产品中心 > 数据采集器

产品名称:
必一体育app官方.7B开源数学模型干翻千亿GPT-4中国团队出品

发布时间:2024-02-14 05:31:57 来源:必一体育app网页版登录 作者:必一体育app下载

产品简介:
  在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。  这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

分享到:
订购热线:18991830957 

咨询/订购

产品介绍

必一体育app官方

  在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。

  这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

  为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)英(GSM8K、MATH)双语的数据集进行了测试。

  在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型MetaMATH。

  但要注意的是,GPT-4按泄露规格是一个千亿参数的庞然大物,而DeepSeekMath参数量只有7B。

  如果允许使用工具(Python)进行辅助,DeepSeekMath在竞赛难度(MATH)数据集上的表现还能再提高7个百分点。

  为了获得比从通用模型更好的数学能力,研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

  因为团队发现,无论是在两阶段训练还是一阶段训练设置下,代码训练相比于通用数据训练都可以提升模型的数学能力。

  数据采集过程是迭代式进行的,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。

  为了确保训练数据中不包含测试集的内容(因为GSM8K、MATH中的内容在互联网上大量存在),研究团队还专门进行了过滤。

  为了验证DeepSeekMath Corpus的数据质量,研究团队分别用MathPile等多个数据集训练了1500亿token,结果Corpus在多个数学基准上效果明显领先。

  对齐阶段,研究团队首先构建了一个776K样本的中英文数学指导监督微调(SFT)数据集,其中包括CoT、PoT和工具集成推理等三种格式。

  而在强化学习(RL)阶段,研究团队使用了一种名为“基于组的相对策略优化”(Group Relative Policy Optimization ,GRPO)的高效算法。

  GRPO是近端策略优化(PPO)的一种变体,过程中传统的价值函数被替换为一个基于组的相对奖励估计,可以减少训练过程中的计算和内存需求。

  同时,GRPO通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进。

  此前,该团队就曾推出过首个国产开源MoE模型DeepSeek MoE,它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

  作为通用模型,DeepSeek MoE在代码和数学任务上的表现就已十分亮眼,而且资源消耗非常低。

  代码方面,该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

上一篇:Agent像人一样分工协作还能“ 下一篇:高瓴人工智能学院师生论文被国际学

在线留言Online message

联系方式address

公司:必一体育app官方网页版登录-必一体育app下载
电话:029-89353355
手机:18991830957
地址:西安市雁塔区雁塔西路158
           号双鱼大厦A座13层
陕ICP备16017194号  
陕公安网备 61011302000213号

扫码开启行业服务新标准

姓名:
电话:
邮箱: