科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

2025-01-15 07:59:01 来源:IT之家 A+A-

1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。

进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARc-Challenge 基准测试中提升 3.1 分,并在 10 项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型

英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。

注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。

Tags:英伟达
(责任编辑:Diy92)

推荐阅读 相关文章

百度地图展示智能眼镜解决方案:提供 AR导航功能,接入DeepSeek

3 月 18 日消息,在 VisionX AI 智能眼镜产业大会上,百度地图今日宣布推出智能眼镜解决方案。该方案通过自然语...[详细]

2025-03-18 16:31:39

AI 企业第4范式宣布成立范式集团,布局消费者电子业务

3 月 18 日消息,第四范式董事长戴文渊今日在发布会上宣布,将成立范式集团,原第四范式业务将成为范式集团的核心...[详细]

2025-03-18 16:31:39

谷歌升级Gemini 2.0 系列模型,AI助手可免费深层推理

3 月 18 日消息,谷歌公司昨日(3 月 17 日)发布博文,宣布通过升级 Gemini 2.0 模型,推出"AI Overviews"和"AI Mode...[详细]

2025-03-18 16:31:39

Roblox发布AI建模工具:仅需几句提示词就能生成3D物体

3 月 17 日消息,Roblox 今日推出了 3D 模型工具"Cube"的首个版本,旨在帮助创作者利用生成式 AI 制作 3D 物体...[详细]

2025-03-18 16:31:39

阿里 QwQ-32B 大模型集成至国家超算互联网平台 Chatbot 可视化对话 / API 在线调用服务

3 月 17 日消息,国家超算互联网平台今日发文宣布 MaaS 服务再上新:QwQ-32B 推理大模型正式集成至 Chatbot 可...[详细]

2025-03-18 16:31:39

人形机器人为黄仁勋递上皮衣,1X、英伟达联手搞动作

3 月 27 日消息,近日在 1X Technologies 位于旧金山的总部,其研发的 NEO Gamma 人形机器人向来访的英伟达首席...[详细]

2025-03-28 07:30:56

支持 PCIe 4.0,英伟达神秘“图灵”世代核心工程样卡正式现身

3 月 25 日消息,消息人士白给的盖欧卡本月 4 日在B站平台分享了一张英伟达"图灵"世代(RTX 20 / GTX 16 时期)工...[详细]

2025-03-25 14:31:02

超过100款游戏和应用支持带有多帧生成技术的英伟达 DLSS 4

3 月 13 日消息,英伟达今日官宣,现有超过 100 款游戏和应用支持带有多帧生成技术的 DLSS 4。更多即将支持的游...[详细]

2025-03-14 10:42:37

英伟达 RTX50 系列 GPU 出货数是上代同期2倍

3 月 13 日消息,在 AMD 和英伟达新一代显卡产品陆续推出后,消费者却面临一个棘手问题:无论是新一代还是上一代...[详细]

2025-03-14 10:42:37

英伟达发布Game Ready 572.60 WHQL驱动,修复RTX 30-50 系显卡黑屏问题

2 月 28 日消息,英伟达本月中旬发布 RTX 50 系列(572 分支)首个专用驱动后,收到了大量 RTX 30-50 系列用户遇到...[详细]

2025-02-28 10:24:31

联系方式