当前位置：首页 > AI > 正文

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

2024-12-25 07:37:55 来源：IT之家 A+A-

12 月 18 日-19 日，火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点，无疑就是豆包大模型家族的全线升级，以及全新豆包视觉理解模型的发布。

豆包视觉理解模型拥有业界领先的内容识别能力、理解和推理能力以及更细腻的视觉描述能力。它相当于是给大模型加入了一双眼睛，从而可以像人类一样认识现实世界、理解现实世界。这无疑拓展了人类与大模型交互的形式和应用场景。

就在火山引擎 Force 大会后，智源研究院发布最新一期大模型评测结果，在视觉语言模型评测中，豆包视觉理解模型排名全球第二，成绩仅次于 GPT-4o。特别是在中文的通用知识、文字识别中，豆包表现突出，相比国外模型有较大优势。

正如生物进化出眼睛，是物种爆发过程中的一个关键因素，为 AI 加上双眼的视觉理解大模型，也将为人工智能生态的丰富性和多样化发展奠定基础。

豆包视觉理解大模型，这些能力行业领先

分析了视觉理解对于大模型的重要性，我们再看这次火山引擎发布的豆包视觉理解模型，其在各方面的领先性，则又是为视觉理解模型的发展探索到了新的天花板。

比如，首先豆包视觉理解大模型拥有更强的内容识别能力，不仅可以识别图像中的物体、形状、类别，要素，还能理解物体之间的关系、空间布局、和场景的整体含义。

比如在发布会的演示中，豆包视觉理解模型可以根据影子的形状识别出这是什么动物的影子，还能根据画面中光线穿过薄雾的美丽景象判断出这是丁达尔效应，并且解释背后的原理。此外我们生活中不太了解的物品，也可以通过豆包视觉理解模型进行拍照识别，从而知道这是什么。

同时豆包视觉理解模型还拥有行业领先的 OCR 能力，可以实现图片文本信息的精确提取与理解，包括纯文本图像的文字抽取、日常图像的文字抽取以及表格图像的内容抽取等。

不仅如此，它还可以更好地基于指令进行视觉内容识别，并对中国传统文化信息有更强的理解。

对视觉内容的识别只是第一步，接下来，豆包视觉理解模型还具有更强的理解和推理能力。它可以轻松应对更复杂的图片推理任务，模型在表格图像、数学问题、代码图像等复杂推理场景下展示了更强大的性能，同时进行参考问答、总结摘要、以及进行数学、逻辑、代码等推理。

例如它支持多类型图表内容提取，快速精准地提取图表内容；同时能够准确理解 prompt，“随心百变”的格式化输出。实现轻松获取关键信息，提高图表分析效率。

再比如下面这个案例，豆包视觉理解模型可以识别一张食物图片和一张微波炉使用指南的表格，就能准确判断图片中的事务在微波炉中加热多长时间就可以食用。

不仅如此，豆包视觉理解模型还拥有更细腻的视觉描述能力。它可以可以基于图像信息，更细腻地描述图像呈现的内容，并可根据图像内容和状态进行产品介绍、宣传文章、视频脚本、故事诗歌等多种文体的创作。

例如有公司生产了一款文创产品，打算送给客户，就可以直接使用豆包视觉理解模型基于文创产品的图像来创作暖心的祝福语。

或者它还可以根据你的指令，对画面的细节进行描述，例如在一张女生夜晚放孔明灯的图像中，可以圈选画面中的孔明灯，询问豆包视觉理解模型“画圈的地方放的是什么灯？古代啥时候会放呢？”豆包就会给出确切的回答和科普。

再比如，它可以对多张美食图片进行多维度信息的提取，然后快速精准地剖析菜品特色，并细致入微洞察餐厅的环境格调、服务质量等要素，然后帮用户写一篇关于美食和餐厅的点评内容。

又或者它还可以帮我们写朋友圈文案，根据多张图片联合进行灵感提取，捕捉用户心中想要表达的核心情感和关键元素，理解用户对于朋友圈文案的风格、语气、字数等各种要求，然后写出各种风格的朋友圈文案。

豆包大模型家族全面升级，深入赋能千行百业发展

可以看到，目前豆包视觉理解模型所呈现出的技术成熟度、创新性以及实际使用的体验都达到了让人惊艳的水平，而之所以能够实现这样的行业领先，背后其实还是得益于字节跳动在基础模型方面全方位、大力度的坚决投入。

我们知道，字节跳动自研的豆包大模型是今年 5 月在火山引擎春季 Force 原动力大会上正式发布，而在此之前，它已经经过一年时间的迭代和市场验证，并通过火山引擎对外提供服务。此后豆包大模型快读迭代，目前已经构成了行业里能力最全面的大模型家族，包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等，再加上这次的视觉理解模型，每一款模型都有其擅长的业务类型和应用场景，为用户提供了丰富的选择。

而在本次火山引擎冬季 FORCE 原动力大会上，豆包大模型家族也迎来了全面升级。豆包通用模型 pro 已全面对齐 GPT-4o，使用价格仅为后者的 1/8；音乐模型从生成 60 秒的简单结构，升级到生成 3 分钟的完整作品；文生图模型 2.1 版本，更是在业界首次实现精准生成汉字和一句话 P 图的产品化能力，该模型已接入即梦 AI 和豆包 App。