当前位置：首页 > AI > 正文

Meta 推出 Apollo 开源模型，让 AI “看懂”视频

2024-12-18 17:11:15 来源：IT之家 A+A-

12 月 18 日消息，Meta 携手斯坦福大学，推出全新 AI 模型系列 Apollo，显著提升机器对视频的理解能力。

注：尽管人工智能在处理图像和文本方面取得了巨大进步，但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息，人工智能更难处理这些信息，不仅需要更多的计算能力，而且如何设计最佳 AI 视频解读系统，也存在诸多困难。

在视频处理方面，研究人员发现，保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件，一个处理单独的视频帧，而另一个跟踪对象和场景如何随时间变化。

此外，在处理后的视频片段之间添加时间戳，有助于模型理解视觉信息与文本描述之间的关系，保持时间感知。

在模型训练方面，团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练，按顺序激活模型的不同部分，比一次性训练所有部分效果更好。

此外 Meta 公司还不断优化数据组合，发现 10~14% 的文本数据，其余部分略微偏向视频内容，可以更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上均表现出色，较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型，而 Apollo-7B 超过更大参数的同类模型，Meta 已开源 Apollo 的代码和模型权重，并在 Hugging Face 平台提供公开演示。

参考

Meta's new Apollo models aim to crack the video understanding problem
Meta AI Releases Apollo: A New Family of Video-LMMs LARge Multimodal Models for Video Understanding
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Tags：Meta

(责任编辑：Diy92)

推荐阅读相关文章

百度地图展示智能眼镜解决方案：提供 AR导航功能，接入DeepSeek

3 月 18 日消息，在 VisionX AI 智能眼镜产业大会上，百度地图今日宣布推出智能眼镜解决方案。该方案通过自然语...[详细]

2025-03-18 16:31:39

AI 企业第4范式宣布成立范式集团，布局消费者电子业务

3 月 18 日消息，第四范式董事长戴文渊今日在发布会上宣布，将成立范式集团，原第四范式业务将成为范式集团的核心...[详细]

2025-03-18 16:31:39

谷歌升级Gemini 2.0 系列模型，AI助手可免费深层推理

3 月 18 日消息，谷歌公司昨日（3 月 17 日）发布博文，宣布通过升级 Gemini 2.0 模型，推出"AI Overviews"和"AI Mode...[详细]

2025-03-18 16:31:39

Roblox发布AI建模工具：仅需几句提示词就能生成3D物体

3 月 17 日消息，Roblox 今日推出了 3D 模型工具"Cube"的首个版本，旨在帮助创作者利用生成式 AI 制作 3D 物体...[详细]

2025-03-18 16:31:39

阿里 QwQ-32B 大模型集成至国家超算互联网平台 Chatbot 可视化对话 / API 在线调用服务

3 月 17 日消息，国家超算互联网平台今日发文宣布 MaaS 服务再上新：QwQ-32B 推理大模型正式集成至 Chatbot 可...[详细]

2025-03-18 16:31:39

Meta 计划为 Facebook 引入 AI 角色机器人，可与用户互动评论

12 月 31 日消息，外媒《金融时报》采访 Meta 的 AI 产品副总裁 Connor Hayes 获悉，M...[详细]

2024-12-31 11:17:39

Meta 首席科学家杨立昆：实现 AGI 最乐观需至少五到六年

12 月 30 日消息，Meta 首席科学家、图灵奖得主杨立昆（注：Yann LeCun，法国人）在 29 日的"Into the Impossible"播...[详细]

2024-12-31 11:17:39

苹果和欧盟博弈：点名 Meta，质疑 15 项 iPhone 数据访问请求暗藏隐私风险

12 月 19 日消息，欧盟委员会昨日（12 月 18 日）发布报告，向苹果公司施压，要求其进一步开放 iOS 系统，提升互操作性...[详细]

2024-12-21 07:58:28

苹果指责 Meta 在欧盟 DMA 框架下提出过多互操作性请求，危及用户隐私安全

12 月 19 日消息，苹果公司今日表示，Meta 公司已在欧盟《数字市场法案》（DMA）框架下提出了 15 项互操作性请求，数...[详细]

2024-12-19 14:14:28