本文作者:访客

苹果发布FastVLM视觉语言模型,加速布局智能穿戴设备未来

访客 2025-05-13 15:12:17 22038 抢沙发
苹果发布FastVLM视觉语言模型,加速布局智能穿戴设备未来摘要: IT之家 5 月 13 日消息,苹果机器学习团队上周在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。据介绍,该模型基于...

IT之家 5 月 13 日消息,苹果机器学习团队上周在 GitHub 上发布并开源了一款视觉语言模型——FastVLM,提供 0.5B、1.5B 和 7B 三种参数规模的版本。

该模型基于苹果自研 MLX 框架开发,并通过 LLaVA 代码库训练,专为 Apple Silicon 设备的端侧 AI 运算进行了深度优化。这一举措标志着苹果正加速布局端侧人工智能技术生态。

根据技术文档,FastVLM 在保证精度的同时,实现了高分辨率图像处理的近实时响应,其计算量仅为同类模型的一小部分,展现出卓越的效率优势。

苹果发布FastVLM视觉语言模型,加速布局智能穿戴设备未来

FastVLM 的核心组件是一个名为 FastViTHD 的混合视觉编码器。苹果团队表示,这款编码器“专为高分辨率图像上的高效 VLM 性能而设计”,其处理速度较现有同类模型提升了 3.2 倍,而体积却仅有后者的 3.6 分之一。

亮点总结:
- FastViTHD 新型混合视觉编码器:针对高分辨率图像优化设计,大幅减少令牌输出量并显著缩短编码时间。
- 最小模型版本性能对比:与 LLaVA-OneVision-0.5B 模型相比,首词元(Token)响应速度提升 85 倍,视觉编码器体积缩小 3.4 倍。
- 搭配 Qwen2-7B 大语言模型版本:使用单一图像编码器即可超越 Cambrian-1-8B 等近期研究成果,首词元响应速度提升 7.9 倍。
- 配套 iOS 演示应用:通过实机展示,直观呈现移动端模型性能表现。

苹果技术团队指出:“通过对图像分辨率、视觉延迟、词元数量以及 LLM 大小的综合效率分析,我们成功开发出 FastVLM。该模型在延迟、模型大小和准确性之间实现了最佳权衡,为未来智能设备的端侧运算提供了强有力的支持。”

FastVLM 的应用场景直指苹果正在研发的智能眼镜类穿戴设备。据多方信息显示,苹果计划于 2027 年推出一款对标 Meta Ray-Bans 的 AI 眼镜,同时可能发布配备摄像头的 AirPods 设备。这些产品将依赖本地化处理能力实现低延迟的实时视觉交互,而无需依赖云端支持。

得益于 MLX 框架,开发者可以在 Apple 设备上直接训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出进一步验证了苹果构建完整端侧 AI 技术生态的决心与实力。

参考资料:

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,22038人围观)参与讨论

还没有评论,来说两句吧...