Ollama上线自主多模态AI引擎：本地推理性能大幅提升

访客 2025-05-17 15:20:56 4435 抢沙发

默认

摘要： IT之家 5 月 17 日消息，科技媒体 WinBuzzer 昨日（5 月 16 日）发布博文，报道称开源大语言模型服务工具 Ollama 推出自主研发的多模态 AI 定制引擎，摆...

IT之家 5 月 17 日消息，科技媒体 WinBuzzer 昨日（5 月 16 日）发布了一篇博文，报道开源大语言模型服务工具 Ollama 推出了自主研发的多模态 AI 定制引擎。这一新引擎标志着 Ollama 在技术架构上的重要突破，摆脱了对 llama.cpp 框架的直接依赖。

值得注意的是，llama.cpp 项目近期通过 libmtmd 库整合了全面的视觉支持功能，这使得 Ollama 与 llama.cpp 的关系成为社区热议的话题。一些开发者开始关注 Ollama 是否在技术实现上参考了 llama.cpp 的成果。

对此，Ollama 团队成员在 Hacker News 上明确澄清：Ollama 是基于 golang 独立开发的，并未直接借鉴 llama.cpp 的 C++ 实现方式。 同时，团队也感谢社区的反馈，表示这些意见有助于改进其技术方案。

在官方声明中，Ollama 指出，随着 Meta 的 Llama 4、Google 的 Gemma 3、阿里巴巴的 Qwen 2.5 VL 以及 Mistral Small 3.1 等模型复杂性的持续提升，现有的技术架构已难以满足高效推理的需求。尤其在处理多模态数据时，传统方法面临性能瓶颈和资源消耗过高的问题。

为应对这些挑战，Ollama 推出了全新引擎，专注于提升本地推理的精度和效率。特别是在处理大规模图像生成任务时，新引擎能够显著减少 token 处理时间，从而优化整体性能。

此外，Ollama 引入了图像处理附加元数据机制，进一步优化批量处理和位置数据管理能力。这种设计有效避免了因图像分割错误而导致的输出质量下降问题。同时，通过 KVCache 优化技术，新引擎大幅提升了 transformer 模型的推理速度。

在内存管理方面，新引擎实现了重大改进，新增了图像缓存功能。这一功能确保经过处理的图像可以被重复利用，避免因提前丢弃而增加计算负担。此外，Ollama 还与 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨头合作，通过精准检测硬件元数据，进一步优化内存估算策略，以适配不同设备的性能需求。

针对 Meta 最新的 Llama 4 Scout（1090 亿参数混合专家模型 MoE）等复杂模型，Ollama 引擎引入了分块注意力（chunked attention）和 2D 旋转嵌入（2D rotary embedding）等先进技术，使其能够更高效地处理长序列输入和多维数据。

展望未来，Ollama 表示将继续优化引擎性能，计划支持更长的上下文长度、更复杂的推理过程以及工具调用的流式响应。这些改进将进一步增强本地 AI 模型的多功能性和实用性，为开发者提供更多可能性。

标签：模型引擎图像