
Ollama上线自主多模态AI引擎:本地推理性能大幅提升

IT之家 5 月 17 日消息,科技媒体 WinBuzzer 昨日(5 月 16 日)发布了一篇博文,报道开源大语言模型服务工具 Ollama 推出了自主研发的多模态 AI 定制引擎。这一新引擎标志着 Ollama 在技术架构上的重要突破,摆脱了对 llama.cpp 框架的直接依赖。
值得注意的是,llama.cpp 项目近期通过 libmtmd 库整合了全面的视觉支持功能,这使得 Ollama 与 llama.cpp 的关系成为社区热议的话题。一些开发者开始关注 Ollama 是否在技术实现上参考了 llama.cpp 的成果。
对此,Ollama 团队成员在 Hacker News 上明确澄清:Ollama 是基于 golang 独立开发的,并未直接借鉴 llama.cpp 的 C++ 实现方式。 同时,团队也感谢社区的反馈,表示这些意见有助于改进其技术方案。
在官方声明中,Ollama 指出,随着 Meta 的 Llama 4、Google 的 Gemma 3、阿里巴巴的 Qwen 2.5 VL 以及 Mistral Small 3.1 等模型复杂性的持续提升,现有的技术架构已难以满足高效推理的需求。尤其在处理多模态数据时,传统方法面临性能瓶颈和资源消耗过高的问题。
为应对这些挑战,Ollama 推出了全新引擎,专注于提升本地推理的精度和效率。特别是在处理大规模图像生成任务时,新引擎能够显著减少 token 处理时间,从而优化整体性能。
此外,Ollama 引入了图像处理附加元数据机制,进一步优化批量处理和位置数据管理能力。这种设计有效避免了因图像分割错误而导致的输出质量下降问题。同时,通过 KVCache 优化技术,新引擎大幅提升了 transformer 模型的推理速度。
在内存管理方面,新引擎实现了重大改进,新增了图像缓存功能。这一功能确保经过处理的图像可以被重复利用,避免因提前丢弃而增加计算负担。此外,Ollama 还与 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨头合作,通过精准检测硬件元数据,进一步优化内存估算策略,以适配不同设备的性能需求。
针对 Meta 最新的 Llama 4 Scout(1090 亿参数混合专家模型 MoE)等复杂模型,Ollama 引擎引入了分块注意力(chunked attention)和 2D 旋转嵌入(2D rotary embedding)等先进技术,使其能够更高效地处理长序列输入和多维数据。
展望未来,Ollama 表示将继续优化引擎性能,计划支持更长的上下文长度、更复杂的推理过程以及工具调用的流式响应。这些改进将进一步增强本地 AI 模型的多功能性和实用性,为开发者提供更多可能性。
还没有评论,来说两句吧...