New memory management: this release of Ollama includes improved memory management for scheduling models on GPUs, leading to better VRAM utilization, model performance and less out of memory errors. These new memory estimations can be enabled with OLLAMA_NEW_ESTIMATES=1 ollama serve and will soon be enabled by default.
新的内存管理:此版本的 Ollama 包括改进的内存管理,用于在 GPU 上调度模型,从而提高 VRAM 利用率、模型性能并减少内存不足错误。这些新的内存估计可以启用 OLLAMA_NEW_ESTIMATES=1 ollama serve ,并且很快就会默认启用。
Improved multi-GPU scheduling and reduced VRAM allocation when using more than 2 GPUs
改进了多 GPU 调度并减少了使用 2 个以上 GPU 时的 VRAM 分配
Ollama’s new app will now remember default selections for default model, Turbo and Web Search between restarts
Ollama 的新应用程序现在将在重新启动之间记住默认模型、Turbo 和 Web 搜索的默认选择
Fix error when parsing bad harmony tool calls
修复解析不良和谐工具调用时的错误
OLLAMA_FLASH_ATTENTION=1 will also enable flash attention for pure-CPU models
OLLAMA_FLASH_ATTENTION=1 还将为纯 CPU 模型启用闪存注意力
Fixed OpenAI-compatible API not supporting reasoning_effort
修复了 OpenAI 兼容 API 不支持 reasoning_effort 的问题
Reduced size of installation on Windows and Linux
减小了 Windows 和 Linux 上的安装大小
下载页面
暂无评论内容