Ollama 0.1.35 版本现已推出

摘要

新版特性简介：NVIDIA 推出了新的 Llama 3 ChatQA 模型，专长于对话式问答和检索增强生成。此外，引入了模型量化功能，使得在导入模型时可以进行量化处理。此次更新还修复了一系列技术问题，如清理推理子进程、多 GPU 系统上的内存溢出问题、ollama run 命令中的新行处理、视觉模型展示问题、API 请求处理以及文件管理。新版本还新增了生成停止原因的解释，并在多 GPU 系统上运行不同模型时，更准确地评估可用内存量。

新模型介绍

Llama 3 ChatQA：这是一个由 NVIDIA 开发的基于 Llama 3 的模型，该模型在对话式问答（QA）和检索增强生成（RAG）方面表现出色。

模型同样分为 8b，和 70b 两个本版，用户根据喜好自行下载

ollama pull llama3-chatqa:8b

最近更新和修复

新功能

量化功能：现在，ollama create 命令支持在导入模型时使用 --quantize 或 -q 选项进行量化处理：

ollama create -f Modelfile --quantize q4_0 mymodel

注意

--quantize 选项在导入 float16 或 float32 模型时有效：

从二进制 GGUF 文件导入（例如 FROM ./model.gguf）
从库中导入模型（例如 FROM llama3:8b-instruct-fp16）

他们修复了一下一些bug

修复了关闭程序时无法清理推理子进程的问题。
解决了在多 GPU 系统上加载模型时遇到的一系列内存溢出问题
现在，Ctrl+J 键盘操作会在 ollama run 命令中正确地添加新行
修复了在运行 ollama show 命令查看视觉模型时出现的问题
向 Ollama API 发送 OPTIONS 请求不再会引发错误
修复了未能清理部分下载文件的问题
在生成停止响应时，响应中新增了一个 done_reason 字段，用以说明停止的原因
Ollama 现在能够更准确地评估在多 GPU 系统上可用的内存量，特别是在连续运行不同模型的情况下

有谁知道这个量化功能什么时候会用到吗，请在留言区留言

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ollama 0.1.35 版本现已推出.md

Ollama 0.1.35 版本现已推出.md

Ollama 0.1.35 版本现已推出

摘要

新模型介绍

最近更新和修复

Files

Ollama 0.1.35 版本现已推出.md

Latest commit

History

Ollama 0.1.35 版本现已推出.md

File metadata and controls

Ollama 0.1.35 版本现已推出

摘要

新模型介绍

最近更新和修复