当前位置：首页 > news >正文

Ollama本地部署大模型及应用

news 2025/7/15 5:11:40

文章目录

前言
一、下载安装
- 1.Mac
- 2.Windows
- 3.linux
- 4.docker
- 5.修改配置（可选）
- - 1.linux系统
  - 2.window 系统
  - 3.mac系统
二、Ollama使用
- 1.命令
- 2.模型下载
- 3.自定义模型
- 4.API 服务
三、Open WebUI 使用
四、Dify使用

前言

Ollama 是一个专注于本地部署大型语言模型的工具，通过提供便捷的模型管理、丰富的预建模型库、跨平台支持以及灵活的自定义选项，使得开发者和研究人员能够在本地环境中高效利用大型语言模型进行各种自然语言处理任务，而无需依赖云服务或复杂的基础设施设置。

以下是其主要特点和功能概述：

简化部署：Ollama 目标在于简化在 Docker 容器中部署大型语言模型的过程，使得非专业用户也能方便地管理和运行这些复杂的模型。
轻量级与可扩展：作为轻量级框架，Ollama 保持了较小的资源占用，同时具备良好的可扩展性，允许用户根据需要调整配置以适应不同规模的项目和硬件条件。
API支持：提供了一个简洁的 API，使得开发者能够轻松创建、运行和管理大型语言模型实例，降低了与模型交互的技术门槛。
预构建模型库：包含一系列预先训练好的大型语言模型，用户可以直接选用这些模型应用于自己的应用程序，无需从头训练或自行寻找模型源。

一、下载安装

1.Mac

下载对应的客户端软件，并安装
下载地址：https://ollama.com/download/Ollama-darwin.zip

2.Windows

下载对应的客户端软件，并安装
下载地址：https://ollama.com/download/OllamaSetup.exe

3.linux

运行命令一键下载安装

curl -fsSL https://ollama.com/install.sh | sh

查看下服务状态

systemctl status ollama

查看安装版本

ollama -v

4.docker

Docker Hub 上提供了官方的 Ollama Docker 镜像。ollama/ollama

需要配置GPU驱动可以看Ollama的docker镜像文档https://hub.docker.com/r/ollama/ollama

拉取镜像

# 使用 CPU 或者 Nvidia GPU 来推理模型
docker pull ollama/ollama
# 使用 AMD GPU 来推理模型
docker pull ollama/ollama:rocm

针对不同的设备，我们的运行指令也需要有不同的调整：

# 默认 CPU 模式运行
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama# Nvidia GPU 模式运行
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama# AMD 显卡运行
docker run -d --device /dev/kfd --device /dev/dri -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama:rocm

5.修改配置（可选）

Ollama 可以设置的环境变量

OLLAMA_HOST：这个变量定义了Ollama监听的网络接口。通过设置OLLAMA_HOST=0.0.0.0，我们可以让Ollama监听所有可用的网络接口，从而允许外部网络访问。OLLAMA_MODELS：这个变量指定了模型镜像的存储路径。通过设置OLLAMA_MODELS=F:\OllamaCache，我们可以将模型镜像存储在E盘，避免C盘空间不足的问题。OLLAMA_KEEP_ALIVE：这个变量控制模型在内存中的存活时间。设置OLLAMA_KEEP_ALIVE=24h可以让模型在内存中保持24小时，提高访问速度。OLLAMA_PORT：这个变量允许我们更改Ollama的默认端口。例如，设置OLLAMA_PORT=8080可以将服务端口从默认的11434更改为8080。OLLAMA_NUM_PARALLEL：这个变量决定了Ollama可以同时处理的用户请求数量。设置OLLAMA_NUM_PARALLEL=4可以让Ollama同时处理两个并发请求。OLLAMA_MAX_LOADED_MODELS：这个变量限制了Ollama可以同时加载的模型数量。设置OLLAMA_MAX_LOADED_MODELS=4可以确保系统资源得到合理分配。

不同操作系统，模型默认存放在：

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users\xxx\.ollama\models

默认只能本地访问，如果需要局域网内其他机器也能访问（比如嵌入式设别要访问本地电脑），需要对 HOST 进行配置，开启监听任何来源IP

1.linux系统

配置文件在：/etc/systemd/system/ollama.service

[Service]
#修改HOST
Environment="OLLAMA_HOST=0.0.0.0"
#修改模型存放位置
Environment="OLLAMA_MODELS=/data/ollama/models"
#如果有多张 GPU，可以对 CUDA_VISIBLE_DEVICES 配置，指定运行的 GPU，默认使用多卡。
Environment="CUDA_VISIBLE_DEVICES=0,1"

配置修改后，需要重启 ollama

systemctl daemon-reload
systemctl restart ollama

2.window 系统

#直接在系统环境变量中加入
OLLAMA_HOST=0.0.0.0:11434

重启服务后生效

3.mac系统

使用launchctl配置环境变量

launchctl setenv OLLAMA_HOST "0.0.0.0:11434"

重启服务后生效

文档：https://github.com/ollama/ollama/blob/main/docs/faq.md

二、Ollama使用

1.命令

终端输入ollama

在这里插入图片描述

ollama serve	# 启动ollama
ollama create	# 从模型文件创建模型
ollama show		# 显示模型信息
ollama run		# 运行模型，会先自动下载模型
ollama stop     # 停止运行模型
ollama pull		# 从注册仓库中拉取模型
ollama push		# 将模型推送到注册仓库
ollama list		# 列出已下载模型
ollama ps		# 列出正在运行的模型
ollama cp		# 复制模型
ollama rm		# 删除模型
ollama models details [模型名称] # 获取更多模型信息

2.模型下载

在官方有类似 Docker 托管镜像的 Docker Hub，Ollama 也有个 Library 托管支持的大模型。
地址：https://ollama.com/library
在这里插入图片描述
使用命令ollama run 自动下载模型后运行

ollama run qwen2.5

在这里插入图片描述

3.自定义模型

如果要使用的模型不在 Ollama 模型库怎么办？

GGUF (GPT-Generated Unified Format)模型
GGUF 是由 llama.cpp 定义的一种高效存储和交换大模型预训练结果的二进制格式。

Ollama 支持采用 Modelfile 文件中导入 GGUF 模型。

这里我使用Llama3.1-8B-Chinese-Chat模型举例子
模型地址：https://modelscope.cn/models/XD_AI/Llama3.1-8B-Chinese-Chat/files
在这里插入图片描述
step 1:新建一个文件名为 llama3-modelfile 的文件，然后在其中指定 llama3 模型路径：

FROM /root/models/llama3.1_8b_chinese_chat_f16.gguf

step 2: 创建模型
这里的llama3.1_8b名字可以自定义

ollama create llama3.1_8b -f llama3-modelfile

step 3: 运行模型

ollama run llama3

4.API 服务

除了本地运行模型以外，还可以把模型部署成 API 服务。

执行下述指令，可以一键启动 REST API 服务：

ollama serve

下面介绍两个常用示例：

1、生成回复

curl http://129.150.63.xxx:11434/api/generate -d '{"model": "qwen2:0.5b","prompt":"Why is the sky blue?","stream":false
}'

2、模型对话

curl http://localhost:11434/api/chat -d '{"model": "qwen2:0.5b","messages": [{ "role": "user", "content": "why is the sky blue?" }],"stream":false
}'

更多参数和使用，可参考 API 文档：https://github.com/ollama/ollama/blob/main/docs/api.md

三、Open WebUI 使用

Open WebUI 是一个可扩展的自托管 WebUI，前身就是 Ollama WebUI，为 Ollama 提供一个可视化界面，可以完全离线运行，支持 Ollama 和兼容 OpenAI 的 API。

GitHub地址：https://github.com/open-webui/open-webui
文档地址：https://docs.openwebui.com/

Open WebUI 部署
我们直接采用 docker 部署 Open WebUI：

因为我们已经部署了 Ollama，故采用如下命令：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

其中：–add-host=host.docker.internal:host-gateway 是为了添加一个主机名映射，将 host.docker.internal 指向宿主机的网关，方便容器访问宿主机服务

假设你之前没有安装过 Ollama，也可以采用如下镜像（打包安装Ollama + Open WebUI）：

docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

Open WebUI 使用
在打开主机 3000 端口的防火墙之后，浏览器中输入：http://your_ip:3000/，注册一个账号：

在这里插入图片描述
可以发现界面和 ChatGPT 一样简洁美观，首先需要选择一个模型，我部署了 qwen2.5，于是先用它试试：

右上角这里可以设置系统提示词，以及模型参数等等：

在个人设置这里，可以看到内置的 TTS 服务：
在这里插入图片描述
输入消息进行对话

觉得上述流程略显麻烦？没问题，你的困惑早有人帮你搞定了，GitHub 上有开发者做了 docker-compose 一键整合安装包。Ollama Docker Compose 该项目使用 Docker Compose 简化了 Ollama 的部署，从而可以轻松地在容器化环境中运行 Ollama 及其所有依赖项。

传送门：https://github.com/valiantlynx/ollama-docker
你只需要一行命令：

docker-compose up -d

就能一键启动 Ollama + Open WebUI~

启动成功后，注意看一下不同容器的端口号：

docker ps

四、Dify使用

在 Dify 中接入 Ollama
在设置 > 模型供应商 > Ollama 中填入：
在这里插入图片描述

模型名称：llava
基础 URL：http://:11434
此处需填写可访问到的 Ollama 服务地址。
若 Dify 为 docker 部署，建议填写局域网 IP 地址，如：http://192.168.1.100:11434 或 docker 宿主机 IP 地址，如：http://172.17.0.1:11434。
若为本地源码部署，可填写 http://localhost:11434。
模型类型：对话
模型上下文长度：4096
模型的最大上下文长度，若不清楚可填写默认值 4096。
最大 token 上限：4096
模型返回内容的最大 token 数量，若模型无特别说明，则可与模型上下文长度保持一致。
是否支持 Vision：是
当模型支持图片理解（多模态）勾选此项，如 llava。

如果您使用Docker部署Dify和Ollama，您可能会遇到以下错误:

httpconnectionpool(host=127.0.0.1, port=11434): max retries exceeded with url:/cpi/chat (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f8562812c20>: fail to establish a new connection:[Errno 111] Connection refused'))httpconnectionpool(host=localhost, port=11434): max retries exceeded with url:/cpi/chat (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f8562812c20>: fail to establish a new connection:[Errno 111] Connection refused'))

这个错误是因为 Docker 容器无法访问 Ollama 服务。localhost 通常指的是容器本身，而不是主机或其他容器。要解决此问题，您需要将 Ollama 服务暴露给网络。
OLLAMA_HOST=0.0.0.0

如果以上步骤无效，可以使用以下方法：
问题是在docker内部，你应该连接到host.docker.internal，才能访问docker的主机，所以将localhost替换为host.docker.internal服务就可以生效了：http://host.docker.internal:11434