Docker运行Ollama部署大模型

Why Ollama?

1、Ollama目前已成为大模型部署的主流,操作简单

2、Ollama官方提供Docker镜像

3、Ollama支持OpenaiAPI格式调用

4、Ollama支持async

Ollama新特性(v0.1.33版本及以上)

Ollama 引入新的并发特性:

  • OLLAMA_NUM_PARALLEL: 支持单个模型同时处理多个请求
  • OLLAMA_MAX_LOADED_MODELS: 可以同时加载多个模型
  • OLLAMA_KEEP_ALIVE:休眠时间

基于Ollama部署LLMs

load最新镜像

docker pull ollama/ollama:latest

Llama3_8b部署

创建容器

docker run -d \
 --gpus='"device=0,1"'\
 -v /your_path_to/llama3_8b:/root/.ollama \
 -p 10434:11434 \
 -e OLLAMA_KEEP_ALIVE=-1 \
 -e OLLAMA_NUM_PARALLEL=8 \
 -e OLLAMA_MAX_LOADED_MODELS=1 \
 --name llama3_8b \
 ollama/ollama:0.1.37

容器内执行

docker exec -it llama3_8b ollama run llama3:8b

llama3:8b为模型名称,可在ollama官网查询

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注