Why Ollama?
1、Ollama目前已成为大模型部署的主流,操作简单
2、Ollama官方提供Docker镜像
3、Ollama支持OpenaiAPI格式调用
4、Ollama支持async
Ollama新特性(v0.1.33版本及以上)
Ollama 引入新的并发特性:
- OLLAMA_NUM_PARALLEL: 支持单个模型同时处理多个请求
- OLLAMA_MAX_LOADED_MODELS: 可以同时加载多个模型
- OLLAMA_KEEP_ALIVE:休眠时间
基于Ollama部署LLMs
load最新镜像
docker pull ollama/ollama:latest
Llama3_8b部署
创建容器
docker run -d \
--gpus='"device=0,1"'\
-v /your_path_to/llama3_8b:/root/.ollama \
-p 10434:11434 \
-e OLLAMA_KEEP_ALIVE=-1 \
-e OLLAMA_NUM_PARALLEL=8 \
-e OLLAMA_MAX_LOADED_MODELS=1 \
--name llama3_8b \
ollama/ollama:0.1.37
容器内执行
docker exec -it llama3_8b ollama run llama3:8b
llama3:8b为模型名称,可在ollama官网查询
