DeepSeek-V3-0324：华为昇腾平台上的671B参数大语言模型部署全攻略

滕娴殉

553人浏览 · 2026-06-01 08:45:36

滕娴殉 · 2026-06-01 08:45:36 发布

DeepSeek-V3-0324：华为昇腾平台上的671B参数大语言模型部署全攻略

【免费下载链接】DeepSeek-V3-0324 项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/DeepSeek-V3-0324

DeepSeek-V3-0324是基于华为昇腾平台优化的671B参数大语言模型，采用MindSpore框架实现高效推理。本指南将带你完成从环境搭建到服务部署的全流程，让你快速掌握千亿级模型在国产AI硬件上的部署技巧。

📋 环境准备清单

成功部署DeepSeek-V3-0324需要以下硬件和软件支持：

硬件要求：4台Atlas 800I A2服务器（每台配备8张64G NPU卡），并确保服务器间网络互通
基础软件：Docker、MindSpore 20250326版本、vLLM-MindSpore推理框架
模型文件：163个模型分片文件（model-00001-of-000163.safetensors至model-00163-of-000163.safetensors）、配置文件predict_deepseek3_671b.yaml和分词器文件tokenizer.json

🔧 环境搭建步骤

1. 拉取专用镜像

在所有服务器上执行以下命令拉取包含MindSpore的预配置镜像：

docker pull hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:20250326

2. 清理系统进程

为避免资源冲突，清理可能占用NPU资源的进程：

pkill -9 python
pkill -9 mindie
pkill -9 ray

3. 启动容器实例

在每台服务器上启动Docker容器，注意替换--hostname为唯一名称（如worker1、worker2等）：

docker run -it --name=DeepSeek_V3_0324 --ipc=host --network=host --privileged=true --hostname=worker1 \
        --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 \
        --device=/dev/davinci4 --device=/dev/davinci5 --device=/dev/davinci6 --device=/dev/davinci7 \
        --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc \
        -v /usr/local/sbin/:/usr/local/sbin/ \
        -v /etc/hccn.conf:/etc/hccn.conf \
        -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
        -v /usr/local/dcmi:/usr/local/dcmi \
        -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
        -v /etc/ascend_install.info:/etc/ascend_install.info \
        -v /etc/vnpu.cfg:/etc/vnpu.cfg \
        -v /data/DeepSeek-V3-0324:/data/DeepSeek-V3-0324 \
        --pids-limit 409600 \
        --shm-size="250g" \
        hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:20250326 \
        /bin/bash

📥 模型文件下载与配置

1. 安装模型下载工具

pip install openmind_hub

2. 下载模型权重

export HUB_WHITE_LIST_PATHS=/data/DeepSeek-V3-0324
python
from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/DeepSeek-V3-0324",
    local_dir="/data/DeepSeek-V3-0324",
    local_dir_use_symlinks=False
)

3. 修改配置文件

编辑predict_deepseek3_671b.yaml文件，更新以下关键路径：

# 修改为模型权重路径
load_checkpoint: '/data/DeepSeek-V3-0324'

# 修改为tokenizer.json文件路径
vocab_file: '/data/DeepSeek-V3-0324/tokenizer.json'
tokenizer_file: '/data/DeepSeek-V3-0324/tokenizer.json'

🚀 分布式服务启动

1. 设置环境变量

在所有容器中执行：

export MINDFORMERS_MODEL_CONFIG=/data/DeepSeek-V3-0324/predict_deepseek3_671b.yaml
export ASCEND_CUSTOM_PATH=$ASCEND_HOME_PATH/../
export vLLM_MODEL_BACKEND=MindFormers
export vLLM_MODEL_MEMORY_USE_GB=50
export ASCEND_TOTAL_MEMORY_GB=64
export MS_ENABLE_LCCL=off
export HCCL_OP_EXPANSION_MODE=AIV
export HCCL_SOCKET_IFNAME=enp189s0f0  # 根据实际网卡名称调整
export GLOO_SOCKET_IFNAME=enp189s0f0
export TP_SOCKET_IFNAME=enp189s0f0
export HCCL_CONNECT_TIMEOUT=3600
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

2. 启动分布式集群

主节点执行：

ray stop
ray start --head --port=6380

其他节点执行（替换为主节点IP）：

ray stop
ray start --address=主节点IP:6380

3. 启动推理服务

在主节点容器中执行：

python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server \
  --model "/data/DeepSeek-V3-0324" \
  --trust_remote_code \
  --tensor_parallel_size=32 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --max-num-seqs=256 \
  --block-size=32 \
  --max_model_len=70000 \
  --max-num-batched-tokens=2048 \
  --distributed-executor-backend=ray

📝 推理服务测试

服务启动后，可通过以下命令测试：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "/data/DeepSeek-V3-0324", "prompt": "请介绍下北京的top景点", "temperature": 0, "max_tokens": 256, "top_p": 1.0, "top_k": 1, "repetition_penalty":1.0}'