为什么选择DeepSeek-R1-Distill-Qwen-14B?昇腾平台最优大模型方案深度测评
为什么选择DeepSeek-R1-Distill-Qwen-14B?昇腾平台最优大模型方案深度测评
【免费下载链接】DeepSeek-R1-Distill-Qwen-14B项目地址: https://ai.gitcode.com/hf_mirrors/MindIE/DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-14B是一款专为昇腾平台优化的大模型解决方案,提供高效的部署与推理能力,特别适用于Atlas 800I A2服务器和Atlas 300I DUO卡环境,为开发者和企业用户带来卓越的AI性能体验。
🌟 昇腾平台深度适配:从硬件到软件的全方位优化
🔧 硬件要求与部署灵活性
部署DeepSeek-R1-Distill-Qwen-14B模型至少需要1台Atlas 800I A2服务器或者1台插1张Atlas 300I DUO卡的服务器,满足不同规模的算力需求。支持TP=2/4/8推理,可根据硬件配置灵活调整并行策略,最大化资源利用率。
📦 预置镜像:开箱即用的推理环境
目前提供的MindIE镜像已预置DeepSeek-R1-Distill-Qwen-14B模型推理脚本,无需额外下载适配代码,直接新建容器即可启动。镜像中各组件版本严格配套,包括MindIE 1.0.0、CANN 8.0.0、PTA 6.0.0等,确保环境稳定性与兼容性。
⚡ 量化技术:平衡性能与精度的最佳实践
Atlas 800I A2 w8a8量化
W8A8量化权重可通过msmodelslim(昇腾压缩加速工具)实现,仅支持在Atlas 800I A2服务器上运行。量化过程简单高效,通过以下命令即可完成:
python3 quant_qwen.py --model_path {浮点权重路径} --save_directory {W8A8量化权重路径} --calib_file ../common/teacher_qualification.jsonl --w_bit 8 --a_bit 8 --device_type npu --anti_method m4支持多卡量化,建议双卡执行以提升效率,需提前配置环境变量:
export ASCEND_RT_VISIBLE_DEVICES=0,1 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:FalseAtlas 300I DUO稀疏量化
针对Atlas 300I DUO卡,采用W8A8S稀疏量化方案,需先修改模型权重config.json中torch_dtype字段为float16。量化命令如下:
python3 quant_qwen.py --model_path {浮点权重路径} --save_directory {W8A8S量化权重路径} --calib_file ../common/cn_en.jsonl --w_bit 4 --a_bit 8 --fraction 0.011 --co_sparse True --device_type npu --use_sigma True --is_lowbit True --sigma_factor 4.0 --anti_method m4量化后需进行权重切分及压缩:
torchrun --nproc_per_node {TP数} -m examples.convert.model_slim.sparse_compressor --multiprocess_num 4 --model_path {W8A8S量化权重路径} --save_directory {W8A8SC量化权重路径}🚀 推理能力:从测试到服务化的全流程支持
纯模型推理
对话测试
进入llm_model路径,执行对话测试:
cd $ATB_SPEED_HOME_PATH torchrun --nproc_per_node 2 \ --master_port 20037 \ -m examples.run_pa \ --model_path {权重路径} \ --max_output_length 20性能测试
进入ModelTest路径,运行测试脚本:
cd $ATB_SPEED_HOME_PATH/tests/modeltest/ bash run.sh pa_[data_type] performance [case_pair] [batch_size] ([prefill_batch_size]) [model_name] ([is_chat_model]) (lora [lora_data_path]) [weight_dir] ([trust_remote_code]) [chip_num] ([parallel_params]) ([max_position_embedding/max_sequence_length])具体执行batch=1, 输入长度256, 输出长度256用例的2卡并行性能测试命令为:
bash run.sh pa_bf16 performance [[256,256]] 1 qwen ${weight_path} 2服务化推理
通过修改配置文件,快速拉起服务化推理:
- 打开配置文件:
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json- 更改配置文件,设置端口、设备ID、模型路径等参数:
{ ... "ServerConfig" : { ... "port" : 1040, "managementPort" : 1041, "metricsPort" : 1042, ... "httpsEnabled" : false, ... }, "BackendConfig": { ... "npuDeviceIds" : [[0,1]], ... "ModelDeployConfig": { "truncation" : false, "ModelConfig" : [ { ... "modelName" : "qwen", "modelWeightPath" : "/data/datasets/DeepSeek-R1-Distill-Qwen-14B", "worldSize" : 2, ... } ] }, } }- 拉起服务化:
cd /usr/local/Ascend/mindie/latest/mindie-service/bin ./mindieservice_daemon- 新建窗口测试(VLLM接口):
curl 127.0.0.1:1040/generate -d '{ "prompt": "What is deep learning?", "max_tokens": 32, "stream": false, "do_sample":true, "repetition_penalty": 1.00, "temperature": 0.01, "top_p": 0.001, "top_k": 1, "model": "qwen" }'🛠️ 快速开始:从克隆到部署的简易步骤
- 克隆仓库:
git clone https://gitcode.com/hf_mirrors/MindIE/DeepSeek-R1-Distill-Qwen-14B下载镜像: 前往魔乐镜像中心/昇腾社区下载适配本模型的镜像包:1.0.0-800I-A2-py311-openeuler24.03-lts或1.0.0-300I-Duo-py311-openeuler24.03-lts。
加载镜像:
docker load -i mindie:1.0.0-800I-A2-py311-openeuler24.03-lts(下载的镜像名称与标签)或
docker load -i mindie:1.0.0-300I-Duo-py311-openeuler24.03-lts(下载的镜像名称与标签)- 新建容器: 根据用户类型选择合适的启动命令,例如root用户特权容器:
docker run -it -d --net=host --shm-size=1g \ --privileged \ --name <container-name> \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \ -v /usr/local/sbin:/usr/local/sbin:ro \ -v /path-to-weights:/path-to-weights:ro \ mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash- 进入容器:
docker exec -it ${容器名称} bash❓ 常见问题与解决方案
ImportError: cannot import name 'shard_checkpoint' from 'transformers.modeling_utils'
降低transformers版本可解决:pip install transformers==4.46.3 --force-reinstall pip install numpy==1.26.4 --force-reinstall报错ValueError: The path should not be a symbolic link file
常规snapshot_download下载权重为符号链接,可通过直接网页下载本体替换,或删除base/model_test.py下safe_open使用处(459~463行)。
📝 声明
本代码仓提到的数据集和模型仅作为示例,仅供非商业目的使用。使用时请遵守对应数据集和模型的License,如因使用数据集或模型产生侵权纠纷,华为不承担任何责任。如在使用过程中发现问题,请在本代码仓提交issue,我们将及时审视并解答。
【免费下载链接】DeepSeek-R1-Distill-Qwen-14B项目地址: https://ai.gitcode.com/hf_mirrors/MindIE/DeepSeek-R1-Distill-Qwen-14B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
