MLU370运行glm4-9b-chat，30秒跑通！

小军军军军军军

645人浏览 · 2024-08-05 10:38:16

小军军军军军军 · 2024-08-05 10:38:16 发布

文章目录

一、paas平台环境配置
二、环境准备
三、模型下载
四、代码准备

一、paas平台环境配置

1.MLU370-M8
驱动：选择5.10.22以上【建议5.10.29】
在这里插入图片描述

二、环境准备

pip install transformers==4.42.0 accelerate==0.30.1 tiktoken

三、模型下载

继续使用魔搭社区快速下载

git-lfs clone https://www.modelscope.cn/zhipuai/glm-4-9b-chat.git

四、代码准备

import torch
import torch_mlu
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "mlu"

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat",trust_remote_code=True)

query = "你好"

inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors="pt",
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat",
    torch_dtype=torch.float16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))