-
Notifications
You must be signed in to change notification settings - Fork 334
Closed
Description
非专业提问,请谅解。
运行设备:MACMINI M2
使用mps加速,在提问的时候,有较长的响应时间,期间CPU单核100%,这个过程时间很长,尤其是在有多条上下文的时候较为明显。到了输出的时候,CPU下降,GPU满载,这个时候的速度就很美了。
简单说就是出字速度快,但是前边的响应时间很长,是特性或者有优化的方法?
下面是我使用的命令:
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
python convert.py -i /Users/admin/chatglm2-6b -t q4_0 -o chatglm2-ggml.bin
cmake -B build -DGGML_METAL=ON && cmake --build build -j
CMAKE_ARGS="-DGGML_METAL=ON" pip install 'chatglm-cpp[api]'
MODEL=../chatglm2-ggml.bin uvicorn chatglm_cpp.openai_api:app --host 0.0.0.0 --port 8000
Metadata
Metadata
Assignees
Labels
No labels