MACOS部署响应时间较长，出字速度还行

非专业提问，请谅解。

运行设备：MACMINI M2

使用mps加速，在提问的时候，有较长的响应时间，期间CPU单核100%，这个过程时间很长，尤其是在有多条上下文的时候较为明显。到了输出的时候，CPU下降，GPU满载，这个时候的速度就很美了。

简单说就是出字速度快，但是前边的响应时间很长，是特性或者有优化的方法？


下面是我使用的命令：
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
python convert.py -i /Users/admin/chatglm2-6b -t q4_0 -o chatglm2-ggml.bin
cmake -B build -DGGML_METAL=ON && cmake --build build -j
CMAKE_ARGS="-DGGML_METAL=ON" pip install 'chatglm-cpp[api]'
MODEL=../chatglm2-ggml.bin uvicorn chatglm_cpp.openai_api:app --host 0.0.0.0 --port 8000

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

MACOS部署响应时间较长，出字速度还行 #98

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

MACOS部署响应时间较长，出字速度还行 #98

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions