Skip to content

MACOS部署响应时间较长,出字速度还行 #98

@liuhrme

Description

@liuhrme

非专业提问,请谅解。

运行设备:MACMINI M2

使用mps加速,在提问的时候,有较长的响应时间,期间CPU单核100%,这个过程时间很长,尤其是在有多条上下文的时候较为明显。到了输出的时候,CPU下降,GPU满载,这个时候的速度就很美了。

简单说就是出字速度快,但是前边的响应时间很长,是特性或者有优化的方法?

下面是我使用的命令:
git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp
python convert.py -i /Users/admin/chatglm2-6b -t q4_0 -o chatglm2-ggml.bin
cmake -B build -DGGML_METAL=ON && cmake --build build -j
CMAKE_ARGS="-DGGML_METAL=ON" pip install 'chatglm-cpp[api]'
MODEL=../chatglm2-ggml.bin uvicorn chatglm_cpp.openai_api:app --host 0.0.0.0 --port 8000

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions