考虑到硬件资源因素,没有足够的资源让每个人都部署一份模型,因此,本操作仅由讲师完成。讲师将向量嵌入模型部分为REST API 的方式,供大家调用。
conda create -n ws23ai python=3.12
conda activate ws23ai
pip install -r requirements.txt
先查看及编辑环境变量文件 app.env,确保文件中的设置正确,如数据库连接信息、模型路径等。再启动程序:
python main.py
考虑到硬件资源因素,没有足够的资源让每个人都部署一份模型,因此,本操作仅由讲师完成。讲师将LLM模型部分为REST API 的方式,供大家调用。
从魔搭社区 (modelscope) 下载:Qwen2-7B-Instruct
我们采用vLLM来部署模型。vLLM是一个模型加速库,能大幅提升推理效率。
安装 vLLM:
conda create -n vllm python=3.12
conda activate vllm
pip install vllm
启动运行:
python -m vllm.entrypoints.openai.api_server --port 8098 --model /home/ubuntu/ChatGPT/Models/Qwen/Qwen2-7B-Instruct --served-model-name Qwen2-7B-Instruct --device=cuda --dtype auto --max-model-len=2048