# xinference-run-llm

**Repository Path**: hpuswl/xinference-run-llm

## Basic Information

- **Project Name**: xinference-run-llm
- **Description**: 使用 xinference 部署大模型。
支持函数调用
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 15
- **Created**: 2024-02-05
- **Last Updated**: 2024-02-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 使用平台

在autodl 上面使用。
[https://www.autodl.com/create](https://www.autodl.com/create)


选择 pytroch 2.1 版本，python3.10

先创建相关配置的容器，然后克隆本项目，执行运行某些模型脚本：

```bash
git clone https://gitee.com/fly-llm/xinference-run-llm.git
```

使用xinference的特点是

| 功能特点                    | Xinference | FastChat | OpenLLM | RayLLM |
|-------------------------|------------|----------|---------|--------|
| 兼容 OpenAI 的 RESTful API | ✅ | ✅ | ✅ | ✅ |
| vLLM 集成                 | ✅ | ✅ | ✅ | ✅ |
| 更多推理引擎（GGML、TensorRT）   | ✅ | ❌ | ✅ | ✅ |
| 更多平台支持（CPU、Metal）       | ✅ | ✅ | ❌ | ❌ |
| 分布式集群部署                 | ✅ | ❌ | ❌ | ✅ |
| 图像模型（文生图）               | ✅ | ✅ | ❌ | ❌ |
| 文本嵌入模型                  | ✅ | ❌ | ❌ | ❌ |
| 多模态模型                   | ✅ | ❌ | ❌ | ❌ |
| 语音识别模型                  | ✅ | ❌ | ❌ | ❌ |
| 更多 OpenAI 功能 (函数调用)     | ✅ | ❌ | ❌ | ❌ |

官网文档：
https://inference.readthedocs.io/zh-cn/latest/getting_started/

github地址：
https://github.com/xorbitsai/inference/blob/main/README_zh_CN.md

## 关于 ChatGML3 大模型

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary

ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：

更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的预训练模型中最强的性能。
更完整的功能支持： ChatGLM3-6B 采用了全新设计的 Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。
更全面的开源序列： 除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM-6B-Base、长文本对话模型 ChatGLM3-6B-32K。

执行:

```bash
bash run_xinference.sh

export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
启动成功执行
# https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/chatglm3.html#
xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit

```

## 关于 Baichuan2 大模型

https://www.modelscope.cn/models/baichuan-inc/Baichuan2-7B-Chat/summary

Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。
Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。
本次发布包含有 7B、13B 的 Base 和 Chat 版本，并提供了 Chat 版本的 4bits 量化。

执行:

```bash
bash run_xinference.sh

export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
启动成功执行
# https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/baichuan-2-chat.html
xinference launch --model-name baichuan-2-chat --size-in-billions 7 --model-format pytorch

```

## 关于 通义千问-7B 大模型

https://www.modelscope.cn/models/qwen/Qwen-7B-Chat/summary

**通义千问-7B（Qwen-7B）**是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。相较于最初开源的Qwen-7B模型，我们现已将预训练模型和Chat模型更新到效果更优的版本。

执行:

```bash
bash run_xinference.sh

启动成功执行
# https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/qwen-chat.html

export XINFERENCE_ENDPOINT=http://127.0.0.1:6006

xinference launch --model-name qwen-chat --size-in-billions 7 --model-format pytorch --quantization 8-bit

xinference launch --model-name qwen-chat --size-in-billions 14 --model-format pytorch --quantization 8-bit


```


## embedding 模型

https://modelscope.cn/models/Xorbits/bge-large-zh-v1.5/summary

文档：
https://inference.readthedocs.io/zh-cn/latest/models/builtin/embedding/bge-large-zh.html

```bash
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
xinference launch --model-name bge-large-zh --model-type embedding
```


## rerank 模型

https://modelscope.cn/models/Xorbits/bge-reranker-large/summary

文档
https://inference.readthedocs.io/zh-cn/latest/models/builtin/rerank/bge-reranker-large.html


```bash
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
xinference launch --model-name bge-reranker-large --model-type rerank
```

## audio 模型

https://inference.readthedocs.io/zh-cn/latest/user_guide/client_api.html#audio

```bash
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006

xinference launch --model-uid whisper-1 --model-name whisper-large-v3 --model-type audio

xinference launch --model-uid whisper-1 --model-name whisper-tiny --model-type audio

```

## 图片 模型

https://inference.readthedocs.io/zh-cn/latest/user_guide/client_api.html#audio

```bash
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
xinference launch --model-name sdxl-turbo --model-type image

xinference launch --model-name sd-turbo --model-type image

```