# mindformers_bugfix **Repository Path**: liu-siming-hw/mindformers_bugfix ## Basic Information - **Project Name**: mindformers_bugfix - **Description**: MindSpore Transformers套件的目标是构建一个大模型训练、推理、部署的全流程套件: 提供业内主流的Transformer类预训练模型, 涵盖丰富的并行特性。 期望帮助用户轻松的实现大模型训练。 文档:https://mindformers.readthedocs.io/zh-cn/latest/ - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: r1.3.0 - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 882 - **Created**: 2024-09-29 - **Last Updated**: 2025-02-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 欢迎来到MindSpore Transformers(MindFormers) [](https://github.com/mindspore-lab/mindformers/blob/master/LICENSE) [](https://pepy.tech/project/mindformers) [](https://badge.fury.io/py/mindformers) [](https://pypi.org/project/mindformers) ## 一、介绍 MindSpore Transformers套件的目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。期望帮助用户轻松的实现大模型训练和创新研发。 MindSpore Transformers套件基于MindSpore内置的并行技术和组件化设计,具备如下特点: - 一行代码实现从单卡到大规模集群训练的无缝切换; - 提供灵活易用的个性化并行配置; - 能够自动进行拓扑感知,高效地融合数据并行和模型并行策略; - 一键启动任意任务的单卡/多卡训练、微调、评估、推理流程; - 支持用户进行组件化配置任意模块,如优化器、学习策略、网络组装等; - 提供Trainer、pipeline、AutoClass等高阶易用性接口; - 提供预置SOTA权重自动下载及加载功能; - 支持人工智能计算中心无缝迁移部署; 如果您对MindSpore Transformers有任何建议,请通过issue与我们联系,我们将及时处理。 - 📝 **[MindFormers教程文档](https://mindformers.readthedocs.io/zh_CN/latest)** - 📝 [大模型能力表一览](https://mindformers.readthedocs.io/zh-cn/latest/docs/model_support_list.html#llm) - 📝 [MindPet指导教程](docs/feature_cards/Pet_Tuners.md) - 📝 [AICC指导教程](docs/readthedocs/source_zh_cn/docs/practice/AICC.md) ### 支持模型 MindFormers已支持大部分模型的[LoRA微调](docs/feature_cards/Pet_Tuners.md)以及[LoRA权重合并](docs/feature_cards/Transform_Lorackpt.md)功能,具体可参考各模型文档启动模型的LoRA微调任务。 当前MindFormers支持的模型列表如下:
模型 | 参数 | 序列 | 预训练 | 微调 | 推理 | LoRA | 对话 | 评估 |
---|---|---|---|---|---|---|---|---|
LLaMA2 | 7B | 4K | ✓ | ✓ | generate | ✓ | ✓ | PPL |
13B | 4K | ✓ | ✓ | generate | ✓ | ✓ | PPL | |
70B | 4K | ✓ | ✓ | generate | ✓ | ✓ | PPL | |
LLaMA3 | 8B | 8K | - | ✓ | generate | - | ✓ | - |
70B | 8K | ✓ | ✓ | generate | - | ✓ | - | |
LLaMA3.1 | 8B | 8K | - | ✓ | docs | - | ✓ | - |
70B | 8K | - | ✓ | docs | - | ✓ | - | |
Baichuan2 | 7B | 4K | - | ✓ | generate | ✓ | ✓ | PPL |
13B | 4K | - | ✓ | generate | ✓ | ✓ | PPL | |
GLM2 | 6B | 2K | - | ✓ | generate | ✓ | ✓ | PPL / Rouge |
GLM3 | 6B | 2K | - | ✓ | generate | - | ✓ | - |
GLM3-32K | 6B | 32K | - | ✓ | generate | - | ✓ | - |
Qwen | 7B | 8K | - | ✓ | docs | ✓ | ✓ | C-Eval |
14B | 8K | - | ✓ | docs | ✓ | ✓ | C-Eval | |
Qwen1.5 | 7B | 32K | ✓ | ✓ | docs | - | ✓ | - |
14B | 32K | ✓ | ✓ | docs | - | ✓ | - | |
72B | 32K | ✓ | ✓ | docs | - | ✓ | - | |
QwenVL | 9.6B | 2K | - | ✓ | generate | - | ✓ | - |
InternLM | 7B | 2K | - | ✓ | generate | ✓ | ✓ | PPL |
20B | 2K | - | ✓ | generate | ✓ | ✓ | PPL | |
InternLM2 | 7B | 2K | - | ✓ | generate | - | ✓ | - |
20B | 4K | - | - | generate | - | ✓ | - | |
Yi | 6B | 2K | - | ✓ | generate | ✓ | ✓ | - |
34B | 4K | ✓ | ✓ | generate | ✓ | ✓ | - | |
Mixtral | 8x7B | 32K | ✓ | ✓ | docs | ✓ | ✓ | - |
DeepSeek Coder | 33B | 4K | - | ✓ | docs | ✓ | ✓ | - |
DeepSeekV2 | 236B | 4K | ✓ | ✓ | docs | - | - | - |
CodeLlama | 34B | 4K | ✓ | ✓ | generate | ✓ | ✓ | HumanEval |
GPT2 | 13B | 2K | ✓ | ✓ | generate | ✓ | ✓ | PPL |