Create 第五章 动手搭建大模型 & 第七章 大模型应用

This commit is contained in:
KMnO4-zx
2025-04-26 20:28:25 +08:00
parent 61d30cdae1
commit 7638cee514
17 changed files with 2990 additions and 30 deletions

View File

@@ -44,19 +44,19 @@
由Hugging Face提供的开放式榜单汇集了多个开源大模型的评测结果帮助用户了解不同模型在各种任务上的表现。该榜单通过多个标准化测试集来评估模型的性能并通过持续更新的方式反映最新的技术进展为研究者和开发者提供了高价值的对比参考。
![Open LLM Leaderboard](./images/8-1-Open%20LLM%20Leaderboard.png)
![Open LLM Leaderboard](./images/7-1-Open%20LLM%20Leaderboard.png)
### lmsys Chatbot Arena Leaderboard
由lmsys提供的聊天机器人评测榜单通过多维度的评估展示各类大模型在对话任务中的能力。该榜单采用真实用户与模型交互的方式来评测对话质量重点考察模型的自然语言生成能力、上下文理解能力以及用户满意度是当前评估聊天机器人性能的重要工具。
![lmsys Chatbot Arena Leaderboard](./images/8-1-lmsys%20Chatbot%20Arena%20Leaderboard.png)
![lmsys Chatbot Arena Leaderboard](./images/7-1-lmsys%20Chatbot%20Arena%20Leaderboard.png)
### OpenCompass
OpenCompass是国内的评测榜单针对大模型在多种语言和任务上的表现进行评估提供了中国市场特定应用的参考。该榜单结合了中文语言理解和多语言能力的测试以适应本地化需求并特别关注大模型在中文语境下的准确性、鲁棒性和适应性为国内企业和研究者选择合适的模型提供了重要参考。
![OpenCompass](./images/8-1-opencompass.png)
![OpenCompass](./images/7-1-opencompass.png)
## 7.1.3 特定的评测榜单
@@ -72,9 +72,9 @@ OpenCompass是国内的评测榜单针对大模型在多种语言和任务上
- 医疗榜基于MedBench评测集评估大语言模型在医学知识问答、安全伦理理解等方面的表现。由上海人工智能实验室提供。
![alt text](./images/8-1-垂直领域榜单.png)
![alt text](./images/7-1-垂直领域榜单.png)
**参考文献**
**参考资料**
- [Open LLM Leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
- [lmsys Chatbot Arena Leaderboard](https://huggingface.co/spaces/awacke1/lmsys-chatbot-arena-leaderboard)