Create 第五章动手搭建大模型 & 第七章大模型应用

2025-04-26 20:28:25 +08:00
parent 61d30cdae1
commit 7638cee514
17 changed files with 2990 additions and 30 deletions
--- a/docs/chapter7/7.1
+++ b/docs/chapter7/7.1
@@ -44,19 +44,19 @@

 由Hugging Face提供的开放式榜单，汇集了多个开源大模型的评测结果，帮助用户了解不同模型在各种任务上的表现。该榜单通过多个标准化测试集来评估模型的性能，并通过持续更新的方式反映最新的技术进展，为研究者和开发者提供了高价值的对比参考。

-![Open LLM Leaderboard](./images/8-1-Open%20LLM%20Leaderboard.png)
+![Open LLM Leaderboard](./images/7-1-Open%20LLM%20Leaderboard.png)

 ### lmsys Chatbot Arena Leaderboard

 由lmsys提供的聊天机器人评测榜单，通过多维度的评估，展示各类大模型在对话任务中的能力。该榜单采用真实用户与模型交互的方式来评测对话质量，重点考察模型的自然语言生成能力、上下文理解能力以及用户满意度，是当前评估聊天机器人性能的重要工具。

-![lmsys Chatbot Arena Leaderboard](./images/8-1-lmsys%20Chatbot%20Arena%20Leaderboard.png)
+![lmsys Chatbot Arena Leaderboard](./images/7-1-lmsys%20Chatbot%20Arena%20Leaderboard.png)

 ### OpenCompass

 OpenCompass是国内的评测榜单，针对大模型在多种语言和任务上的表现进行评估，提供了中国市场特定应用的参考。该榜单结合了中文语言理解和多语言能力的测试，以适应本地化需求，并特别关注大模型在中文语境下的准确性、鲁棒性和适应性，为国内企业和研究者选择合适的模型提供了重要参考。

-![OpenCompass](./images/8-1-opencompass.png)
+![OpenCompass](./images/7-1-opencompass.png)

 ## 7.1.3 特定的评测榜单

@@ -72,9 +72,9 @@ OpenCompass是国内的评测榜单，针对大模型在多种语言和任务上

 - 医疗榜：基于MedBench评测集，评估大语言模型在医学知识问答、安全伦理理解等方面的表现。由上海人工智能实验室提供。

-![alt text](./images/8-1-垂直领域榜单.png)
+![alt text](./images/7-1-垂直领域榜单.png)

-**参考文献**
+**参考资料**

 - [Open LLM Leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
 - [lmsys Chatbot Arena Leaderboard](https://huggingface.co/spaces/awacke1/lmsys-chatbot-arena-leaderboard)