Create 第五章 动手搭建大模型 & 第七章 大模型应用
This commit is contained in:
@@ -44,19 +44,19 @@
|
||||
|
||||
由Hugging Face提供的开放式榜单,汇集了多个开源大模型的评测结果,帮助用户了解不同模型在各种任务上的表现。该榜单通过多个标准化测试集来评估模型的性能,并通过持续更新的方式反映最新的技术进展,为研究者和开发者提供了高价值的对比参考。
|
||||
|
||||

|
||||

|
||||
|
||||
### lmsys Chatbot Arena Leaderboard
|
||||
|
||||
由lmsys提供的聊天机器人评测榜单,通过多维度的评估,展示各类大模型在对话任务中的能力。该榜单采用真实用户与模型交互的方式来评测对话质量,重点考察模型的自然语言生成能力、上下文理解能力以及用户满意度,是当前评估聊天机器人性能的重要工具。
|
||||
|
||||

|
||||

|
||||
|
||||
### OpenCompass
|
||||
|
||||
OpenCompass是国内的评测榜单,针对大模型在多种语言和任务上的表现进行评估,提供了中国市场特定应用的参考。该榜单结合了中文语言理解和多语言能力的测试,以适应本地化需求,并特别关注大模型在中文语境下的准确性、鲁棒性和适应性,为国内企业和研究者选择合适的模型提供了重要参考。
|
||||
|
||||

|
||||

|
||||
|
||||
## 7.1.3 特定的评测榜单
|
||||
|
||||
@@ -72,9 +72,9 @@ OpenCompass是国内的评测榜单,针对大模型在多种语言和任务上
|
||||
|
||||
- 医疗榜:基于MedBench评测集,评估大语言模型在医学知识问答、安全伦理理解等方面的表现。由上海人工智能实验室提供。
|
||||
|
||||

|
||||

|
||||
|
||||
**参考文献**
|
||||
**参考资料**
|
||||
|
||||
- [Open LLM Leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
|
||||
- [lmsys Chatbot Arena Leaderboard](https://huggingface.co/spaces/awacke1/lmsys-chatbot-arena-leaderboard)
|
||||
|
||||
Reference in New Issue
Block a user