云素材PPT模板超市 ChatGPT与PPT 2023-08-06

商量SenseChat2.0：中文语言大模型引领科技潮流

文章主题：文章关键词：商汤科技，中文语言大模型，商量SenseChat 2.0，权威大语言模型评测基准。

近期，商汤科技宣布其自研的中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准中取得了优异成绩。令人振奋的是，该模型在所有评估指标上的表现都优于ChatGPT，这标志着我国语言大模型研究取得了重大突破。

至今，我们已吸引众多企业客户申请试用“商量SenseChat 2.0”，这款具备强大长文本理解、逻辑推理、多轮对话、情感分析、内容创作和代码生成等综合能力的平台。在服务客户的实际过程中，“商量SenseChat 2.0”持续进行快速迭代与升级，同时确保知识的实时更新，以满足不断变化的市场需求。

三大评测基准结果：“商量”综合能力超ChatGPT

在商汤科技最近公布的评测结果中，他们选择了全球三大权威语言模型测评基准MMLU、AGIEval和C-Eval。经过对比分析，”商量SenseChat 2.0″在三个测试集中的表现都优于ChatGPT，甚至在某些方面已经达到了GPT4的水准。这一结果充分展示了我国人工智能技术的先进性和实用性。

l由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU；

微软研究院发布的学科评估测试集AGIEval涵盖了我国的高考、司法考试，以及美国的SAT、LSAT、GRE和GMAT等多种考试。

l由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval；

MMLU是一个由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学和伊利诺伊大学厄巴纳-香槟分校联合创建的多任务语言理解评测基准。该评测基准覆盖了包括科学、技术、工程、数据、人文、社会科学等多个领域，共计57个科目，难度范围从初级到高级和专业水平。它旨在考验参测者在各种领域的世界知识以及解决问题的能力。

在本次评估中，”商量SenseChat 2.0″的表现相当出色，其综合评分达到了68.6分，远远高于GLM-130B（45.7分的）得分。同时，它也超越了ChatGPT（67.3分）和LLaMA-65B（63.5分），只稍逊于GPT-4（86.4分）。在全球顶级语言模型竞赛中，它的表现更是位于第二。具体到各个主要子评测集的表现如下：

图中粗体表示结果最佳，下划线表示结果第二

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

在该评测中，“商量SenseChat 2.0”测出49.91的分数，遥遥领先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中的AGIEval（GK）评测子集中，“商量SenseChat 2.0”以58.5分全面领先，仅微弱差距落后GPT-4（58.8分）。细分科目评测结果如下，其中带GK的是中国高考科目：

图中粗体表示结果最佳，下划线表示结果第二

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。

面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

图：最新C-Eval排行榜

（来源：

https://cevalbenchmark.com/static/leaderboard.html）

技术创新+客户落地，推动“商量”能力快速持续提升

今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中，通过对比成绩与表现，我们可以了解各大预言模型的特点与差异，并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat 2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中，“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量SenseChat 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

此外，“商量SenseChat 2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的二八定律，即80%的代码由AI生成，20%则由人工生成。

商汤大语言模型能力的提升源于更多高质量中文数据的训练学习，得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型增强推理能力的同时，减轻了传统大模型的幻觉问题。

想申请试用“商量SenseChat 2.0”的用户，可登录：

https://lm_experience.sensetime.com/document/authentication

作者：沈湫莎