商量SenseChat2.0:我国语言大模型研究取得重要突破
文章主题:商汤科技, 中文语言大模型, 商量SenseChat, MMLU
近期,商汤科技自豪地宣布了其自主研发的中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个顶级语言模型评测基准中的优异表现。评测结果显示,“商量”在这三个测试集上的表现优于ChatGPT,这标志着我国在语言大模型研究领域取得了重大突破。
在今年四月份,商汤科技推出了一套全新的大模型体系——“商汤日日新SenseNova”,并同步推出了中文语言大模型“商量SenseChat”。这一创新性的技术已经在全球范围内展现出其强大的应用能力,并在众多行业和场景中发挥了关键作用。以文案工作为例,商量SenseChat能够有效地协助处理各类文章、报告、信函、产品信息、IT信息等等,实现编辑、重写、总结、分类、提取信息、制作等功能,大大提高了工作效率和准确性。这使得商量SenseChat成为了各行各业中不可或缺的重要工具。
据相关消息,目前已有众多企业客户成功申请并使用了“商量SenseChat 2.0”,其中,他们主要依赖这款产品的长文本理解、逻辑推理、多轮对话、情感分析、内容创作以及代码生成等多方面的综合能力。如果您也想申请试用这一先进的解决方案,欢迎您登录官方网站进行详细了解和申请。
https://lm_experience.sensetime.com/document/authentication。各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中的得分
MMLU是一个由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学和伊利诺伊大学厄巴纳-香槟分校联合创建的多任务语言理解评测基准。该基准覆盖了包括科学、技术、工程、人文和社会科学等在内的57个学科领域,难度范围从初级到高级专业水平,旨在考核被试者在各个领域的知识和问题解决能力。
在本次评估中,”商量”的表现相当出色,其综合评分达到了68.6分,远远高于GLM-130B的45.7分,同时也超过了ChatGPT的67.3分和LLaMA-65B的63.5分。尽管它仅次于GPT-4的86.4分,但它依然保持着较高的竞争力,排名第二。
图中粗体表示结果最佳,下划线表示结果第二。
AGIEval,一项由微软研究院推出的评估工具,旨在衡量基础模型在人类认知及问题解决相关任务中的普遍性能,进而推动模型智能与人类智能之间的比较研究。此基准测试涵盖了20项针对人类考生的考试,包括我国的高考(又称中国高考和美国SAT考试)、法学考试、数学竞赛、律师资格考试以及国家公务员考试等等。
在该评测中,“商量”得分为49.91,遥遥领先于GLM-130B(34.2分)、LLaMMA-65B(34.0分),也超过ChatGPT(42.9分),仅次于GPT-4(56.4分)。在其中的AGIEval(GK)评测子集中,“商量”以58.5分排名第二,仅以微弱差距落后于GPT-4(58.8分)。
图中粗体表示结果最佳,下划线表示结果第二。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同的学科和四个难度级别。
在该评测中,“商量”获得66.1分,在参评的18个大模型中仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等大模型。其中,C-Eval(Hard)子评测集选择了8个具有挑战性的数学、物理和化学科目,考核大语言模型的推理能力,“商量”的表现也居于前列。
最新C-Eval 排行榜
商汤研发团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型在增强推理能力的同时,减轻了传统大模型的幻觉问题。
据介绍,“商量”还拥有广泛的知识储备,能结合企业自身所在行业的专有数据,打造满足企业需要的高阶知识库。它还是AI代码助手,可以实现新的“二八定律”,即80%的代码由AI生成,20%由人工生成。
栏目主编:黄海华
来源:作者:俞陶然
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!