- 设为首页 加入收藏
近日,权威大模型评测基准SuperCLUE发布最新《中文大模型基准测评2024年10月报告》。其中,由中国电信打造的星辰语义大模型TeleChat2,作为央企大模型代表,凭借出色效果,综合能力位列大模型第一梯队。TeleChat2在理科“工具调用”维度排名前二,在Agent智能体总榜排名并列第二。
TeleChat2-35B以更小参数量和更佳效果获得开源模型排行榜铜牌,综合效果超过Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等较大参数模型。
星辰语义大模型由中国电信创新研发并不断迭代突破。TeleChat2系列是星辰语义大模型TeleChat发布以来推出的第二代版本。
今年9月,TeleAI正式发布并开源了首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型 TeleChat2-115B,近日又进一步开源了TeleChat2-3B、7B和35B,以适配不同场景的应用需求,构建了全尺寸大模型开源布局。
超强工具使用及Agent能力
本次SuperCLUE的10月报告覆盖了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案,由理科、文科和Hard任务三大维度构成,评测题目总量超过2900道。理科任务方面,TeleChat2展现了极强的函数调用能力,在工具调用维度排名前二。文科任务方面,TeleChat2在语言理解、长文本等维度表现突出。Hard任务方面,TeleChat2在指令遵循维度表现优异,展现了优秀的复杂推理能力。
不仅如此,TeleChat2系列模型还完成了Agent能力建设,重点加强了模型在指令跟随、任务拆解、工具调用等方面的能力和表现。在10月的SuperCLUEAgent总榜中,TeleChat2排名并列第二。
全尺寸开源布局 适配多场景落地
TeleAI始终积极通过开源推动大模型技术创新和国产化进程,并为产业持续输送领先的技术能力,加速应用落地。今年上半年,就陆续开源了1B、7B、12B和52B参数的第一代TeleChat系列模型。最近,TeleChat2系列也已完成 3B、7B、35B和115B模型开源,逐步构建了全尺寸开源布局,并吸引了国内外广大开发者的讨论和使用。
凭借不同的参数配置和灵活的架构设计,TeleChat2系列模型可灵活适配于不同应用场景、不同资源配置、不同延时条件、不同响应速度的多样化需求。目前,星辰语义大模型系列已在政务服务、智慧教育、经营分析、公文写作等领域广泛应用落地。
在政务场景,星辰语义大模型已应用于智能知识库、智能受理助手、智能分类助手、智能客服机器人、智能语音坐席助手等,助力政务工作提升工作效率。
在教育领域,星辰语义大模型应用于教育听力机,辅助学生进行英语口语对话练习、中英文写作、中文诗歌创作等,提升他们的学习兴趣和个性化体验。
在智慧办公场景,基于星辰语义大模型的超强语义理解和总结能力,星辰慧记一站式会议助手能够一键提炼会议纪要,实现会后总结秒生成,推动企业更高效、更智能发展。
开源地址:
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B
(编辑:曾娅)
新闻附件: