科大讯飞AI能力再升级,在1024开发者节给行业带来惊喜

编辑 | 虞尔湖

出品 | 潮起网「于见专栏」

科大讯飞的AI能力再升级。10月24日,在全球1024开发者节上,科大讯飞发布了“星火大模型4.0 Turbo版本”,底座能力再次升级,首发多模AIUI交互标准等11项技术和产品应用,具备多模态视觉交互及超拟人虚拟人交互能力。相关技术能力的应用价值,也在这次活动上体现得淋漓尽致。

据科大讯飞董事长刘庆峰介绍,讯飞星火4.0 Turbo全新升级,根据真实数据背靠背的测试,七大能力全面超过GPT-4 Turbo,数学能力、代码能力超过GPT-4o。由艾伦人工智能研究所、OpenAI等国内外权威单位发布,涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中,讯飞星火4.0-Turbo在其中9项测试集实现对美国三大主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro)的超越,效率相对提升50%。

科大讯飞大模型产品的全新升级,也如同向平静的水面丢下一颗石子,打破了整个AI赛道的平静,给行业带来不可估量的影响,甚至创下了在国内外14项主流测试集上,9项第一。

技术能力再突破,星火大模型4.0 Turbo问鼎多项第一

今年9月,OpenAI发布了推理性能强大的o1系列,其超长思维链、树搜索及自我反思评价等能力引发业界高度关注,发布会上,据介绍,科大讯飞已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类OpenAI 01的高难度数学能力显著提升。

而且,星火大模型4.0 Turbo与GPT 4o、Claude 3.5 Sonnet、Genmini1.5 pro等国际同行相比,其在国内外中英文14项主流测试集上,实现了9项第一。

值得一提的是,讯飞星火4.0 Turbo,底座能力再次升级,特别是数学、代码和长文本能力显著提升,中英文综合能力保持业界领先水平,同时训练推理效率大幅提升,进一步满足日益增长的规模化落地需求。

可供对比的是,讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度的任务中,均超过GPT-4o水平。而且,根据代码生成HumanEval测试集上的效果对比,讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上和GPT-4o的差距微弱,在C++能力上,也超过GPT-4o。

而在真实应用场景,基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集,讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上都超过了GPT-4o。

同时推出星火代码7B版本,满足代码生成、代码补全等极速响应型任务,效果业界最优。此外,本次首发的星火多语言大模型,也让我国在语音识别领域,前进了一大步。其远场高噪场景语音识别领先优势,也进一步凸显。

例如,在多语言能力上,讯飞多语言大模型首次实现全国地级市方言全覆盖,含全国288个地市、202种方言,讯飞输入法14.0即将支持202种方言免切换,并进行高效精准识别。此外,在不同国家语言方面,除中英文外,还可支持俄、日、阿、法等8个语种。

由此可见,无论是讯飞星火4.0 Turbo的技术升级,还是讯飞多语言大模型在全国乃至全球各语言场景下的应用,都凸显出科大讯飞的大模型技术已更上一层楼,其品牌影响力也水涨船高。

星火超拟人数字人与多模态交互能力,为行业带来惊喜

据媒体报道,在全球1024开发者节上,科大讯飞还首次发布“星火超拟人数字人”,业界率先实现语义贯穿的“口唇-表情-动作”的超拟人数字人生成,实现了文本、语音和表情的跨模态语义一致性,可根据语音节奏和语义自动生成表情和动作,支持音视频输入。

不仅如此,今年流行的多模态交互及超拟人虚拟人交互能力,科大讯飞也交出了十分亮眼的成绩单。包括该类技术在教育、医疗、科研、司法、政务等领域的落地应用,都在大会上得到了升级展示。

所谓的多模态交互,是指通过视觉、听觉、触觉等多种感知方式,让人机交互更自然、更高效、更准确、更灵活。而在多模态交互技术的加持下,大模型的应用场景也更加丰富,也更有价值。甚至能够通过更广泛的上下文理解,来处理任务,从而放大其应用价值。

在视觉交互方面,科大讯飞的多模态能力,也给业界带来了惊喜。据了解,讯飞星火大模型甚至能够通过摄像头,感知外界信息,并进行准备识别、并融入其独立思考,让讯飞星火大模型更为智能。

例如,因为海外出游需要英文翻译,在讯飞星火大模型的加持下,手机能够变成翻译机,进行中英文互译,让出境游玩毫无障碍。更令人惊讶的是,如果在海外发现心仪的产品,讯飞星火大模型甚至可以精准识别其规格,并给出合理的选购建议。

此外,这种识别功能还能做到个性化,与讯飞星火大模型本身就具备的仿声功能相结合,只需要一张照片,就能生成数字人。值得一提的是,科大讯飞的语音视觉虚拟人,还可以实现语音、视频、图文的全部联动的多模态交互“三合一”。

对此,科大讯飞研究院院长刘聪通过现场对话,让星火大模型以孙悟空以及小猪佩奇的角色来进行对话,数字人的反应都十分敏捷精准。通过给超拟人数字人打“视频电话”,并调整道具“孙悟空”“奥特曼”“怪兽”的摆放位置,无需拍照,超拟人数字人看图说话,就能描述奥特曼和孙悟空的行为意图,并进行分析。

除此以外,讯飞AI学习机阅读伙伴也有类似超拟人数字人的功能,能将书中的故事拟人化,让孩子动脑思考问题,并学会与机器人互动,主动提问。

由此可见,多模态能力加持下的超拟人数字人,已经具有“跨语言”、读懂画面、感知行为的高级能力,应用场景也越来越丰富。据介绍,目前,星火超拟人数字人,已支持1300+种人设打造。由此,也为其进一步进行商业化应用,提供了想象空间。

讯飞星火大模型,进入收获期

技术的价值在于应用。实际上,随着讯飞星火大模型技术逐渐走向成熟,其在各个行业的应用,也日渐广泛,并获得合作伙伴的好评。

首先,在智能汽车赛道。据介绍,从今年第四季度开始,奇瑞、广汽、长城等多款车型将会陆续集成端侧星火大模型上线并开售,消费者也将率先感受到最前面的大模型技术。

其次,在科大讯飞的大本营市场教育领域。本次科大讯飞AI学习机发布了“AI作业过滤器”,用大模型帮学生科学减负。据官方介绍称,讯飞AI学习机通过OCR能力识别出练习题目后,可以将题目自动分级,分为“必做题”“选做题”“建议不做题”,让学生快速区分自己的能力水平,避免无效答题,浪费时间而且对学习成绩提升无益。

再次,在医疗赛道,讯飞星火医疗大模型也更新到了2.0版本,进一步为这个相对专业的行业赋能。例如,讯飞星火医学影像大模型,可以通过大量医疗影像实例训练,对影像质量进行自动控制、对多个病种进行精准诊断。

最后,在不同国家语言翻译方面,讯飞还现场展示了多语种AI翻译透明屏,以及协助政务机构办公的星火智办一体机,包括能够测试智能座舱人机交互效果的VIAS评测机器人。

由此可见,从技术到应用,科大讯飞走的路线是,既要高科技,也要接地气。不仅在技术方面领先于同行,而且在应用方面,覆盖人们智能生活的方方面面。

对此,刘庆峰所分享的星火大模型一年来的成绩,足以印证。据介绍,目前讯飞星火大模型,是央国企中标第一、教育医疗市场第一、智能汽车市场第一、大模型开发者生态第一、智能硬件市场第一、赋能科研应用第一。

多项第一的讯飞星火大模型,在国际、国内都产生了极大的影响力。体现在业绩层面,讯飞星火大模型加持的星火智能硬件,销量暴涨,就是其AI技术价值的最好印证。

据科大讯飞官方介绍,2024年1-9月,讯飞星火智能硬件GMV同比提升50%,截至10月23日,双十一大促全渠道GMV同比增长280%。

在技术与业绩两大引擎的推动下,讯飞星火的大模型技术研究也在进一步加速。例如,发布会上,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台“飞星二号”正式启动。

而首个国产万卡算力集群“飞星一号”平台上线始于一年前,在攻克了很多疑难杂症、解决了500多次以上的基础软硬件问题和模型适配问题,“飞星二号”也带着更新的算法、更强的技术有备而来,并有望引领国产大模型底座进一步发展、提升,甚至成为世界的第二选择。

结语

AI大模型从概念期到应用期,再到商业化,科大讯飞可谓为行业打造了一个“样板”。正如刘庆峰在大会上表示,大模型规模化应用的新时代,科大讯飞已经做到了行业引领。而未来人工智能产业发展的关键是五个关键词是:顶天立地、自主可控、通专结合、端云联动、软硬一体。

实际上,刘庆峰所言不虚。目前AI大模型热度不减,各种新技术、新应用不断涌现。人类的生产、生活方式,也因此发生了天翻地覆地改变。而在以科大讯飞为代表的科技企业的带动下,AI大模型的各项能力越来越完备,应用场景也越来越丰富,因此带来的商业化,也充满想象空间。

因此,新型的AI技术,也将为人类的未来带来更多可能,为市场对科大讯飞有着更高的期待,而已经走在前面的科大讯飞,也必将持续引领,给行业注入信心,为行业带来更多惊喜。

Tags: