4月12日,蔚来NOMI GPT大模型正式上线,同步推送给搭载Banyan·榕 蔚来智能系统的车型。据了解,此次NOMI升级了基于全新技术架构,为NOMI量身打造NOMI GPT端云多模态大模型,包含自研多模态感知、自研认知中枢、情感引擎、多专家Agent,能够打通蔚来产品、服务、社区,提供更高效、愉悦的AI服务。
据官方介绍,本次升级带来了众多基于大模型能力的新功能,NOMI现在可以回答关于科学、历史、影视等不限领域的百科知识,提供富有情感的连续对话,还能根据用户的简单指令,智能生AI用车场景、氛围灯组合以及呈现独有的NOMI表情等。
『新一代车载人工智能NOMI技术框架』
NOMI GPT端云多模态大模型,包括自研的端云融合架构、多模态感知、认知中枢、情感引擎、记忆能力、NOMI GPT Agents(NIO Agents,User Agents,三方Agents)等,能够灵活调用第三方 API,搭建AI Agent,打通蔚来产品、服务、社区,提供更高效、愉悦的AI用车体验。
同时,让NOMI具备“看得见,认得出”“听得到,听得懂”“知冷热,有触感”等能力,同时做到账号隔离,敏感信息不出车,车载通信端到端加密,保障用户隐私安全。据官方介绍,蔚来自研的端侧多模态感知,拥有数十亿参数,融合了图像(视觉)、音频(听觉)、车身传感器(触觉)等多模感知,并像人类一样,能将多维度感知用自然语言描述,从而更全面的感知舱内外的人和世界,提供更懂你、更高效、更保护隐私的智能体验。基于端侧多模感知,NOMI可以像朋友一样,看见你的物品、着装、状态,甚至舱外的车辆、楼宇、动物植物,进而提供更懂你的服务、更有趣的沟通。值得一提的是,端侧多模态感知内部测试中,预计今年内上车。
此外,NOMI将拥有更高效的信息认知能力,能在海量信息源中精准判断用户意图与需求,无缝调度大模型架构内组件,实现“领会用户意图有默契,执行够聪明,灵活不打扰”的优质用车体验。蔚来自研的端云一体的认知中枢,能够根据多维感知信息,通过推理分析形成复杂任务的处理能力,让 NOMI真正成为贴心可靠的助手。认知中枢集成了行业最全知识库,能够从容调度执行各种任务,回答各种问题。
中枢包括中控分发,多模拒识,跨域继承&跳转,多Agent决策几个部分;其中包含中控分发:NOMI会根据用户所说的内容,结合对话上下文、感知以及状态信息,智能地判断调用任务型交互、问答闲聊、用车助手等,同时也能支持语义创建完整的快捷场景;多模拒识:依据文本,音频以及图像信息综合决策是否是在和NOMI交互,目标是实现用户在和NOMI交互时要有回复,用户在和车里其他人聊天时NOMI不插嘴;跨域继承&跳转:结合用户长上下文信息,帮助NOMI GPT灵活地在百科聊天以及任务中去做上下文理解及指代消解;多Agent决策:在前置分发信息不足无法明确时,调用多个Agent,根据前置信息以及Agent输出信息最终决策给用户的返回内容。蔚来首创了模态内外多维度对比学习技术(Interspeech 2023),并且首次将其工程化运用于NOMI对话系统中,包括多模拒识和调度分发,最终使得拒识得误识别率和误拒识率均控制在2%以内,调度分发单轮准确率达到98%+,长距离多轮分发准确率达到95%+。
此外,NOMI将拥有独有情感引擎,其是NOMI实现拟人交互的关键,通过与用户长期沟通与陪伴、记忆、学习,实现有个性的成长,让NOMI不只是一个冰冷的“助手”,更是懂你的情感伙伴。同时,关于记忆方面,NOMI的记忆能力包括短期记忆和长期记忆,短期记忆可以让NOMI记住用户最近在聊的话题、用户之前提到人和物,长期记忆让NOMI能够记住用户和家人朋友,记住用户的喜好,记住和用户在一起点点滴滴。值得一提的是,情感引擎能够帮助NOMI更快的学习成长,通过实时反馈、事后反思、人为训练等方式,不断变得更加聪明,不断掌握新技能和新知识。情感引擎也在让NOMI有更独特的人设,包括性格、三观、梦想等,让NOMI的每一句对话、每一个表情,都符合NOMI的基本人设,但也会随着陪伴时间的增长,而潜移默化地和用户更加契合。
在感知、认知、决策等方面,官方将采用十亿级参数模型,以毫秒级的速度响应用户的诉求。同时也有百亿千亿级参数的通用生成模型,以秒级响应速度,作为NOMI开放域知识问答、复杂逻辑推理能力的支撑。
此外,NOMI GPT将拥有交互视窗,官方为NOMI GPT打造全新交互界面,可更加灵动的展示多种类型的生成内容。具体为思考状态:新增‘思考中’、‘生成中’两种状态,NOMI思考状态一目了然;标题展示:支持标题序号和加粗样式。试试说「推荐5个北京适合遛娃的地方」;表格展示:支持表格展示样式,试试说「把周杰伦每张专辑的发布时间列个表格给我」;关联推荐:在生成结果下方,会展现更多关联推荐的问法;停止生成:可随时说「停止生成」或「别说了」等,来终止NOMI GPT生成。
NOMI知识丰富度与推理能力升级,为用户解答疑惑、拓宽视野。其中,NOMI支持包括科学、历史、文学、艺术、影视等不限领域的百科知识问答;支持景点推介、游玩攻略、行程建议等出行场景问答;提升理解、推理与创作能力,能够进行学习、创作、咨询等个人问答等。
值得一提的是,此次官方针对NOMI表情互动体验也进行升级,包含精准表情:增加更多趣玩表情互动指令。比如「做个鬼脸」、「看蝴蝶」、「吹蒲公英」、「吹彩色纸屑」、「摸小狗」、「看流星」、「数星星」等,可精准触发对应的表情;支持任意描述的表情指令「做一个xx的表情」,或者「表演一个xx的样子」,提供趣味回复和灵活匹配的表情。比如「做一个中了大奖的表情」、「做一个给老婆表白的表情」、「表演一个蝙蝠侠的样子」;支持表情九连拍,可以通过「你有哪些表情」触发一连串的表情表演。
当然,在氛围营造方面,NOMI支持营造任意的氛围。只需要说「来个XX的氛围」,NOMI会基于大模型强大的推理能力,在16,777,216种氛围灯搭配中,找到最适合用户表达的氛围搭配。比如:场景氛围:「来个二人世界的氛围」「调成哄娃睡觉的氛围」「来个全家去春游的氛围」;心情氛围:「来个元气满满去上班的氛围」「来个加班很晚很疲惫的氛围」;世界氛围:「营造一个北极光的氛围」「来个法兰西的氛围」「来个上海的氛围」。
在其它方面,NOMI支持查询车辆信息、用车知识、指示灯等,帮助新老用户更深入的了解和使用车辆。车辆信息查询:「我这辆车有多长」「ET7和ET5谁更宽」「这辆车涉水深度是多少」;用车知识查询:「儿童座椅怎么装」「怎么重启车机」「发生了剐蹭怎么办」;指示灯查询:「仪表上有个红圈里面有个P是啥」「仪表有个小旗子边上有个加号是啥」「仪表有个绿色小蝴蝶是什么意思」。
跟随245 NOMI应用更新上线全新AI场景生成,包含NOMI支持通过自然语言,一句话实现场景任务创建,在千量级车辆原子能力中,组合出使用情境,贴合用户驾乘习惯的方方面面。例如:行车顾问:支持日常通勤、行车准备、离车设定等情境下的用车习惯设定,如:「工作日早上我上车就自动导航去公司,把热点打开,空调调到23度,然后播放NIORadio资讯充电站」等。