OpenVINO 2024.4版上线:支持英特尔 酷睿 Ultra处理器(第二代) 优化大语言模型推理

40年前,个人电脑的问世将强大的计算能力压缩至人们的桌面。20年前,智能手机的诞生拉近了人与人之间的距离。今天,AI助手悄无声息地渗透到我们的生活,改变着我们与世界互动的方式。

在上周刚刚落幕的OpenVINO™ DevCon 中国系列工作坊北京站活动上,众多行业先锋和创新者们展现了AI技术在多个领域的实际应用。一个明显的趋势是:无论是行业领军企业还是独立开发者,无一不在全力以赴地“All In AI”。这些创新的解决方案,不仅标志着当前各行业对AI的应用正进入爆发式增长阶段,也预示着AI将与我们的生活更紧密地联系在一起——从职场到家庭,从医疗到娱乐,开启一个充满可能性的未来。

OpenVINO™ 2024.4版上线,支持最新英特尔® 酷睿™ Ultra处理器(第二代)并显著提升大语言模型推理性能

英特尔OpenVINO™,作为一款先进的AI工具套件,为开发者们提供了实现理想的AI部署的平台。英特尔不断优化其性能,特别是提升其在PC和小型设备上运行大语言模型(LLM)的能力。最新发布的OpenVINO™ 2024.4版本,为开发者带来了诸多关键功能和性能改进,旨在确保大语言模型在所有场景中,无论是边缘计算还是数据中心,都能实现卓越的AI性能。

首先,OpenVINO™ 2024.4版本的一大亮点是新增了对最新英特尔® 酷睿™ Ultra处理器(第二代)的支持:

·在客户端技术方面,支持全新的Xe2 GPU架构,该架构搭载于最新发布的英特尔® 酷睿™ Ultra处理器(第二代)平台,并由英特尔® Xe矩阵扩展(英特尔® XMX)加速技术驱动。Xe2架构在处理计算密集型任务,例如矩阵乘法方面,能够带来显著的性能提升,对于加速大语言模型的部署至关重要。

·英特尔® 酷睿™ Ultra处理器(第二代)还引入了一个更强大的神经处理单元(NPU),其推理吞吐量相较前一代有重大升级。

在模型优化和内存管理方面,OpenVINO™ 2024.4版本有效降低了AI部署的成本,优化了内存使用,并显著减少了延迟。

·创建了高度优化的GPU原语,如缩放点积注意力和旋转位置嵌入,有效降低执行复杂AI操作的成本。此外,对内存管理进行了改进,更高效地支持带有压缩权重的模型,使得大语言模型能够在资源受限的环境中,如笔记本电脑和边缘设备上,能够以最小的内存占用运行。

·在英特尔® 至强® 处理器上运行时,OpenVINO™ 现支持由Open Compute Project规范定义的mxfp4格式,这使在运行大语言模型时,相比于BF16精度,能够减少内存消耗,同时提高处理第二个Token的延迟性能。

在模型支持方面,OpenVINO™ 2024.4覆盖更多生成式AI。

·支持GLM-4-9B Chat, MiniCPM-1B, Llama 3 和 3.1, Phi-3-Mini, Phi-3-Medium 以及YOLOX-s模型,并新增了一系列值得关注的Notebook。

·与Hugging Face合作,更新了Optimum-Intel解决方案,使得在利用Hugging Face API运行模型的同时,能够使用OpenVINO™高效地导出和压缩模型,以供OpenVINO™ GenAI套件API使用。

OpenVINO™ DevCon尽显社区创新活力,背包里的AI PC定义智能新纪元

今年,OpenVINO™ 发布了多个更新版本,且持续通过与开发者的交流和互动,将行业趋势与OpenVINO™ 的最新技术带给开发者,助力开发者系统进阶。在近日举办的OpenVINO™ DevCon中国系列工作坊北京站中,数百位开发者亲临现场,探讨了“OpenVINO™ 加速PC及小型设备性能”的应用潜力,并展示了他们在语音智能交互、媒体娱乐、医疗分析等领域利用OpenVINO™实现的创新成果。

·人形机器人展示:将大模型“装进”AI PC,小巧机身浓缩超级智慧

[MD:Title]

在机器人领域,一个核心挑战在于:如何将复杂的AI大模型部署到资源受限的本地硬件,赋予机器人以智慧的“生命”。这一挑战犹如将一头大象塞进狭小的冰箱,不仅考验技术的高度,更要求在成本和性能之间寻找到最优的解决方案。 

OpenVINO™ 通过模型的量化、压缩和加速,降低了AI大模型在边缘设备上的运行负担,并通过支持多硬件平台,实现了计算资源的高效利用,使在AI PC轻薄笔记本上运行大型模型成为可能。当这些AI大模型与机器人、机械臂等硬件结合,它们就仿佛被赋予了生命,能够听懂人类的复杂指令,机智应对各种挑战,展现着智能机器人的无限潜力。

·对话式AI语音助手:聊天只是开胃菜,超级助理才是真身份

[MD:Title]

对话式AI语音助手已经在我们的日常生活中扮演越来越重要的角色。事实上,随着智能化程度不断加深,这些AI助手正走进医疗、教育、金融等多个领域,为各行各业的带来效率提升。

例如,在医院场景中,患者通常需要在候诊室等待数小时,而医生则被迫在几分钟内完成诊断。如何优化就诊流程,成为了缓解医患矛盾的关键。基于OpenVINO™ 搭建的大语言模型对话式AI助手,能够帮助医院改善这一状况。AI语音助手通过语音识别和大型语言模型,在患者踏入诊室之前就能与患者展开交流,收集其症状信息,并为医生制作详细的病例总结。如此,当患者进入诊室,医生便能够直接进入诊断的核心环节,极大地缩短了就诊时间,提升了患者满意度。

·与直播息息相关:AI化身美颜大师,数字人与未来共舞

[MD:Title]

在视频直播盛行的今天,智能美颜和数字人技术已成为行业的标配。但如何降低相关技术的开发门槛和成本仍是行业持续探索的议题。如今借助英特尔OpenVINO™,相芯科技让AI数字人和AR视频特效技术实现了更低成本的部署。

例如,在视频互动中,OpenVINO™ 极致的优化能力结合相芯在AI美颜方面的多年积累,在AR视频特效方面实现了出色的效果。AI在美颜时不仅能准确识别和修饰面部的细微瑕疵,如雀斑、痘痘,还能巧妙保留用户的个人特色,确保美颜效果既真实自然又富有个性魅力。

依托OpenVINO™ 构建的AI数字人产品,也正被广泛应用于在线教育、远程办公、直播带货、社交娱乐等多个领域。OpenVINO™ 通过优化的开发框架,提高了模型的转换速度和压缩率,不仅降低了资源消耗和成本门槛,还确保了模型在不同硬件平台上高效运行。从教育启迪到娱乐陪伴,从工作辅助到情感交流,数字人应用的深度和影响力不断加深。

当AI 走进日常生活:减负、传承…指尖智慧缔造美好生活

OpenVINO™ 不仅推动着行业AI应用的发展,更为众多独立开发者提供了施展才华和创意的平台。从技术博主到怀揣梦想的学生和创业者,他们利用AI技术,探索如何让科技服务于人,真正改善人类生活的世界。

[MD:Title]

·把授课交给老师,批改作业交给机器:长久以来,学校教师肩负着作业批改的繁重负担。一款基于OpenVINO™ 构建并优化的离线作业批改应用帮助教师缓解了这一难题。只需将题目输入到笔记本电脑,AI大模型便能将学生答案与标准答案自动进行比对,完成作业批改。结合打印机,批改结果便能即时呈现在学生试卷之上。每分钟超过60份试卷的批改速度,批改准确率超过95%,让教师彻底从繁重的体力劳动中解放出来,大大提高了教育工作的效率。

·利用OpenVINO™,跨过批量剪辑视频之“痛”:在数字营销的战役中,出街速度至关重要。北京海百川有限公司开发的AIGC数字内容生成结合全息硬件展示系统能够轻松处理复杂任务,从视频生成、虚拟互动到与大型AI模型的集成,使得在视觉识别、面部表情和身体动作的捕捉上都能生成引人入胜的数字内容。通过高性能的AI推理引擎,系统能够自动捕捉热点,制作出适应不同语言和文化环境的视频内容,达到批量生产视频的效果,满足市场的多样化需求和对速度的追求。

·传统针灸“智慧”传承,AI技术功不可没:针灸作为一种传统的中医疗法,其操作依赖于针灸师手工进行。随着城市化和人口老龄化带来对针灸服务的需求的上升,现有的针灸师队伍难以满足庞大的市场需求。上海墀圣信息科技有限责任公司借助英特尔的OpenVINO™ 开发的谧行针灸系统方案,通过智能化手段,不仅能够快速准确地识别人体穴位,还通过量化针灸手法,实现了治疗操作的标准化,提高了治疗的效率和准确性。此外,庞大的针灸知识数据库,还为针灸咨询、学习与考核提供了支持,加速了针灸知识的普及与传播。

随着OpenVINO™ 2024.4版本的发布,工程师将可以利用更多的性能加速创新。英特尔将继续与全球开发者一起,探索AI的未知领域,让每一个创意都能成为现实。