红帽发布全新 AI 推理服务器，加速企业生成式 AI 应用落地

新闻中心

2025 年 5 月 19 日，全球领先的开源解决方案提供商红帽公司在波士顿举行的年度峰会上宣布，正式推出红帽 AI 推理服务器（Red Hat AI Inference Server）。这一创新产品的发布标志着红帽在混合云环境下推动生成式 AI（GenAI）规模化部署的重要突破，通过开源技术与硬件协同优化，为企业提供高效、灵活且经济的 AI 基础设施解决方案。

技术突破：开源生态与硬件兼容性的双重革新

红帽 AI 推理服务器基于开源 vLLM 项目开发，并深度整合了其近期收购的 NeuralMagic 技术成果，实现了对训练后 AI 模型的轻量化与性能优化。通过神经网络稀疏化技术，该服务器可在不增加硬件成本的前提下，将主流大语言模型（如 GPT 系列、LLaMA、DeepSeek 等）的推理速度提升 30% 以上，同时显著降低能耗。

值得关注的是，红帽 AI 推理服务器支持跨多厂商硬件的兼容性，覆盖 AMD/Nvidia GPU、Intel Gaudi 加速器及 Google TPU 等主流 AI 芯片，真正实现 “任意云环境 + 任意加速器” 的灵活部署。红帽高级副总裁兼 AI 首席技术官 Brian Stevens 在发布会上表示：“基于 vLLM 的预优化模型可实现 2-4 倍的 Token 产出效率，这一技术突破让企业从依赖单一厂商的困境中解脱出来。”

混合云整合：无缝衔接红帽 AI 产品矩阵

作为红帽 AI 战略的核心组件，该推理服务器可与红帽现有技术栈深度融合：

操作系统层：与专为 AI 优化的 Red Hat Enterprise Linux AI 版本结合，提供从芯片到应用的全栈性能调优；
平台层：集成至 Red Hat OpenShift AI 平台，支持容器化部署与 MLOps 全流程管理，实现从边缘到云端的一致性体验；
生态扩展：通过 Hugging Face 平台提供经官方验证的优化模型，并加入新成立的 llm-d 开源社区，推动分布式推理技术的行业标准化。

红帽混合云平台副总裁 Mike Barrett 指出：“我们的目标是帮助企业在不颠覆现有 IT 架构的前提下，将 AI 无缝融入核心业务流程。”

市场价值：破解企业 AI 落地三大痛点

根据 IDC 数据，当前 92% 的企业 AI 模型参数量小于 50B，如何平衡性能与成本成为关键挑战。红帽 AI 推理服务器通过三大创新为行业提供解决方案：

成本优化：通过模型压缩与 GPU 资源复用技术，单台服务器可同时处理 20 个并发用户请求，单用户性能超 20 tokens/s，显著降低 TCO（总拥有成本）；
敏捷部署：支持容器化独立运行或与现有虚拟化环境（如 Red Hat OpenShift Virtualization）无缝集成，自 2024 年以来，该虚拟化方案的部署量已增长 150%；
安全合规：结合 Red Hat Enterprise Linux 10 的后量子加密技术，为金融、医疗等敏感行业提供抵御未来攻击的安全防护。

IDC 全球研究集团副总裁 Rick Villars 评价称：“红帽通过软件定义的方式重新定义了 AI 基础设施，这将帮助企业最大化现有投资价值，实现从模型训练到业务嵌入的端到端优化。”

此次发布会上，红帽还宣布与 Google Cloud、Microsoft Azure 等云厂商合作，在其平台上推出 Red Hat OpenShift Virtualization 的技术预览版，进一步拓展混合云场景。同时，计划于 6 月发布 OpenShift Lightspeed 生成式 AI 助手，为开发者提供自然语言驱动的运维支持。

红帽公司表示，未来将持续通过开源社区（如 vLLM、NeuralMagic）推动技术迭代，目标在 2026 年前覆盖 80% 的主流企业级 AI 应用场景。凭借 “软件定义硬件” 的独特策略，红帽正引领行业从硬件依赖向生态驱动的 AI 基础设施转型。

截屏，微信识别二维码

微信号：18148905161

（点击微信号复制，添加好友）

打开微信

关于我们

新闻中心