客户案例 > 案例详情
小鹏携手阿里云共建自动驾驶智算中心“扶摇”

以阿里云容器服务ACK为代表的系列阿里云云原生产品支持了小鹏汽车多个业务的技术平台建设。基于容器服务ACK统一的容器技术栈,小鹏汽车能够方便快捷地开展数据处理、AI训练与推理服务、工作流、SRE运维设施等操作。

客户介绍

小鹏汽车成立于2014年,是一家专注未来出行的科技公司。该公司一直坚持饱和式研发投入,构建全栈自研的核心能力。如今,小鹏汽车已经成为中国领先的智能电动汽车公司之一。

业务挑战
  • 数据处理链路复杂

自动驾驶车联网数据链路长且数据增长快,无法满足对数据时效性的高要求。

  • 自动驾驶AI服务资源利用率低

缺乏有效的AI模型GPU训练和推理优化。

  • 可观测系统不完善

前端Web和后端服务缺乏有效的监控和分析,同时自建Prometheus稳定性不佳。

  • 支撑平台技术栈复杂

技术平台需要支持多种业务,并且需要建设多个工具平台,例如如Workflow CI工作流、SRE运维体系等,技术栈较为复杂。

“小鹏基于托管在容器服务 ACK 上的全量业务,采用 ARMS Prometheus 服务、前端监控和 APM 等工具实现全链路监控系统,有效洞察业务稳定性风险,保障业务稳定性。” -- 小鹏技术负责人

阿里云的解决方案
弹性算力支持复杂数据处理

通过容器服务ACK运行数据处理和数据脱敏任务,为实时任务提供了弹性算力。

提升训练和仿真资源利用率

云原生AI套件不仅支持了小鹏汽车的自动驾驶大规模训练和仿真任务的调度和管理,提高了训练和仿真资源的利用率,还支持了小鹏汽车的互联网技术中台和鹏行业务的自然语言处理(Natural Language Processing,NLP)、自动语音识别(Automatic Speech Recognition,ASR)等推理业务。ACK GPU共享调度和隔离能力成倍地提高了GPU资源的利用率。

全链路可观测保障业务稳定

小鹏汽车将全量业务托管在容器服务ACK,采用阿里云可观测监控Prometheus版服务,搭配前端监控和APM等工具实现全链路监控系统,可以有效洞察业务稳定性风险,保障业务稳定性。

统一云原生技术栈简化运维

小鹏的业务众多,不仅有仿真、音视频转码、视频截图、图片处理、数据处理等AI类业务,还有工作流、SRE等平台运维任务。其中,通过容器服务ACK,小鹏汽车还使用了诸多技术处理工作流,例如Airflow工作流、分布式工作流Argo集群Workflow、Kubeflow Pipelines、Arena等。通过采用统一的技术栈运行各业务及其支撑系统,容器服务ACK帮助小鹏汽车大大降低了运维的复杂度。

整体方案如下图所示:

业务价值

小鹏汽车和阿里云携手共建自动驾驶智算中心“扶摇”, 为小鹏全场景智能辅助驾驶系统的训练奠定算力基础,我们相信跟阿里云一起能够更快更好更强的发挥作用。阿里云的技术支持,使我们的成本降低,在过去及未来的时间里,阿里云的可靠性和稳定性,都是小鹏汽车最好的选择。