客户案例 > 案例详情
饿了么迁移上云并通过云上运维实现故障自动隔离、自动恢复和水平扩容

饿了么业务系统迁移至阿里云,利用云的弹性优势,每年节省上千万成本;同时摆脱了“人肉”支撑的种种困境,进而实现更快的上线速度、细致的故障探测,以及故障自动隔离及自动恢复。

客户介绍

饿了么作为本地生活服务平台,围绕消费者的“身边经济”,从餐饮、零售、其他三个版块,覆盖美食外卖、生鲜水果、鲜花礼品、日用百货,3C数码、美妆个护、婴宠用品、运动服饰、跑腿服务等20多个到家场景即时服务。目前饿了业务覆盖了全国地级及以上城市337个,县区2634个,基本实现了全国覆盖。蜂鸟即配站点达到11546个,平台活跃用户达到3.7亿,活跃商户达到了300万。 经过多年的发展,饿了么确定了“促科技创新,与生态共进,放心点,准时达,让生活更简单,更开心”的使命愿景。并依托平台链接起行业生态中的商家、骑手、消费者等数量庞大的参与者,共同向实现这一使命愿景不断努力。

业务挑战

业务快速扩张

随着饿了么业务量的激增,订单数量迅猛增长至千万级别,这种爆炸式的增长对其基础设施提出了极高的要求。本地数据中心的物理空间成为限制因素,它们的扩展需要大量的前期规划、资金投入和时间,而这些都难以与业务需求的迫切性相匹配。订单量的剧增导致现有机架空间迅速饱和,且面临着采购新硬件的长周期问题,这意味着无法及时响应市场的变化,影响了业务的持续发展和用户体验。

高可用能力不足

尽管饿了么在上云前已经实现了异地双活能力,但基础设施硬件层面的频繁故障成为了瓶颈。硬件故障及应用、中间件服务的异常会经常导致服务中断和性能下降,需要通过多活切换来进行修复和恢复,这些操作虽然能在一定程度上保证服务的持续性,但仍然无法避免对用户体验造成短时间的不利影响,增加了客户流失的风险。此外,基础设施的脆弱性亦提高了维护成本,对运维团队形成了巨大的压力。

资源利用率低

由于业务量呈现出明显的峰值特征,饿了么不得不为每日的午晚高峰囤积大量服务器资源,以应对订单量的急剧增加。然而,当高峰期过后,这些资源却无法被及时回收或用于其他服务,造成了资源的低效利用。类似地,在大型促销或节假日活动时,为了保障服务不受影响,需要准备大量的冗余资源。活动结束后,这些资源往往处于闲置状态,不仅占用了宝贵的数据中心空间,也增加了不必要的能耗和成本。

“针对这些痛点,需要采取有效的战略和技术解决方案,以提高基础设施的灵活性和可用性,优化资源分配效率,确保业务在快速增长的同时能够持续稳定地提供高质量的服务。因此我们借助阿里云进行了全面上云升级,最终稳定性得到了大幅的提升,资源利用率也得到了大幅度的提升。” -- 饿了么

阿里云的解决方案
业务迁移上云

饿了么将所有业务系统、数据库设施等均迁移至阿里云,完成100%上云。云上可一键扩容,无需置办物理数据中心。通过数据同步、异地多活的能力,饿了么的迁移过程不用切数据库,没有损耗,切流顺滑,用户全程无停服感。全面迁至阿里云后,饿了么通过快速扩容、CDN加速等高技术手段,将多人同时在线点单的支持提升到新的台阶。在高峰期扩容的计算资源,可以在低峰期进行释放。通过释放低峰期计算资源,饿了么每年节省上千万成本。上云后,饿了么还借助阿里云的AI算力和技术优化算法,帮助骑手动态规划最优路线,保证外卖最快时间送达。

云上云下多活容灾部署

阿里云在网络优化、CICD、DevOps方面有着足够的技术积累,同时提供混合云灵活的组网方案,为饿了么提供全国范围低延时高质量的网络资源,同时支撑饿了么构建云上云下多活容灾部署的业务架构,也为饿了么在业务创新方面提供足够的技术支撑。

业务价值

上云不仅没有让运维团队失去价值,反而带来了“云原生应用”(Cloud Native Application)、“云上多活”、“CDN云端压测”、“安全风控一体化”等创新路径与方案,通过敏捷基础设施(IaaS)、微服务架构(PaaS和SaaS)、持续交付管理、DevOps等云最佳实践,摆脱“人肉”支撑的种种困境,进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、自动恢复、方便的水平扩容。