客户案例 > 案例详情
茶百道数字化系统的云原生化

在竞争激烈的茶饮市场,茶百道决定组建自己的软件开发团队,借助阿里云进行数字化升级,并定了3个目标,数字化要能助力好茶鲜做,数字化要能支持加速拓客,数字化要能对企业的经营起到降本增效的作用。

客户介绍

茶百道成立于 2008 年,起初,茶百道坚持一步一个脚印,用了 8 年时间门店数量也只有 100 家。转折点发生在 2018 年,在这一年,茶百道正式开放全国性加盟,准备用规模来换市场。2020 到 2022 三年期间,营收和净利润都增长了 4 倍有余。这三年,也是茶百道数字化系统成功云原生化的演进历程。

业务挑战

茶百道早期的 IT 业务系统由外部 SaaS 服务商提供,在满足业务扩张过程出现的新的业务需求,显得捉襟见肘。时间就是竞争力,在竞争激烈的茶饮市场,茶百道决定组建自己的软件开发团队,借助阿里云进行数字化升级,并定了3个目标,数字化要能助力好茶鲜做,数字化要能支持加速拓客,数字化要能对企业的经营起到降本增效的作用。

阿里云的解决方案
数字化助力好茶鲜做
30

30秒扩容3000个Pod

50%

算力成本下降50%

茶百道面向 B 端的供应链中心和面向 C 端的运营中心,均部署在自建的 K8s 集群上,存在不小的局限性,例如在运维复杂度、稳定性、成本控制等方面,已不能满足日益增长的业务发展需求。茶百道决定将自建 K8s 集群迁移到 容器服务 Kubernetes 版 + 弹性容器实例 (ACK + ECI),ACK 具备强大的集群管理,包括集群创建、集群升级、多集群管理、授权管理等能力,提升了集群管理效率;ECI 可根据业务需求,实现自动扩容,30s 即可扩容 3000 Pod,提升闲置资源利用率,算力成本下降50%;通过 ACK,茶百道有效降低了在节点、集群、应用上的日常维护、安全防护等方面的投入,全面提升供应链体系和运营中心的运营效率。

数字化支持加速拓客
60%

应用发布效率提升60%

50%

故障恢复效率提升50%

茶百道目前日活订单超百万,很多店面是 24 小时营业。技术团队核心目标就是提升拓客效率、线上 0 故障,因此运营中心的稳定性运行成为工作的重中之重。为此,茶百道借助阿里云微服务引擎 MSE 和应用实时监控服务 ARMS 建立了业务连续性管理体系和可观测体系。在业务连续性管理体系中,构建了故障预防、快速发现、系统防护 3 道标准流程。

通过 MSE Nacos 和微服务治理建立灰度环境,控制应用发布时出现问题的爆炸半径,以小流量来验证发版质量,逐步覆盖到全部业务节点;加强无损上下线能力,降低应用发布时的流量损失,从而加大了软件的发布频次,提升了对业务的响应诉求,随时可发版,无惧高峰。经过以上的改造,茶百道实现了应用发布效率提升了 60%,因发版引起的线上故障较少了 90% 以上。目前正在直播场景开始实施全链路压测,前端已完成改造。

通过 ARMS 构建多层次全链路的监控体系,包括从最底层的系统和云监控,再到业务层监控,指标采样率百分百覆盖,链路全采集,监控数据准确率大幅提升,能够快速实现业务故障的自动发现,有效的配合敏态业务发展。总体来看,故障恢复效率提升 50% 以上,故障恢复耗时缩短 50%。

数字化对企业的经营起到降本增效的作用

茶百道的应用数量有上百个规模,但是在茶百道的研发成员构成上,运维占比较少,大多数是开发,而开发并不熟悉代码构建发布的技术细节。如何让运维能够低成本地定义规则和策略,并落地到应用的研发过程中,是落地过程中的问题点之一。为了解决该问题,茶百道结合云效应用交付中的研发流程模板、资源编排模板能力,通过模板实现应用配置的快速初始化。

对于实际要去执行代码构建发布的开发一线员工,如何能让他们无需关注 Dockerfile、Yaml 等细节,就能自助地完成构建和发布,并且同时又能保持足够的定制化和灵活性,是茶百道一站式 DevOps 工作流程落地的另一问题点。为了解决这一问题,茶百道结合云效应用交付中的变更研发流程模式,在运维人员把研发流程规范制定好后,开发人员只需要去依据云效项目中的需求或开发任务,基于云效流水线进行各阶段的代码分支构建发布,依据提前设定好的分支模式做分支构建发布。

茶百道的DevOps平台及流程如下图所示:

业务价值

数字化是传统企业突破原有市场天花板的核心竞争力,行业竞争越是激烈,数字化升级越是迫切。茶百道预判到行业的加速发展,果断、及时、全面的进行数字化升级,并选择阿里云保障 IT 基础设施的先进性和稳定性,并以此助力好茶鲜做、支持加速拓客、帮助企业降本增效,为企业未来的进一步发展打下坚实的基础。