最新动态
阿里云 SelectDB 携手 DTS ,一键实现 TP 数据实时入仓
2024.03.18
云数据库 SelectDB 版是基于 Apache Doris 研发的新一代云原生实时数仓服务。SelectDB 具有云原生存算分离、实时极速、融合统一、简单易用、开源开放等核心优势,提供万级 QPS 的实时报表查询、亚秒级的即席多维分析体验、近10倍性价比的日志分析方案、最高降本80%的湖仓一体分析平台。
实时极速
解决性能问题
SelectDB 在宽表聚合、多表关联分析、高并发点查场景下,均具有极致的查询性能。登顶全球分析型数据库榜单 ClickBench,多项指标世界第一。支持实时高并发的导入和更新能力,数据从产生到可分析仅需秒级。
云原生架构
解决成本和扩展性问题
云原生的存算分离架构,可独立、按需地伸缩计算和存储资源。全量数据存储于廉价稳定的对象存储 OSS 中,存储单价降低约 90%。支持多计算集群共享同一份数据,避免存储冗余,同时提供强大的物理和逻辑隔离能力。总拥有成本(TCO)低于自建数仓 50%。
极简易用
解决易用性问题
支持丰富易用的数据导入方式,帮助客户快速完成数据接入。兼容 MySQL 连接协议和语法,无缝对接数十款数据库和大数据生态产品,降低用户学习成本。提供可视化开发工具,简化数据开发过程。
01准备环境及资源
在本地机器安装 MySQL 客户端
创建云数据库 SelectDB 版试用实例
02数据库配置
初始化数据库账号 admin 密码
添加 IP 白名单并开通公网
03连接实例并试用
连接云数据库 SelectDB 版实例
创建数据库并读写数据
传统解决方案面临的挑战包括:数据从产生到可见的延时高(小时级),查询响应速度慢并发低(仅支持数十并发),同时易发生数据丢失或重复,服务可用性差等问题。使用 SelectDB 处理在线高并发报表查询,可以获得实时、快速、稳定、高可用的服务。
实时数据写入
支持每秒百万级的实时写入,也支持与数据库生态(如MySQL、PostgreSQL、Oracle等)、大数据生态(如Flink、Kafka、Dataworks等)的集成对接,简化数据写入过程。
亚秒级查询响应
通过全新的查询优化器、高性能的Pipeline执行引擎、丰富的索引类型等,实现数量级的查询加速。强一致的聚合物化视图,支持查询自动改写命中,满足亚秒级聚合统计查询。
万级高并发
支持分区分桶级裁剪、跳数索引(Zonemap、Bloomfilter)、点查索引(主键、倒排),减少读取的数据量,提升并发查询能力。结合行列混存、定制查询优化器,单机可支撑上万 QPS 的高并发点查。
传统解决方案面临的挑战包括:计算分析过程复杂,难以快速响应查询;表结构不灵活,不适应灵活的业务变化;数据发生变化时,原有数据无法实时更新。基于 SelectDB 建设多维数据分析平台,可实现个性化、精细化的运营(如用户画像与行为分析),以更加精准的方式触达用户、驱动业务发展。
高性能更新处理
提供高并发的数据更新能力,支持整行或部分列更新,无需离线周期性的重算大量历史数据,始终保障秒级的数据时效性。提供简单高效的内置 ETL 能力,可通过 SQL 轻松进行数据处理转换。
轻量级表结构变更
支持轻量的表结构变更,可秒级在线完成表结构变更。提供丰富的半结构化类型(如Map、Array、Json等)、高性能的宽表处理能力(高达数千列),充分满足业务的灵活多样性。
秒级交互式分析
提供丰富的即席分析函数(如留存分析函数、画像分析函数等)、正交位图处理等能力,大幅简化即席多维分析的开发过程,同时实现秒级交互式的数据分析体验。
面对庞大的日志数量,日志场景需同时实现高吞吐写入和实时可见性,降低资源成本成为巨大的挑战。此外,日志场景还需快速的文本检索能力,以满足故障排查、全文检索等需求。SelectDB 利用存算分离、列式存储、倒排索引等能力,可实现海量日志的实时查询、低成本存储、高效处理,提供 10+ 倍性价比的 ES 替代方案。
海量数据实时写入
为日志场景优化的高性能倒排索引,写入速度是 ES 倒排索引的 4 倍。服务端 Group Commit 机制,保证秒级实时可见前提下写入吞吐到 GB/s。
高性价比数据存储
采用列式存储、精简倒排索引、高压缩比压缩,存储空间占用仅需 ES 的 1/5。采用存算分离架构,单位存储空间成本仅需 ES 的1/3,整体成本为 ES 的 1/15。
高效处理查询请求
通过分区分桶、时间段筛选,大幅度缩小查询的数据范围。通过倒排索引,按检索词快速定位到匹配的日志行,避免大批量扫描,达到秒级响应。
传统的大数据平台解决方案通过组合多套数据湖查询引擎和数据仓库系统,来满足客户复杂多样的大数据分析需求,面临人力及资源成本高、数据开发使用复杂、数据分析实时性差等问题。基于 SelectDB 构建湖仓一体的分析系统,通过一套系统,即可低成本、高效、极速地满足客户复杂多样的数据分析需求。
指数级降低成本
SelectDB 在一套系统中即可完美支持多种分析需求,大幅降低冗余系统建设,从而降低大数据平台的人力维护成本、资源冗余开销,综合成本降低可达 80%。
简化统一开发体验
基于 SelectDB 的湖仓互通、轻量级 ELT 能力,无缝完成数据源到数仓的数据同步、清洗过程,无需依赖 Spark 和 Flink。使用 SelectDB 作为统一查询网关,无需进行多系统切换及 SQL 方言兼容处理。
极速数据分析
基于 SelectDB 领先的查询分析引擎,结合数据缓存、统计信息收集等,SelectDB 分析性能可达 Presto/Trino 的 3 ~ 5 倍。可利用弹性计算资源、内表加速视图等,进一步提升性能。
云数据库 SelectDB 版基于资源加增值服务进行定价和计费,定价对象包括:集群计算资源、集群缓存空间、实例存储大小。由于各地域经济发展水平可能不一致,因此部署到不同地域,价格可能有所不同。
云数据库 SelectDB 版提供灵活的计费方式,帮您节省使用成本。
按量付费(后付费)
定义:按量付费是一种先使用后付费的计费方式。阿里云自动每小时按用量从用户账号中扣除费用。
适用场景:适合短期需求,用完可立即释放实例,节省费用。支持按量付费的定价对象有集群计算资源、集群缓存空间、实例存储大小。
计费方式转换:按量付费实例可整体变更为混合付费实例(集群都转为包年包月,存储仍按量付费)。
安全体系
专有网络:实例部署到专有网络(VPC),安全性高于传统的经典网络。
访问控制:通过设置 IP 白名单,可以为实例提供更高安全等级保护。
资源隔离
分层隔离:支持在阿里云账号、VPC、子网、实例、集群等多层级进行网络或资源隔离,避免相互之间影响,可以独立稳定运行。
监控告警
监控信息:提供多维度、可视化、实时的基础资源监控和查询性能监控信息。用户可以随时查看多达 18 项监控指标的历史数据曲线,用以辅助排查定位问题或优化配置。
告警方式:用户可以设置阈值告警规则,随时随地接收告警电话、短信或邮件,及时掌握数仓运行的异常状态,快速响应处理解决,避免或减少负面影响。
从 Clickhouse 到阿里云数据库 SelectDB 版内核 Apache Doris:有赞业务场景下性能测试与迁移验证
当前,电商运营的主要痛点不仅来自多变的市场和客户需求,也受困于碎片化用户触达等带来的竞争与挑战。为了深度挖掘用户价值、培养用户忠诚度、实现业绩增长,有赞为商家搭建了全方位 OLAP 分析系统,提供实时与离线分析报表、智能营销与人群圈选等 SaaS 服务。本文将详细介绍有赞从 Clickhouse 至 Apache Doris 的迁移规划和性能对比测试实践,分享如何基于 Apache Doris 统一 OLAP 技术栈,并满足庞大数据体量下的实时分析与极速查询,最终有赞在多个场景下实现查询平均提速 200% 。
2023-09-11
阿里云数据库 SelectDB 版内核 Apache Doris 2.0 如何实现导入性能提升 2-8 倍
SelectDB 是飞轮科技基于 Apache Doris 内核打造的聚焦于企业大数据实时分析需求的企业级产品。因此阿里云数据库 SelectDB 版也延续了 Apache Doris 性能优异、架构精简、稳定可靠、生态丰富等核心特性,同时还融入了云服务随需而用的特性,通过云原生存算分离的创新架构,为企业带来分钟级弹性伸缩、高性价比、简单易用、安全稳定的一键式云上实时分析体验。
2023-09-06
腾讯音乐基于阿里云数据库 SelectDB 版内核 Apache Doris + 大模型构建全新智能数据服务平台
当前,大语言模型的应用正在全球范围内引发新一轮的技术革命与商业浪潮。腾讯音乐作为中国领先在线音乐娱乐平台,利用庞大用户群与多元场景的优势,持续探索大模型赛道的多元应用。本文将详细介绍腾讯音乐如何基于 Apache Doris 构建查询高效、实时统一分析的 OLAP 引擎,使 OLAP 作为底层基建加强模型连接转化效率、结果输出准确率,最终将大模型 + OLAP 引擎结合为用户提供个性化、实时化、灵活化的智能数据服务平台。
2023-09-05
阿里云数据库 SelectDB 版重磅发布,邀测火热进行中
2023 年 3 月,在阿里云瑶池数据库峰会上,阿里云与飞轮科技正式达成战略合作协议,双方旨在共同研发名为“阿里云数据库 SelectDB 版”的新一代实时数据仓库,为用户提供在阿里云上的全托管服务。经过 5 个月的共同努力,阿里云 SelectDB 的首个版本已于 8 月 20 日正式上线,用户可以在阿里云上便捷地使用 SelectDB 数仓服务,以满足海量数据极速实时、融合统一、简单易用的分析处理需求。
2023-09-04
Apache Doris 巨大飞跃:存算分离新架构
历史上,数据分析需求的不断提升(更大的数据规模、更快的处理速度、更低的使用成本)和计算基础设施的不断进化(从专用的高端硬件、到低成本的商用硬件、到云计算服务),这两大因素推动数据仓库的架构大体经历了三个时代:软硬一体的一体机时代、存算一体的分布式时代以及存算分离的云原生时代。
2023-08-16