基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析 相比于数据仓库,数据湖以更开放的方式对接多种不同的计算引擎,如传统开源大数据计算引擎Hive、Spark、Presto、Flink等,同时也支持云厂商自研的大数据引擎,如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

背景信息 PolarDB-X 1.0 是由阿里巴巴自主研发的云原生分布式数据库,融合分布式 SQL 引擎和分布式自研存储 X-DB,基于云原生一体化架构设计。PolarDB-X 1.0 可以支撑千万级并发规模,以及百 PB 级海量存储。详情请参见 产品概述。PolarDB-...

ETL工作流快速体验

案例提供的数据仅用于阿里大数据开发治理平台DataWorks数据应用体验。仅 空间管理员 角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色,请参见 空间级模块权限管控。导入ETL工作流模板 您可以将DataWorks ETL工作流模板...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能,将 云消息队列 Kafka 版 集群上的数据迁移至阿里大数据计算服务MaxCompute,方便您对离线数据进行分析加工。前提条件 在开始本教程前,确保您在同一地域中已完成以下操作:云消息队列 Kafka 版 ...

技术架构选型

根据阿里巴巴OneData方法论最佳实践,在设计数据模型前,您需要完成技术架构的选型。本教程中使用阿里云大数据产品Dataphin配合MaxCompute,完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中,Dataphin的数据集成及同步负责...

产品概述

AIRec智能推荐 阿里云智能推荐AIRec(Artificial Intelligence Recommendation,简称AIRec)基于阿里巴巴大数据和人工智能技术,结合在电商、内容、新闻资讯、视频直播和社交等多个行业领域的积累,为全球企业及开发者提供个性化推荐服务。...

什么是MaxCompute

MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别,并且MaxCompute已经在阿里巴巴集团内部得到规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣...

使用场景

ACM 产品从 2008 年开始就被大量应用于阿里巴巴内部应用的配置管理。ACM 不仅适用于微服务、分布式架构下的配置管理、服务治理,在大数据等场景下也可灵活运营。本文选取典型的场景案例进行详细介绍。迁移到MSE Nacos ACM进入下线状态,...

简介

数据工作站可以结合语言模型给业务开发、数据开发、分析师和数据运营同学赋能,提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息,以文档的形式进行交付,并在交付后,希望有可以替您...

DataV连接

背景信息 DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的阿里云产品。DataV旨在通过图形化的界面帮助不同专业背景的用户轻松搭建专业水准的可视化应用,满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示...

什么是云数据库HBase

数据库HBase是低成本、高扩展、云智能的大数据NoSQL,兼容标准HBase访问协议,提供低成本存储、高扩展吞吐、智能数据处理等核心能力,是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

DataWorks交流钉钉群

阿里巴巴内部,每天有数万数据、算法开发工程师正在使用DataWorks。您需要先单击 申请链接 加入“阿里云大数据AI平台”交流群,再扫描下方二维码加入DataWorks产品钉钉交流群,加入后,即可获得专属产品技术支持,技术直播活动,产品新...

准备环境

实名认证,详情请参见 个人实名认证 背景信息 本次实验涉及的阿里云产品如下:大数据计算服务 MaxCompute 数据工场 DataWorks 人工智能平台 PAI MaxCompute DataWorks PAI 开通大数据计算服务MaxCompute 说明 如果您已经开通MaxCompute,请...

概述

优势 云原生数据仓库AnalyticDB PostgreSQL版 向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛应用,包括阿里巴巴数据中台,阿里巴巴电商新零售业务,阿里云城市大脑,通义千问模型搭建的问答服务等...

什么是OceanBase

OceanBase是由蚂蚁集团、阿里巴巴完全自主研发的分布式关系型数据库,始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库、低成本等特点。OceanBase至今已成功应用于支付宝全部核心业务...

高压缩引擎(X-Engine)介绍

PolarDB 高压缩引擎(X-Engine)为应对如上历史数据归档存储方面的挑战和诉求,PolarDB 基于如下技术创新和突破,推出了 高压缩引擎(X-Engine)产品系列:阿里巴巴自研的基于LSM-tree架构的存储引擎X-Engine提供了强大的数据压缩能力,...

通信能力技术服务协议

本协议由阿里巴巴云计算(北京)有限公司与阿里云计算有限公司(以下简称“阿里”)与您在杭州市余杭区签署。第一条 定义 通信能力技术服务:是阿里提供的,面向开发者为主的互联网合作伙伴,提供融合通信能力的技术服务。开发者可利用阿里...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

应用场景

大数据场景:海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与Spark、MaxCompute等大数据平台集成,完成数据规模离线分析。优势 低成本:高压缩比,数据冷热分离...

从Amazon RDS for PostgreSQL增量迁移至阿里

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键表或目标库存在死锁等),可能会加重数据库压力,...

产品概述

产品简介 PolarDB-X 1.0 是由阿里巴巴自主研发的PolarDB分布式版数据库,融合分布式SQL引擎与分布式自研存储X-DB,基于云原生一体化架构设计,可支撑千万级并发规模及百PB级海量存储。专注解决海量数据存储、超高并发吞吐、表瓶颈以及...

E-MapReduce本地盘实例规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点,并进行大数据基准性能测试。应用范围 需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

从Amazon RDS for PostgreSQL全量迁移至阿里

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键表或目标库存在死锁等),可能会加重数据库压力,...

什么是开放平台

阿里云工业开放平台是基于阿里大数据的一体化计算平台,通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集,并借助图像、视频识别、机器学习和人工智能算法,来激活海量数据价值。...

非结构化分析

向量分析作为 AnalyticDB PostgreSQL版 向量分析的高级特性目前已经服务阿里巴巴内外部多项业务,包括阿里巴巴数据中台,阿里巴巴电商新零售业务,阿里云城市大脑。典型架构 图 1.基于 AnalyticDB PostgreSQL版 实现非结构化数据向量分析...

企业版和标准版功能对比

支持 不支持 数据压缩 阿里巴巴自研的基于LSM-tree架构的存储引擎X-Engine提供了强大的数据压缩能力,满足了归档数据库低存储成本的要求。支持 不支持 OSS外表 若集群中某些库表的数据几乎没有更新、插入和修改操作,且读取频率非常低,...

添加PolarDB for Oracle数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容Oracle语法。通过外网添加数据源操作步骤 登录 DataV控制台。在 我的数据 页签中选择 数据源管理,单击 添加数据。从 类型 列表中,选择 PolarDB for ...

添加PolarDB for MySQL数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容MySQL语法。通过外网添加数据源操作步骤 登录 DataV控制台。在 我的数据 页签中选择 数据源管理,单击 添加数据。从 类型 列表中,选择 PolarDB for ...

添加PolarDB for PostgreSQL数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容PostgreSQL语法。通过外网添加数据源操作步骤 登录 DataV控制台。在 我的数据 页签中选择 数据源管理,单击 添加数据。从 类型 列表中,选择 PolarDB for...

添加PolarDB for Oracle数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容Oracle语法。通过内网添加数据源操作步骤 登录 DataV控制台。在 工作台 页面,单击 数据准备>数据源,进入 数据源 页面,单击 新建数据源。从 类型 列表...

添加PolarDB for MySQL数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容MySQL语法。通过内网添加数据源操作步骤 登录 DataV控制台。在 工作台 页面,单击 数据准备>数据源,进入 数据源 页面,单击 新建数据源。从 类型 列表中...

功能特性

目前已建成规模数据中心内的“高速网”,时延降低90%,支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。同时,通过规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过...

添加PolarDB for PostgreSQL数据

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库,100%兼容PostgreSQL语法。通过内网添加数据源操作步骤 登录 DataV控制台。在 工作台 页面,单击 数据准备>数据源,进入 数据源 页面,单击 新建数据源。从 类型 ...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...

阿里巴巴代码规约检测

阿里巴巴 Java 开发手册》是阿里巴巴集团技术团队的集体智慧结晶和经验总结,经历了多次规模一线实战的检验及不断的完善,系统化地整理成册,反馈给广大开发者.阿里巴巴 Java 开发手册检测的能力也被集成在RDC的自动化测试服务中,可以...

模型说明

StructBERT小样本分类:基于StructBert-base,在xnli数据集(将英文数据集重新翻译得到中文数据集)上面进行了自然语言推理任务训练 适用场景:面向文本分类任务,尤其是多层级(最多3级)、标签数目,训练样本少的低资源场景。...

从Amazon RDS for PostgreSQL增量迁移至阿里

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键表或目标库存在死锁等),可能会加重数据库压力,...

什么是EMAS

EMAS简介 阿里巴巴应用研发平台(Enterprise Mobile Application Studio,简称EMAS),是面向全端场景(移动App、H5应用、小程序、Web应用、PC应用等)的一站式应用研发平台。EMAS基于广泛的云原生技术(Backend as a Service、Serverless...

从Amazon RDS for PostgreSQL全量迁移至阿里

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键表或目标库存在死锁等),可能会加重数据库压力,...

概述

部分阿里云用户以CSV格式将数据存储在OSS上,若要提高数据扫描性能,需要借助第三方工具对文件进行格式转换,然后将转换后的数据上传至OSS,整个过程比较繁琐。为减轻用户工作量,您可以直接使用DLA来转换文件格式。假设将1.2GB的数据以...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 DBS 数据传输服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用