阿里巴巴的大数据-阿里巴巴的大数据文档介绍内容-阿里云

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

迁移 PolarDB-X 1.0 数据库的数据至 OceanBase 数据库...

背景信息 PolarDB-X 1.0 是由阿里巴巴自主研发的云原生分布式数据库，融合分布式 SQL 引擎和分布式自研存储 X-DB，基于云原生一体化架构设计。PolarDB-X 1.0 可以支撑千万级并发规模，以及百 PB 级海量存储。详情请参见产品概述。PolarDB-...

ETL工作流快速体验

案例提供的数据仅用于阿里云大数据开发治理平台DataWorks数据应用体验。仅空间管理员角色可导入ETL模板至目标工作空间。如需给账号授予空间管理员角色，请参见空间级模块权限管控。导入ETL工作流模板您可以将DataWorks ETL工作流模板...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

技术架构选型

根据阿里巴巴OneData方法论最佳实践，在设计数据模型前，您需要完成技术架构的选型。本教程中使用阿里云大数据产品Dataphin配合MaxCompute，完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中，Dataphin的数据集成及同步负责...

产品概述

AIRec智能推荐阿里云智能推荐AIRec（Artificial Intelligence Recommendation，简称AIRec）基于阿里巴巴大数据和人工智能技术，结合在电商、内容、新闻资讯、视频直播和社交等多个行业领域的积累，为全球企业及开发者提供个性化推荐服务。...

什么是MaxCompute

MaxCompute适用于100 GB以上规模的存储及计算需求，最大可达EB级别，并且MaxCompute已经在阿里巴巴集团内部得到大规模应用。MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣...

使用场景

ACM 产品从 2008 年开始就被大量应用于阿里巴巴内部应用的配置管理。ACM 不仅适用于微服务、分布式架构下的配置管理、服务治理，在大数据等场景下也可灵活运营。本文选取典型的场景案例进行详细介绍。迁移到MSE Nacos ACM进入下线状态，...

简介

数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能，提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息，以文档的形式进行交付，并在交付后，希望有可以替您...

DataV连接

背景信息 DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的阿里云产品。DataV旨在通过图形化的界面帮助不同专业背景的用户轻松搭建专业水准的可视化应用，满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示...

什么是云数据库HBase

云数据库HBase是低成本、高扩展、云智能的大数据NoSQL，兼容标准HBase访问协议，提供低成本存储、高扩展吞吐、智能数据处理等核心能力，是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

DataWorks交流钉钉群

在阿里巴巴内部，每天有数万数据、算法开发工程师正在使用DataWorks。您需要先单击申请链接加入“阿里云大数据AI平台”交流群，再扫描下方二维码加入DataWorks产品钉钉交流群，加入后，即可获得专属产品技术支持，技术直播活动，产品新...

准备环境

实名认证，详情请参见个人实名认证背景信息本次实验涉及的阿里云产品如下：大数据计算服务 MaxCompute 数据工场 DataWorks 人工智能平台 PAI MaxCompute DataWorks PAI 开通大数据计算服务MaxCompute 说明如果您已经开通MaxCompute，请...

概述

优势云原生数据仓库AnalyticDB PostgreSQL版向量数据库通过自研向量引擎FastANN提供的向量分析能力目前已经在诸多业务中得到了广泛应用，包括阿里巴巴数据中台，阿里巴巴电商新零售业务，阿里云城市大脑，通义千问大模型搭建的问答服务等...

什么是OceanBase

OceanBase是由蚂蚁集团、阿里巴巴完全自主研发的分布式关系型数据库，始创于2010年。OceanBase具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库、低成本等特点。OceanBase至今已成功应用于支付宝全部核心业务...

高压缩引擎（X-Engine）介绍

PolarDB 高压缩引擎（X-Engine）为应对如上历史数据归档存储方面的挑战和诉求，PolarDB 基于如下技术创新和突破，推出了高压缩引擎（X-Engine）产品系列：阿里巴巴自研的基于LSM-tree架构的存储引擎X-Engine提供了强大的数据压缩能力，...

通信能力技术服务协议

本协议由阿里巴巴云计算（北京）有限公司与阿里云计算有限公司（以下简称“阿里”）与您在杭州市余杭区签署。第一条定义通信能力技术服务：是阿里提供的，面向开发者为主的互联网合作伙伴，提供融合通信能力的技术服务。开发者可利用阿里...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

从Amazon RDS for PostgreSQL增量迁移至阿里云

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

产品概述

产品简介 PolarDB-X 1.0 是由阿里巴巴自主研发的PolarDB分布式版数据库，融合分布式SQL引擎与分布式自研存储X-DB，基于云原生一体化架构设计，可支撑千万级并发规模及百PB级海量存储。专注解决海量数据存储、超高并发吞吐、大表瓶颈以及...

E-MapReduce本地盘实例大规模数据集测试

本文介绍如何使用阿里云E-MapReduce搭建本地盘机型集群节点，并进行大数据基准性能测试。应用范围需要使用阿里云E-MapReduce+本地盘进行大数据业务前进行性能测试的用户。需要将线下自建大数据集群迁移到阿里云云上E-MapReduce+本地盘进行...

从Amazon RDS for PostgreSQL全量迁移至阿里云

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

什么是开放平台

阿里云工业开放平台是基于阿里云大数据的一体化计算平台，通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集，并借助图像、视频识别、机器学习和人工智能算法，来激活海量数据价值。...

非结构化分析

向量分析作为 AnalyticDB PostgreSQL版向量分析的高级特性目前已经服务阿里巴巴内外部多项业务，包括阿里巴巴数据中台，阿里巴巴电商新零售业务，阿里云城市大脑。典型架构图 1.基于 AnalyticDB PostgreSQL版实现非结构化数据向量分析...

企业版和标准版功能对比

支持不支持数据压缩 阿里巴巴自研的基于LSM-tree架构的存储引擎X-Engine提供了强大的数据压缩能力，满足了归档数据库低存储成本的要求。支持不支持 OSS外表若集群中某些库表的数据几乎没有更新、插入和修改操作，且读取频率非常低，...

添加PolarDB for Oracle数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容Oracle语法。通过外网添加数据源操作步骤登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表中，选择 PolarDB for ...

添加PolarDB for MySQL数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容MySQL语法。通过外网添加数据源操作步骤登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表中，选择 PolarDB for ...

添加PolarDB for PostgreSQL数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容PostgreSQL语法。通过外网添加数据源操作步骤登录 DataV控制台。在我的数据页签中选择数据源管理，单击添加数据。从类型列表中，选择 PolarDB for...

添加PolarDB for Oracle数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容Oracle语法。通过内网添加数据源操作步骤登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击新建数据源。从类型列表...

添加PolarDB for MySQL数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容MySQL语法。通过内网添加数据源操作步骤登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击新建数据源。从类型列表中...

功能特性

目前已建成大规模数据中心内的“高速网”，时延降低90%，支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。同时，通过大规模RDMA网络部署实践，阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过...

添加PolarDB for PostgreSQL数据源

云原生关系型数据库PolarDB是阿里巴巴自主研发的下一代云原生关系型数据库，100%兼容PostgreSQL语法。通过内网添加数据源操作步骤登录 DataV控制台。在工作台页面，单击数据准备>数据源，进入数据源页面，单击新建数据源。从类型 ...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

阿里巴巴代码规约检测

《阿里巴巴 Java 开发手册》是阿里巴巴集团技术团队的集体智慧结晶和经验总结，经历了多次大规模一线实战的检验及不断的完善，系统化地整理成册，反馈给广大开发者.阿里巴巴 Java 开发手册检测的能力也被集成在RDC的自动化测试服务中，可以...

模型说明

StructBERT小样本分类：基于StructBert-base，在xnli数据集（将英文数据集重新翻译得到中文数据集）上面进行了自然语言推理任务训练适用场景：面向文本分类任务，尤其是多层级（最多3级）、标签数目大，训练样本少的低资源场景。...

从Amazon RDS for PostgreSQL增量迁移至阿里云

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

什么是EMAS

EMAS简介 阿里巴巴应用研发平台（Enterprise Mobile Application Studio，简称EMAS），是面向全端场景（移动App、H5应用、小程序、Web应用、PC应用等）的一站式应用研发平台。EMAS基于广泛的云原生技术（Backend as a Service、Serverless...

从Amazon RDS for PostgreSQL全量迁移至阿里云

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

概述

大部分阿里云用户以CSV格式将数据存储在OSS上，若要提高数据扫描性能，需要借助第三方工具对文件进行格式转换，然后将转换后的数据上传至OSS，整个过程比较繁琐。为减轻用户工作量，您可以直接使用DLA来转换文件格式。假设将1.2GB的数据以...

阿里巴巴的大数据

新品推荐