2014第四届大数据世界论坛-2014第四届大数据世界论坛文档介绍内容-阿里云

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

发展历程

2022年自研一体化大数据计算平台和数据仓库产品ODPS获世界互联网领先科技成果奖。在TPCx-BB 100TB标准测试中，连续6次获得全球冠军，保持性能和性价比第一。Forrester：每两年一次的全球云数仓评测中，进入卓越表现者象限，国内唯一。进入...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

东软案例

在互联网服务场景下，运维监控数据量激增，采集监控的数据类型更加多样（时序指标、日志、代码链路等），现有运维系统采用的单模引擎（如RRD数据库、openTSDB时序数据库、ElasticSearch检索类数据库）应对这些实时、高并发采集，且价值密度...

整体架构

云原生数据仓库AnalyticDB MySQL版是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库。概述自2012年第一次在集团发布上线以来，AnalyticDB MySQL版至今已累计迭代发布近百个版本，支撑起集团内的电商、广告、物流、...

离线同步常见问题

脏数据限制设置为多少就是不允许有多少条脏数据，若限制为0即在发现第一条脏数据时就会停止任务，此时有可能已经传几条数据了，或者没有传输数据（脏数据在所有数据中位于第一条时）。如何排查离线同步任务运行时间长的问题？可能原因1：...

概述

OceanBase 是全球唯一在事务处理(TPC-C)和数据分析(TPC-H)，两个领域测试中都获得过世界第一的自研数据库。体验任务本教程将带您体验如何使用云数据库 OceanBase 集群实例创建一个表，并在表中插入数据，从而验证云数据库 OceanBase 的高...

DataWorks On EMR使用说明

开始使用一、数据建模与开发模块说明相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数...

快速入门

MySQL快速入门 SQL Server快速入门 PostgreSQL快速入门 MariaDB快速入门数据库引擎以下是对四种数据库引擎的介绍：云数据库RDS MySQL MySQL是全球受欢迎的开源数据库之一，作为开源软件组合LAMP（Linux+Apache+MySQL+Perl/PHP/Python）中...

DLF数据探索快速入门-淘宝用户行为分析

第四步：用户行为数据分析 4.1 数据分析概述在DLF控制台页面，点击菜单“数据探索”-“SQL 查询”，进入数据探索页面。数据分析的过程主要分为三步：预览并检查数据信息。简单的数据清洗。进行用户活跃度、漏斗模型和商品热度分析。4.2 ...

产品概述

专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。PolarDB-X 1.0 核心能力采用标准关系型数据库技术实现，配合完善的...

聚合支付：Ping+

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍Ping+如何通过 PolarDB-X 应对业务挑战。所属行业...

行业趋势与背景

分布式数据库是发展方向近年来，随着互联网、大数据的飞速发展，特别是“双十一”指数型的成交总额发展曲线，让世界看到了中国电子商务业务的火箭式发展势头。而同时，对于背后的业务支撑系统来说，同样经历了火箭式的系统压力增长。以...

创建OSS外部表

MaxCompute支持您在项目中创建OSS（Object Storage Service）外部表，与存储服务OSS上的目录建立映射关系，您可以通过OSS外部表访问OSS目录下的数据文件中的非结构化数据，或将MaxCompute项目中的数据写入OSS目录。本文为您介绍创建OSS外部...

时间轴

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

通过数据同步功能同步Kafka至湖仓版（推荐）

说明当数据源下存在数据同步或数据迁移任务时，此数据源无法直接删除，需先在数据同步页面，单击目标同步任务操作列的删除，删除数据同步或数据迁移任务。JSON解析层级和Schema字段推断示例解析层级指按相应层数解析出JSON中的字段...

时间轴

2024-07-15 00:00:00","value":20240715,"text":"第四轮-超越自我"},{"name":"2024-08-07 00:00:00","value":20240807,"text":"高考"},{"name":"2024-09-25 00:00:00","value":20240925,"text":"高考-填报志愿"}]选择样式面板，修改间隔...

区域图（v4.0以下版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

ModifyInstance

Parameter.4.Code String 是 LogStorage 数据库审计的第4组属性的Code配置，设置为 LogStorage，表示数据库审计的日志存储。Parameter.4.Value String 是 5 数据库审计的第4组属性的Value配置，数据库审计的日志存储大小，取值范围：0 TB~...

信息标签层（v4.x版本）

图表样式信息标签层是基础平面地图 4.0的子组件，支持独立的样式、数据和交互配置，包括图形状的指标线样式和主图标样式等，能够以信息图标的形式表现地理位置上标签信息内容。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，...

信息标签层（v3.x版本）

说明线型支持数字输入，如4,4，第1个数字表示实线长度，第2个数字表示间隔长度。主图标：标签中主图标的样式。单击左侧图标，可控制主图标样式的开启或关闭。参数说明图标形状信息标签层标签内主图标的形状样式，您可以单击样式右侧的...

信息标签层（v3.x版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

新零售：特步

PolarDB-X 专注解决海量数据存储、超高并发吞吐、大表瓶颈以及复杂计算效率等数据库瓶颈问题，历经各届天猫双十一及阿里云各行业客户业务的考验，助力企业加速完成业务数字化转型。本文介绍特步（中国）有限公司如何通过 PolarDB-X 应对...

数据存储

数据分区云数据库SelectDB所有的数据模型都支持两层的数据分区：第一层是Partition分区，支持Range和List的划分方式，典型场景下按照时间进行Range分区，方便数据查询裁剪和过期清理等。SelectDB支持简单易用的动态分区方式，简化分区管理...

区域翻牌器

分割间隔：x轴上两个类目数据之间的间隔所占百分比，数值越大，占比越大，取值范围为0~1。仅对类目型的数据有效。范围：x轴的最小值和最大值的范围值。参数说明最大值 x轴的最大值，支持自定义输入。默认为auto，系统会根据数据最大值...

139.224.92.81/24,139.224.92.22/24,139.224.92.35/24,139.224.4.30/24,139.224.92.102/24,139.224.4.48/24,139.224.4.104/24,139.224.92.11/24,139.224.4.60/24,139.224.92.52/24,139.224.4.26/24,139.224.92.57/24,112.74.156.111/24,120...

选型配置说明

选择合适的集群是E-MapReduce产品使用的第一步。E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

基本介绍

背景信息云数据库HBase增强版是由云原生多模数据库Lindorm宽表引擎提供的、完全兼容HBase的云上托管数据库，从2011年开始云数据库HBase增强版正式承载阿里内部业务的海量数据实时存储需求，支撑服务了淘宝、支付宝、菜鸟、优酷、高德等...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

DataWorks模块使用说明

使用流程概览：参考文档：数据集成概述数据建模与开发子模块：数据建模功能说明：数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案，可以为企业提供数据湖内的统一的元数据管理，统一的权限管理，支持数据湖的多种管理如数据生命周期，湖格式自动优化，存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

冷热分层

Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作。通过结合Delta Lake和上下游组件，您可以搭建出一个便捷、易用、安全的数据湖架构。在数据湖架构设计中，通常会...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

支持的数据库

数据同步数据同步功能帮助您实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、查询与报表分流、云BI及实时数据仓库等多种业务场景。同步支持的数据库、版本和同步类型以及配置文档，请参见...

迁移方案概览

数据迁移功能帮助您实现同构或异构数据源之间的数据迁移，适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景。本文将介绍数据迁移功能支持的数据库、版本和迁移类型，以及具体的配置文档。说明数据迁移在某些场景...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

DataWorks On MaxCompute使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

DataWorks On Hologres使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

2014第四届大数据世界论坛

新品推荐