大数据时-大数据时文档介绍内容-阿里云

准备数据

切分键读取数据时，根据配置的字段进行数据分片，实现并发读取，可以提升数据同步效率。此处可以不填。选择数据去向。参数描述数据源选择 ODPS，然后选择MaxCompute数据源名称。表选择ODPS数据源中的表 trend_data。分区信息输入要...

添加白名单

为保证数据源的数据库的安全稳定，大部分数据源开启了白名单的限制（例如，RDS、MongoDB和Redis等常见的数据源），此种场景下，您需要将DataWorks资源组的IP地址或网段添加至数据源的白名单中，对数据集成资源组的访问IP放行。添加白名单时...

常见问题

任务并行度在Partition数量和BE数量较多时，您可以调大以下参数来加速任务执行。但是，增加并行度可能会带来更多的CPU资源消耗。max_routine_load_task_concurrent_num desired_concurrent_number 单个Routine Load任务会根据Kafka Topic ...

select id,value,concat(id,(rand()*10000)%3)as new_id from A select id,value,concat(id,suffix)as new_id from(select id,value,suffix from B Lateral View explode(array(0,1,2))tmp as suffix)倾斜key未知时，打散数据。select t1....

Tunnel命令常见问题

上传数据时，每个Session的生命周期是一天，因源表数据太大，导致Session超时任务失败，如何解决？上传Session太多导致上传速度慢，如何解决？导入数据的最后一列为什么会多出\r符号？使用Tunnel Upload命令上传数据时，默认用逗号进行列...

调度设置

数据集成资源组数据集成任务运行时默认使用的集成资源组。重跑属性周期任务运行时默认的重跑策略。说明当重跑属性配置为可重跑时，应尽量保证任务的幂等性，避免多次重跑出现数据质量问题。自动重跑次数周期任务调度执行失败情况下，...

OSS/OSS-HDFS的性能优化最佳实践

从OSS上传和下载数据时，您的应用程序可以轻松实现每秒数千个事务的请求性能。您的应用程序可以实现存储空间（Bucket）中每个分区（OSS按对象名的字母序排列对象，并按照数据量和请求QPS来拆分分区）每秒至少3500个PUT、COPY、POST或DELETE...

JSON格式导入

Doris在尝试匹配一行数据时，如果所有列都匹配失败，则会认为这个是一个错误行。假设JSON数据为：{"id":123,"city":"beijing"} 如果JSON Path错误的写为（或者不指定JSON Path时，表中的列不包含 id 和 city）：["$.ad","$.infa"]则会导致...

配置Kafka输入

Kafka插件基于Kafka SDK实时读取Kafka数据。背景信息说明支持阿里云Kafka，以及>=0.10.2且的自建Kafka版本。对于版本Kafka，由于Kafka不支持检索分区数据offset，且Kafka数据结构可能不支持时间戳，因此会引发同步任务延时统计错乱，造成...

导入与导出

通过创建MaxCompute外表导入数据时，为什么会出现ErrorCode=ServiceUnavailable,ErrorMessage=Service is temporarily unavailable,Please try again later报错？通过创建MaxCompute外表导入数据时，为什么会出现ErrorCode=Local Error,...

常见问题

造成服务不稳定的情况可能有很多，最常见的情况是znode数量过大或者snapshot过大，由于ZooKeeper将所有的znode维护在内存中，并且需要在节点间进行数据同步，因此过大的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

UpdateMetaTableIntroWiki

当数据不存在时增加对应信息。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

轮播页面

当使用动态数据时，如数据库或API数据，可以通过交互组件（如时间轴、Tab列表等）动态获取此 id 值，实现改变交互组件中的某个元素，跳转到对应的轮播页面。其中动态数据返回的 id 值的格式要与此 id 保持一致，并与大屏轮播数据接口中的...

轮播页面

当使用动态数据时，如数据库或API数据，可以通过交互组件（如时间轴、Tab列表等）动态获取此id值，实现改变交互组件中的某个元素，跳转到对应的轮播页面。其中动态数据返回的id值的格式要与此id保持一致，并与大屏轮播数据接口中的页面id...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

常见问题

本文汇总了使用Impala时的常见问题。Impala 3.4使用JDBC查询Impala 10秒提示会话超时，该怎么办？Impala无法找到Hive新增的表，该怎么办？Impala写入Hive表数据的时候，是否可以修改写入文件的owner？如何调整Impalad可使用的节点内存总量...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

常见问题

本文汇总了Hive使用时的常见问题。说明对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态，如何处理？Map端是否读取...

用户授权与管理

使用数据建模DATABLAU功能时，在进行定义标准、数据建模、数据开发、部署运维等不同任务时，通常需不同角色的用户进行操作，对应用户需获取相应的权限。本文为您介绍制定标准、数据建模并应用部署过程中推荐的用户角色权限规划与授权操作...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

导入数据

选择清理规则当选中写入前清理已有数据前面的复选框时，则导入数据时会清理已有数据，只保留最新导入的。当取消选中写入前清理已有数据前面的复选框时，则导入数据时会保留已有数据。编辑源字段和目标字段的对应关系，可选择默认值。...

大数据安全治理的难点

同时，大数据系统基于“存储、用户、入口、流转、交付”等多方面的特点，存在诸多安全治理难点。数据安全治理的关键问题数据安全治理能否清楚、准确地回答如下问题，将从侧面反映安全治理项目是否能有效地落地。哪些资产需要被保护？您有...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

实时计算场景优化

当您在日志目录下或者客户端运行日志中发现如下报错时，可以适当地调大该参数值：在日志目录/var/log/emr/hadoop/下观察DataNode服务端日志，发现如下报错。java.io.IOException:Xceiver count 4097 exceeds the limit of concurrent ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

常见问题

DTS同步链路规格默认为medium模式，源库的数据写入量过大时，若想达到规格同步性能上线，需要升级实例配置。无主键表的主键选择可能会导致热点行更新，而热点行更新速度很慢，可以向ADB提工单解决该问题。当ADB集群的写入性能已达到瓶颈，...

DMS支持的数据库

AnalyticDB MySQL 2.0 DLA SelectDB NoSQL数据库 Redis MongoDB Memcache Cassandra Lindorm SQL Lindorm Phoenix Lindorm CQL Lindorm TSDB Lindorm HBase Graph Database 大数据 MaxCompute MaxCompute Lighting Hologres 文件及日志 OSS...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

RDS PostgreSQL数据库大版本升级时都有哪些常见报错

请参见解读RDS PostgreSQL大版本升级检查报告。

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

RDS PostgreSQL数据库大版本升级时都有哪些常见报错

请参见解读RDS PostgreSQL大版本升级检查报告。

双11雷达图

当预设最大值大于数据的最大value值时，预设最大值越大，雷达区域占比越少。颜色雷达图的渐变颜色，单击右侧的或图标，添加或删除一个颜色区域。单击或图标配置多个颜色系列的排列样式。单击图标，即可复制当前选中颜色系列配置内容...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

大数据时

新品推荐