离线同步常见问题

您可以控制是否允许脏数据产生,并且支持控制脏数据条数,数据集成默认允许脏数据产生,您可以在同步任务配置时指定脏数据产生条数。详情可参考:通过向导模式配置离线同步任务。任务设置允许脏数据:当脏数据产生时,任务继续执行,但脏...

Routine Load

Routine Load是一种例行导入方式,StarRocks通过该方式支持从Kafka持续不断的导入数据,并且支持通过SQL控制导入任务的暂停、重启和停止。本文为您介绍Routine Load导入的基本原理、导入示例以及常见问题。基本概念 RoutineLoadJob:提交的...

Routine Load

Routine Load是一种例行导入方式,StarRocks通过该方式支持从Kafka持续不断的导入数据,并且支持通过SQL控制导入任务的暂停、重启和停止。本文为您介绍Routine Load导入的基本原理、导入示例以及常见问题。基本概念 RoutineLoadJob:提交的...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订,并将于2024年03月01日生效。当前服务等级协议详情,请在 服务等级协议 中查看。变更生效时间 2024年03年01日 变更范围 EMR Serverless StarRocks(标准版)...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

E-MapReduce Serverless服务等级协议(SLA)

2023年6月1日起,E-MapReduce Serverless服务等级协议(SLA)生效。详情请参见 开源大数据平台E-MapReduce Serverless服务等级协议。

Napatech案例

Napatech公司的用户可以将数据包采集和分析的能力提升至200G,然而上层软件产生的流量数据包元数据也爆增,给后台数据库(比如开源的HBase/ElasticSearch)的存储和索引能力带来极的挑战。增加过多的节点会带来极的成本开销及管理复杂...

授权信息

本文为您介绍 开源大数据平台 E-MapReduce(EMR)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce(EMR)的RAM代码(RamCode)为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

DBS沙箱功能概览

背景信息 在海量数据场景下,传统数据库备份服务面临两越来越严重的困难:存储成本:为了保障数据恢复点目标(Recovery Point Objective,RPO),周期性的全量和增量备份产生大量重复数据,导致存储成本过高。使用成本:您必须待数据完成...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

ClickHouse概述

开源大数据平台E-MapReduce(简称EMR)的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...

使用独立的Trino集群

背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点,主要针对各类跨库数据同步和数据加工场景,您可以通过编写Spark SQL,完成各种复杂的数据同步或数据加工的任务开发。前提条件 支持的数据库类型:MySQL:RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

离线同步日志分析

切分(拆分)任务 此阶段将源端待同步数据切分为多个task,以便并发、分批进行读取数据,切分规则如下:关系型数据库:按照您在界面配置时指定的切分键 splitPk,作为切分依据,将待同步数据切分为多个task,通过并发分批读取切分的task。...

MySQL实例间的双向同步

同步源数据库 同步目的数据库 RDS MySQL实例 ECS上的自建数据库 通过专线、VPN网关或智能网关接入的自建数据库 通过数据库网关接入的自建数据库 通过云企业网CEN接入的自建数据库 RDS MySQL实例 ECS上的自建数据库 通过专线、VPN网关或智能...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介 亿海蓝是中国的航运大数据公司,做为中国最大的AIS数据服务运营商,发展目标是通过大数据技术推动全球航运物流与互联网的融合,加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务,客户涵盖港口...

RDS MySQL与PolarDB MySQL版间的双向同步

全量初始化会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量初始化完成后目标实例的表空间比源实例的表空间。如同步对象为单个或多个表(非整库),那么在数据同步时,勿对源库的同步对象使用pt-online-schema-change等类似...

MySQL实例间的双向同步

全量初始化会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量初始化完成后目标实例的表空间比源实例的表空间。如同步对象为单个或多个表(非整库),那么在数据同步时,勿对源库的同步对象使用pt-online-schema-change等类似...

使用Druid

大数据量情况下,E-MapReduce Druid对内存要求比较高,尤其是Broker和Historical节点。E-MapReduce Druid本身资源不受YARN管控,在多服务运行时容易发生资源抢夺。Hadoop作为基础设施,其规模通常较,而E-MapReduce Druid集群较小,部署...

产品概述

阿里云流数据处理平台数据总线DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。数据总线 DataHub服务可以对各种移动设备,应用...

X-Engine简介

因为目标是面向规模的海量数据存储,提供高并发事务处理能力和降低存储成本,在部分大数据量场景下,数据被访问的机会是不均等的,访问频繁的热数据实际上占比很少,X-Engine根据数据访问频度的不同将数据划分为多个层次,针对每个层次...

Tunnel命令常见问题

java.io.IOException:Error writing request body to server 产生原因 这是上传数据到服务器时产生的异常,通常是因为上传过程中的网络连接断开或超时导致的:当您的数据源并非是本地文件,需要从数据库等地方获取时,数据在写入的过程中还...

查询报错问题

errorCode=65541,errorName=NO_NODES_AVAILABLE,errorType=INTERNAL_ERROR,errorLocation=null,failureInfo=mpp.client.FailureInfo@13887b2e} 一般是数据库内部某个计算节点压力较导致该节点暂时离线,系统能够自动修复。请用户过5~10...

分区表常见问题

相同数据量的情况下,单表只有一个B+树,分区表是每个分区一个B+树,树的层级相对较低,insert性能会更好;分区表能使用where条件进行分区剪枝的查询场景可以减少数据的扫描和计算,性能也会更优;相对于分库分表,使用分区表在做JOIN、DDL...

DQL操作常见问题

id1 values1 id2 values2 1 b 1 B 1 b 1 A 1 a 1 B 1 a 1 A 2 c NULL NULL id=1的数据两边都有,执行笛卡尔积,返回4条数据。id=2的数据只有table1有,返回了1条数据。id=3的数据只有table2有,table1里没数据,不返回数据。解决措施 确认...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求,还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明 具体各集群类型支持的组件以控制台实际展示为准。集群类型 场景介绍 ...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统,主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问,您可以直接使用JindoFS SDK;标准功能针对OSS提供分布...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

pg_dump

pg_dump是 PolarDB PostgreSQL版(兼容Oracle)提供的一种逻辑备份工具,用于将集群中的单个数据库备份为脚本文件或其他存档文件。简介 pg_dump用于备份单个数据库。即使当前数据库正在被访问,也会对正在访问的数据进行一致的备份,并且在...

数据归档概述

当线上数据库中的历史数据(访问率很低的数据)越来越多,占用的存储越来越,以至于会影响数据库的查询性能与业务运转,此时您可以使用 数据管理DMS 的数据归档功能,周期性地将指定表的数据归档至其他数据库或存储服务中。同时,该功能...

Stream Load

完整示例 数据情况:数据在客户端本地磁盘路径/home/store-sales 中,导入的数据量约为15 GB,希望导入到数据库bj-sales的表store-sales中。集群情况:Stream Load的并发数不受集群大小影响。示例如下:因为导入文件大小超过默认的最大导入...

跨阿里云账号迁移MongoDB实例

如果您的数据库小版本过期或者不在维护列表内,当执行 实例版本升级、数据迁移、变更实例配置、按备份点将备份数据恢复至新建实例、按时间点将备份数据恢复至新建实例 或 恢复云数据库MongoDB单个或多个数据库 等操作时,为保证提供更出色...

跨阿里云账号迁移MongoDB实例

如果您的数据库小版本过期或者不在维护列表内,当执行 实例版本升级、数据迁移、变更实例配置、按备份点将备份数据恢复至新建实例、按时间点将备份数据恢复至新建实例 或 恢复云数据库MongoDB单个或多个数据库 等操作时,为保证提供更出色...

UpdateAccelerator-修改全球加速实例

调用UpdateAccelerator接口修改全球加速实例。接口说明 UpdateAccelerator 接口属于异步接口,即系统会先返回一个请求 ID,但全球加速实例并未修改完成,系统后台的修改任务仍在进行。您可以调用 DescribeAccelerator 查询全球加速实例的...

2.0数据类型版本

本文为您介绍MaxCompute 2.0数据类型版本的定义、使用场景、支持的数据类型以及与其它数据类型版本的差异。定义 项目空间选择数据类型版本为2.0数据类型版本时,项目空间的数据类型属性参数定义如下。setproject odps.sql.type.system.odps...

Hive兼容数据类型版本

Hive兼容数据类型版本是MaxCompute三种数据类型版本之一,该数据类型版本下仅支持Hive兼容数据类型。本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义 项目空间选择数据类型版本为Hive兼容数据...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 数据传输服务 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用