数据去重

本文介绍数据去重算子的使用方法和注意事项。用途 数据去重算子可以按照指定的字段去除重复的数据,只保留其中一条,然后输出到下个节点。适用场景 计算链路 计算引擎 是否支持 离线 MaxCompute 是 Hive 是 HiveStorage 是 RDS/MySQL 是 ...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

基于eRDMA增强型实例部署Spark集群

Hadoop版本:Hadoop 3.2.1 Spark版本:Spark 3.2.1 ECS实例:实例规格:请参见 基本规格 vCPU个数:16 集群节点个数:1个主节点、3个worker节点 安装步骤 安装Hadoop大数据集群的具体操作,请参见 通过FastMR自动拉起大数据集群。...

静态列(static column)实战

通常来说,用户的基本信息一般很少会变动,但是用户状态会经常变化,如果...虽然加了 DISTINCT 关键字,但是 Cassandra 并不是将 username 为 iteblog 的数据全部拿出来,然后再去重的,因为静态列本来在底层就存储了一份,所以不需要再去重

产品优势

本文介绍 云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息 云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等 易用性 免运维,维护简单 有状态服务,维护较复杂

生态集成

云原生数据仓库AnalyticDB PostgreSQL版 具备完善和开放的生态系统,支持无缝对接业界以及阿里云生态的数据管理工具,BI报表可视化工具,ETL工具,数据迁移工具,同时可以与业界流行的流式处理系统,日志类系统,大数据类系统,传统数仓及...

OSS/OSS-HDFS概述

特性 通过JindoSDK使用OSS和OSS-HDFS的特性对比如下:场景 特性 OSS OSS-HDFS 大数据场景(Hadoop)支持目录、文件语义和操作 支持 支持 添加目录、文件权限 不支持 支持 目录原子性、rename性能 支持,但性能不佳 支持,毫秒级 通过...

Spark Shell和RDD基础操作

distinct()没有参数,将RDD里的元素进行去重操作。union()参数是RDD,生成包含两个RDD所有元素的新RDD。intersection()参数是RDD,求出两个RDD的共同元素。subtract()参数是RDD,去掉原RDD里和参数RDD里相同的元素。cartesian()参数是RDD,...

创建Impala数据

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

Hadoop使用JindoSDK访问OSS-HDFS服务

什么是OSS-HDFS服务 通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖...

创建HBase数据

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您...

Hudi

upsert 参数取值如下:upsert:插入更新 insert:插入 bulk_insert:批量写入 说明 bulk_insert导入省了avro的序列化以及数据的merge过程,没有去重操作,数据的唯一性需要自己来保证。bulk_insert需要在Batch Execuiton Mode下执行,...

创建Impala数据

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...

Spark Load

Spark Load通过外部的Spark资源实现对导入数据的预处理,提高StarRocks大数据量的导入性能并且节省StarRocks集群的计算资源。Spark Load主要用于初次迁移、大数据量导入StarRocks的场景(数据量可到TB级别)。本文为您介绍Spark Load导入的...

SDK概述

说明 emr-oss:支持Hadoop、Spark与OSS数据源的交互,默认已经存在集群的运行环境中,作业打包时不需要将emr-oss打进去。emr-tablestore:支持Hadoop、Hive、Spark与TableStore数据源的交互,使用时需要打进作业JAR包。emr-mns_2.11:支持...

2021年

2021-12-03 全部地域 参考:渐进式计算 MaxCompute物化视图功能增强 MaxCompute物化视图支持创建分区和聚簇,在查询物化视图时如果发现有分区数据不存在物化视图中时,可以设置系统自动穿透查询源表,并返回源表和物化视图的汇总数据。...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统,主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问,您可以直接使用JindoFS SDK;标准功能针对OSS提供分布...

Spark Load

将 distinct_value_table 与 dict_table 做 left join,计算出新增的重值集合,然后对这个集合使用窗口函数进行编码,此时去重列原始值就多了一列编码后的值,最后将这两列的数据写回dict_table。将 dict_table 与 hive_table 连接,完成...

通过整库迁移配置集成任务

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据大数据计算服务,包括MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。前提条件 已完成所需迁移的数据源创建。整库迁移支持MySQL、...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。...架构图 方案详情 请参见 阿里云自建Hadoop数据迁移到阿里云E-MapReduce。icmsDocProps={'productMethod':'created','language':'zh-CN',};

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

离线同步常见问题

读取Loghub同步某字段有数据但是同步过来为空 读取Loghub同步少数据 读取Loghub字段映射时读到的字段不符合预期 读取kafka配置了endDateTime来指定所要同步的数据的截止范围,但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...

CDH/EMR/亚信/FI/CDP物理表和字段详情

数据质量 如果您开通了数据质量功能,您可查看数据的质量监控报告和为数据表配置数据探查操作。质量监控:为您展示当前数据表的规则校验概览和质量监控规则列表,点击 查看报告详情 按钮或 查看规则详情 按钮,可快捷跳转到数据质量模块...

逻辑表和字段资产详情

数据质量 如果您开通了数据质量功能,您可以查看数据的质量监控报告和为数据表配置数据探查操作。质量监控:为您展示当前数据表的规则校验概览和质量监控规则列表,点击 查看报告详情 按钮或 查看规则详情 按钮,可快捷跳转到数据质量...

逻辑表和字段资产详情

数据质量 如果您开通了数据质量功能,您可以查看数据的质量监控报告和为数据表配置数据探查操作。质量监控:为您展示当前数据表的规则校验概览和质量监控规则列表,点击 查看报告详情 按钮或 查看规则详情 按钮,可快捷跳转到数据质量...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS...

Hologres物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

Hologres物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

MaxCompute物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

MaxCompute物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

产品架构

从上图可以看出EMR由四部分组成:社区开源产品 集成Apache社区开源大数据组件,例如Hadoop、Hive和HBase,随着EMR版本更新,开源软件也会相应的升级,详情请参见 版本概述 下各版本的版本说明。注意 已经创建好的EMR集群不支持组件升级。...

星环ArgoDB/TDH Inceptor物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

StarRocks物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

AnalyticDB for PostgreSQL物理表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

物化视图和字段资产详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

Hive概述

Hive是一个基于Hadoop数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。背景信息 E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群的配套情况,请参见 版本概述。Hive结构 名称 说明...

产品优势

您可以快速搭建开源大数据服务,例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 版本概述。适配开源组件,避免开源组件之间的版本兼容性问题。基于开源组件,优化...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用