通过DataWorks管理作业

Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...

使用MaxCompute控制台(离线)

查看上传记录 提交上传后,若数据量较,需要耗费一些时间,您无需在提交页面一直等待,可后续通过单击 数据上传 页面右上角的 查看上传记录 查看通过该功能上传数据的详情记录。说明 通过该页面的 查看上传记录 查询到的记录详情也包含...

DataWorks On MaxCompute使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

Teamtnt变种攻击Hadoop集群

Hadoop作为大数据计算基础组件往往集群化部署,一旦一台主机沦陷其整个集群都将受到威胁,其对外暴露端口服务会造成极威胁。阿里云安全持续对该BOT进行监控,发现近期传播有所上升,提醒广大用户注意防护。传播手段 Hadoop Yarn作为...

创建Hologres数据

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据,及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中,您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

DataWorks On Hologres使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

常见问题

数据安全中心DSC根据为不同行业预先定义的敏感数据关键字段,扫描MaxCompute、OSS、阿里云数据库服务(RDS、PolarDB-X、PolarDB、OceanBase、表格存储等)和自建数据库中的数据,通过敏感数据规则,判断和打标敏感数据,为数据安全审计、...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源(例如MySQL数据库)的数据,也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上,您可以直接在DataWorks上配置MaxCompute数据源并读写...

Hudi

背景信息 Apache Hudi是一种开源的数据湖表格式框架。Hudi基于对象存储或者HDFS组织文件布局,保证ACID,支持行级别的高效更新和删除,从而降低数据ETL开发门槛。同时该框架还支持自动管理及合并小文件,保持指定的文件大小,从而在处理...

产品优势

混合云大数据容灾提供近0 RPO的大数据容灾,可以将Hadoop集群容灾至阿里云OSS或EMR,在Hadoop集群间双向实时复制,构建大数据湖。应用级容灾和数据级容灾 支持将Windows、Linux应用服务器做高效的容灾复制和云上恢复,实现应用级容灾。您...

MMA概述

数据迁移原理 Hive数据迁移原理 Hive数据迁移包含通过Hive UDTF迁移数据到MaxCompute、通过OSS迁移Hive数据到MaxCompute,本文为您介绍两种数据迁移方式的原理。通过Hive UDTF迁移数据到MaxCompute。该场景通过Hive的分布式能⼒,实现Hive...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

E-MapReduce数据迁移

背景信息 阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。前提...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

Hadoop作为大数据计算基础组件往往集群化部署,一旦一台主机沦陷,其整个集群都将受到威胁,其对外暴露的端口服务会造成极威胁。阿里云安全持续对该BOT进行监控,发现近期传播有所上升,提醒广大用户注意防护。传播手段 Kinsing僵尸网络...

同步时源库为Db2 for LUW的注意事项及限制

说明 如为增量同步任务,DTS要求源数据库的数据日志保存24小时以上,如为全量同步和增量同步任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量同步完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志...

Hive数据

使用Ranger进行权限校验 Apache Ranger是一个在Hadoop平台上提供监控、服务控制、全方位数据安全访问管理的安全框架。云数据库 SelectDB 版 目前支持Ranger的库、表、列权限,不支持加密、行权限等。​ 环境配置 连接开启Ranger权限校验的...

典型场景

大数据分析平台 对于MaxCompute、Hadoop和Spark中保存的海量数据,可通过采用数据集成服务(DataX)或通过对象存储服务(OSS),快速批量导入到 云原生数据仓库AnalyticDB PostgreSQL版,帮助您实现高性能分析处理和在线数据探索。数据湖...

CDH6数据迁移

背景信息 CDH(Cloudera's Distribution,including Apache Hadoop)是众多Hadoop发行版本中的一种,您可以使用 文件存储 HDFS 版 替换CDH6原有的本地HDFS服务,通过CDH6和 文件存储 HDFS 版 实现大数据计算在云上的存储与计算分离,应对...

JindoFS实战演示

2021-07-13 在AI训练场景中处理HDFS数据面临很多问题,例如计算存储分离,数据读取性能较差,无法满足AI训练作业的IO性能、很多深度学习训练框架并不适配原生HDFS接口,大大增加了开发难度、HDFS集群压力,甚至存在稳定性问题。...

客户案例

MaxCompute已被广泛应用于各领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息,请参见 行业客户案例...

概述

背景信息 在大数据生态系统中,Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和...

应用场景

数据分析 云服务器ECS提供了大数据类型实例规格族,支持Hadoop分布式计算、日志处理和大型数据仓库等业务场景。由于大数据类型实例规格采用了本地存储的架构,云服务器ECS在保证海量存储空间、高存储性能的前提下,可以为云端的Hadoop集群...

术语表

M MapReduce MapReduce是处理数据的一种编程模型,通常用于规模数据集的并行运算。您可以使用MapReduce提供的接口(Java API)编写MapReduce程序,来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map(映射)和Reduce(规约)...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据数据部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据数据部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据数据采用高性能的列存储格式,提升数据...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态,依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

外部表

MaxCompute 大数据计算服务MaxCompute为您提供快速且完全托管的数据仓库解决方案,并可以通过与OSS的结合,高效经济地分析处理海量数据。MaxCompute外部表 该功能基于MaxCompute新一代的V2.0计算框架,可以帮助您直接对OSS中的海量文件进行...

MapReduce

自然语言处理:基于大数据的训练和预测。基于语料库构建单词同现矩阵,频繁项集数据挖掘、重复文档检测等。广告推荐:用户单击(CTR)和购买行为(CVR)预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

什么是实时数仓Hologres

Hadoop生态集成 支持Hive/Spark Connector,通过Hadoop平台加工的数据可以高吞吐导入Hologres,并对外提供服务。支持加速读取外部表OSS-HDFS格式存储,支持Hudi、Delta等存储格式。达摩院Proxima向量检索 Hologres与 人工智能平台 PAI 紧密...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移 新说明 本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移,包括两种使用场景:同云账号内不同Region...

迁移HDFS数据到OSS-HDFS

OSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。前提条件 已创建阿里云EMR-5.6.0及后续版本或EMR-3.40.0及后续版本的集群。具体步骤,请参见 创建集群。如果...

使用E-Mapreduce访问

背景信息 阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。E-...

开发ODPS Spark任务

它在统一的计算资源和数据集权限体系基础上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。在DataWorks中,您可通过ODPS Spark节点实现MaxCompute Spark任务的调度运行,以及与其他...

开发ODPS Spark任务

它在统一的计算资源和数据集权限体系基础上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。在DataWorks中,您可通过ODPS Spark节点实现MaxCompute Spark任务的调度运行,以及与其他...

Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型,提供TB、PB、EB级数据计算能力,能够更快速的解决用户海量数据计算问题,有效降低企业成本。功能集 功能 功能描述 参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

MapReduce开发手册

javac-classpath<HADOOP_HOME>/share/hadoop/common/hadoop-common-X.X.X.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-X.X.X.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar-d wordcount_...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 Redis 版 云数据库 RDS 开源大数据平台 E-MapReduce 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用