技术架构选型

教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一,而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库 本场景推荐的架构如下。适用行业:全行业...

异构数据源访问

测试数据集内容如下:1,test1,1,100 2,test2,2,90 操作步骤 在 异构数据源访问 页签,单击 新增数据源 的下拉菜单,选择 Hadoop数据源。在 新增Hadoop数据源页面 页面依次配置 网络&安全组、配置文件、初始化。配置 网络&安全组。参数 说明...

E-MapReduce数据迁移

背景信息 阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。前提...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与各类大数据平台集成,完成数据规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

数据标准

数据是由特定的环境产生的,这些环境因素包括生产者、时间、系统等,从而造成了同一个语义的数据,有多种不同的定义方法,给后期进行数据汇集和整合带来障碍。因此,数据处理的前奏就是数据标准化,数据标准作为一个统一的数据共识,在标准...

上海新能源汽车车辆基础数据

客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品,有效解决了我们平台存储和计算的横向动态扩容瓶颈,同时借助其产品中间件LTS实现了我们平台数据的冷热分离,有效降低了数据存储成本,...

Hadoop使用JindoSDK访问OSS-HDFS服务

ssh-keygen-t rsa-P ''-f~/.ssh/id_rsa cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys chmod 0600~/.ssh/authorized_keys 安装Hadoop。下载Hadoop安装包。wget ...

东软案例

在互联网服务场景下,运维监控数据量激增,采集监控的数据类型更加多样(时序指标、日志、代码链路等),现有运维系统采用的单模引擎(如RRD数据库、openTSDB时序数据库、ElasticSearch检索类数据库)应对这些实时、高并发采集,且价值密度...

在文件存储 HDFS 版上使用Apache Tez

./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./...

DataWorks模块使用说明

使用流程概览:参考文档:数据集成概述 数据建模与开发 子模块:数据建模 功能说明:数据建模是全链路数据治理的第一步,沉淀阿里巴巴数据中台建模方法论,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据进行...

CDH6数据迁移

背景信息 CDH(Cloudera's Distribution,including Apache Hadoop)是众多Hadoop发行版本中的一种,您可以使用 文件存储 HDFS 版 替换CDH6原有的本地HDFS服务,通过CDH6和 文件存储 HDFS 版 实现大数据计算在云上的存储与计算分离,应对...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

概述

同一份数据以不同的格式保存,数据所占用的存储空间不同,使用DLA扫描数据时所花费的时间和费用也不同。通常情况下,同一份数据以ORC格式和PARQUET格式存储时,其数据扫描性能要优于普通文本CSV格式。因此,您可以将文本类型的数据转换为...

MapReduce

本文仅对MapReduce的基本原理做简单介绍,更多详情请参见 Hadoop Map/Reduce教程。说明 您无法通过MapReduce读写 外部表 中的数据。应用场景 MapReduce支持下列场景:搜索:网页爬取、倒排索引、PageRank。Web访问日志分析:分析和挖掘用户...

大数据

推荐 大数据存储密集型实例规格族d3s 大数据计算密集型实例规格族d3c 大数据计算密集型实例规格族d2c 大数据存储密集型实例规格族d2s 大数据网络增强型实例规格族d1ne 其他在售(如果售罄,建议使用推荐规格族)大数据型实例规格族d1 ...

EMR+DLF数据湖解决方案

通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持数据湖的多种管理如数据生命周期,湖格式自动优化,存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。本文为您介绍EMR+DLF数据湖方案...

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

实验介绍

数据采集 数据加工 配置数据质量监控 数据可视化展现 目标人群 开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集,...

数据集成支持的数据

实时集成 适用于将来源端数据源中整库或全部表的数据变化实时集成至目标端数据源中,实现 来源端数据源与目标端数据源 实时地保持数据同步。离线集成支持的数据数据源 读取 写入 大数据存储型数据源 MaxCompute 支持 支持 Hive 支持 ...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

Ambari与文件引擎集成

Ambari提供Hadoop组件的安装、运维、监控等功能,您可以使用Ambari管理您的Hadoop集群。本文介绍如何将Ambari与Lindorm文件引擎集成,来替换底层HDFS存储。您可以基于Ambari+Lindorm文件引擎构建云原生存储计算分离的开源大数据系统。前提...

搭建Hadoop环境

步骤二:安装Hadoop 执行以下命令,下载Hadoop安装包。wget https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz执行以下命令,将Hadoop安装包解压至/opt/hadoop。sudo tar-zxvf hadoop-3.2.4.tar.gz-C/...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据数据来源上包含数据数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

OSS/OSS-HDFS概述

特性 通过JindoSDK使用OSS和OSS-HDFS的特性对比如下:场景 特性 OSS OSS-HDFS 大数据场景(Hadoop)支持目录、文件语义和操作 支持 支持 添加目录、文件权限 不支持 支持 目录原子性、rename性能 支持,但性能不佳 支持,毫秒级 通过...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现...

通过HDP 2.6 Hadoop读取和写入OSS数据

HDP(Hortonworks Data Platform)是由Hortonworks发行的大数据平台,包含了Hadoop、Hive、HBase等开源组件。HDP 3.0.1版本中的Hadoop 3.1.1版本已支持OSS,但是低版本的HDP不支持OSS。本文以HDP 2.6.1.0版本为例,介绍如何配置HDP 2.6版本...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

产品优势

混合云大数据容灾提供近0 RPO的大数据容灾,可以将Hadoop集群容灾至阿里云OSS或EMR,在Hadoop集群间双向实时复制,构建大数据湖。应用级容灾和数据级容灾 支持将Windows、Linux应用服务器做高效的容灾复制和云上恢复,实现应用级容灾。您...

从OSS迁移数据

本章节介绍如何将对象存储OSS上的数据迁移到文件引擎。准备工作 开通文件引擎,详情请参见 开通指南。搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见...

CDH6与文件引擎集成

CDH(Cloudera's Distribution,including Apache Hadoop)提供Hadoop组件的安装、运维、监控等功能,您可以使用 CDH6(表示CDH 6.X 版本)管理您的Hadoop集群。本文介绍如何将CDH6与Lindorm文件引擎集成,来替换底层HDFS存储。您可以基于...

大数据上云及巡检服务内容说明

本服务包含四项子服务,客户可以结合自身业务需求进行购买:大数据迁移方案设计服务(可选)大数据迁移方案实施基础服务(可选数据迁移、任务迁移两种子服务其中之一)大数据迁移方案实施增补服务(可选)服务注意事项如下:本SOW在一次...

MapReduce开发手册

common-X.X.X.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-X.X.X.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar-d wordcount_classes EmrWordCount.java HADOOP_HOME:Hadoop安装目录,...

数据分析概述

DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势 与本地数据分析相比...

数据重排

在MaxCompute的使用过程中,如果已经积累了大量数据占用了大量存储资源,且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理,在您的存储预算有限,计算资源还有冗余的情况下,可以考虑使用数据重排方式对存储空间进行优化。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据库备份 DBS 开源大数据平台 E-MapReduce 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用