Spark on ECI大数据分析
Spark on ECI<em>大数据</em>分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
应用范围 需要使用 Spark on Kubernetes解决方案的用户 对 Spark大数据分析平台计算资源成本控制考虑的用户 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理和访问 ,...
来自: 最佳实践 相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
互联网电商行业离线大数据分析
互联网电商行业离线<em>大数据</em>分析
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。
步骤2 在菜单栏单击新建>官方解决方案中心,搜索关键字:互联网电商行业离线数据大 数据分析,获取到官方模板。互联网电商行业离线大数据分析 搭建电商网站Demo 步骤3 选择目标模板库,单击基于方案新建。步骤4 右上角单击保存,输入应用名称(如:离线大数据分析-060),最后单击确认。说明:此模板会按照基础资源环境规划...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,API网关,云速搭CADT
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性<em>大数据</em>采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
Function Compute构建高弹性大数据采集系统 最佳实践 业务架构 场景描述 当前互联网很多场景都存在需要将大量的数据 信息采集起来然后传输到后端的各类系统服务 中,对数据进行处理、分析,形成业务闭环。比 如游戏行业中的游戏发行、游戏运营,产互行业 中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
基于弹性供应组构建大数据分析集群
基于弹性供应组构建<em>大数据</em>分析集群
场景描述 基于弹性供应组(APG)搭建spark计算集 群,提供一键开启跨售卖方式、跨可用区、 跨实例规格的计算集群交付模式的实践。 方案优势 1.超低成本:跨售卖方式提供计算实 例,按秒计费,可全部使用spot实例 交付,最高可省90%成本。 2.稳定可靠:跨可用域、跨实例规格, 降低spot被集体释放的风险;自动托 管,分钟级巡检,动态保证集群的算 力。 3.快速交付:单次可在5分钟内交付 2000个实例。 4.多策略组合:可分别指定spot和按量 实例的交付策略,以及差额补足的策 略,包括成本最低、打散和折中。 解决问题 1.大规模计算集群成本高。 2.创建ECS实例方式单一,无法跨计费 方式、可用区及规格等核心参数。 3.当可用区资源紧张,无法自动保证基于 spot类型的稳定算力。 产品列表 专有网络VPC 云服务器ECS
文档版本:20200619 3 基于弹性供应组构建大数据集群分析 方案背景 方案背景 场景需求 随着大数据的兴起,越来越多的客户会尝试通过云服务器搭建自己的大数据分析平台,如 Hadoop、Spark等。但是用户通过种单例或批量创建 ECS,方式均缺乏灵活性,无法跨越计费方式、可用区及规格族等核心参数的限制,同时无法避免资源不足...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,弹性公网IP
基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的<em>大数据</em>一站式开发及<em>数据</em>治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。本章主要通过 hive对存储在 hdfs上的日志进行分析,获取错误日志记录。整体流程 如下:步骤1 创建业务流程 log_analyse 进入数据开发页面 新建业务流程 log_analyse:文档版本:20201020 32 基于 Dataworks的大数据一站式开发及数据治理 基于 hive的离线...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
利用交互式分析(Hologres)进行数据查询
利用交互式分析(Hologres)进行<em>数据</em>查询
场景描述:随着收集数据的方式不断丰富,企业信息化 程度越来越高,企业掌握的数据量呈TB、 PB或EB级别增长。同时,数据中台的快 速推进,使数据应用主要为数据支撑、用户 画像、实时圈人及广告精准投放等核心业务 服务。高可靠和低延时地数据服务成为企业 数字化转型的关键。 Hologres致力于低成本和高性能地大规模 计算型存储和强大的查询能力,为您提供海 量数据的实时数据仓库解决方案和实时交 互式查询服务。 解决问题 1.加速查询MaxCompute数据 2.快速搭建实时数据仓库 3.无缝对接主流BI工具 产品列表 MaxCompute Hologres 实时计算Flink 专有网络VPC DataWorks DataV
基于交互式分析工具进行数据查询最佳实践 业务架构 场景描述 随着收集数据的方式不断丰富,企业信息化程度越来越高,企业掌握的数据量呈TB、PB或EB级别增长。同时, 中台的快速推进,使数据应用主要为数据支撑、用户画 像、实时圈人及广告精准投放等核心业务服务。高可靠和 低延时地数据服务成为企业数字化转型的关键。...
来自: 最佳实践 | 相关产品:大数据计算服务 MaxCompute,DataV数据可视化,实时计算,Hologres,云速搭CADT
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测
基于湖仓一体架构使用MaxCompute对OSS湖<em>数据</em>分析预测
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
} }],"Version":"1"}互联网电商行业离线大数据分析 6.附录B-T表示table_properties,用于配置默认的Table的FileFormat/RowFormat,为map 数据类型,包含如下配置项(可以在odpscmd中执行helpexternalproject查看帮助信 息):1.storage_handler用于指定存储时storedby所使用的handler,如 org.apache.hadoop.hive.hbase....
来自: 最佳实践 | 相关产品:对象存储 OSS,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,API网关,数据湖构建,云速搭
基于MaxCompute的大数据BI分析
基于MaxCompute的<em>大数据</em>BI分析
场景描述 本文以电商行业为例,将业务数据和日志数据使用 MaxCompute做ETL之后,同步到ADB进行实时 分析,之后通过QuickBI进行快速可视化展示。 解决问题 1.互联网行业、电商、游戏行业等网站、App、 小程序应用内BI分析场景。 2.可扩展到各类网站BI分析场景使用。 产品列表 1.MaxCompute 2.分析型数据MySQL版 3.日志服务SLS 4.QuickBI 5.云服务器ECS 6.RDSMySQL版
文档版本:20211213 38 基于 MaxCompute的大数据 BI分析 日志数据采集 文档版本:20211213 39 基于 MaxCompute的大数据 BI分析 DataWorks大数据处理 5.DataWorks大数据处理 说明:对于数据化建设中后期的公司,数据结构复杂、数据量巨大、ETL功能复杂的 情况,推荐使用 MaxCompute进行复杂 ETL加工后再同步到 ADB,再使用 ...
来自: 最佳实践 | 相关产品:日志服务(SLS),大数据计算服务 MaxCompute,云原生数据仓库AnalyticDB My,Quick BI,云速搭CADT
云上大数据仓库解决方案
阿里云云原生大数据仓库,包含离线实时一体化数仓和实时数仓解决方案,为企业提供一站式云上智能开发、调度、服务、质量、安全的全链路服务。
实时数仓 Hologres.EMR 弹性低成本离线大数据分析.互联网、电商行业离线大数据分析.离线大数据分析最佳实践.企业级实时数仓最佳实践.利用 Hologres 进行数据查询解决方案.实时大数据分析最佳实践.EMR 本地盘实例大规模数据集测试.大规模数据集测试.根据您提交的需求,将有售前专家免费服务!根据您提交的需求,将有售前专家...
来自: 解决方案
一体化电力大数据平台解决方案
一体化电力大数据平台解决方案基于阿里云专有云平台和数据中台,构建一站式电力云和大数据平台,满足泛在电力物联网对数据中台的建设需求,通过大数据分析挖掘,赋能电网营销、运检、设备等各个业务领域,促进数据创新应用的快速落地。
基于阿里云专有云平台和数据中台,构建一站式电力云和大数据平台,满足泛在电力物联网对数据中台的建设需求,通过大数据分析挖掘,赋能电网营销、运检、设备等各个业务领域,促进数据创新应用的快速落地.提供多样化的数据质量检验方式,提高数据时效性.规范化数据服务方式,形成统一规范的基于主题的数据服务 体系,满足...
来自: 解决方案
阿里云大数据&AI
阿里云大数据和AI产品服务。开放数据处理服务ODPS提供强大的数据分析和管理功能;开源大数据产品支持更加灵活地构建大数据平台;AI和机器学习产品提供AI工程平台和智算服务。
云原生一体化数仓是集阿里云大数据产品MaxCompute、DataWorks、Hologres和实时计算Flink版等产品能力于一体的一站式大数据处理平台.通过ODPS大规模批量计算引擎MaxCompute和ODPS实时交互式计算引擎Hologres的深度融合,提供丰富和灵活的离线实时一体化的能力.通过更加开放的对数据湖的支持以及对数据分析多样化统一管理的湖...
来自: 云产品
大数据workshop
<em>大数据</em>workshop
大数据workshop
tail-f nohup.out 文档版本:20210628(发布日期)32 阿里云最佳实践大数据 WorkShop 最佳实践项目实践 步骤7 查询 datahub中是否已有消息,可见消息已正常投递到 datahub,观察到数据量在增 加。文档版本:20210628(发布日期)33 阿里云最佳实践大数据 WorkShop 最佳实践项目实践 3.2.4.业务数据同步 步骤1 进入 DTS...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
阿里云最佳实践离线大数据workshop
阿里云最佳实践离线<em>大数据</em>workshop
本最佳实践,首先搭建一个简化的电商 demo 系统,然后为此 demo 系统构建一套离 线大数据分析系统。 实践目标 1. 学习搭建一个离线大数据分析系统,学习从数据采集到数据存储和业务分析的业 务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建,学习掌运用各个服务组 件及各个组件之间如何联动。 背景知识要求 熟练掌握 SQL 语法 对大数据体系系统知识有一定的了解
4.5.4.dwd层调度 步骤1 根据ods层和dwd层的标的依赖关系,将ods层和dwd层连接起来:文档版本:20210802(发布日期)67阿里云最佳实践金融大数据WorkShop 构建离线大数据分析系统 文档版本:20210802(发布日期)68阿里云最佳实践金融大数据WorkShop 构建离线大数据分析系统 步骤2 整体如下图所示:4.6.构建DWS层 DWS层主要...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务(SLS),大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭
云原生大数据计算服务MaxCompute
阿里云云原生大数据计算服务MaxCompute是面向分析的企业级云数仓,作为一体化大数据智能计算平台ODPS的大规模批量计算引擎,MaxCompute以 Serverless 架构提供快速、全托管的在线数据仓库服务,使您经济高效的分析处理海量数据,进行敏捷的业务洞察。
数据量大,资源有限,数据生产基本无延迟,且查询秒级内响应.更快的查询响应.几十亿商品的特征信息仅耗时5分钟完成数据切换.实现数据输出的交互式、个性化、高扩展性.实时计算Flink版.推荐搭配使用.某知名聚合支付客户日交易笔数在百万级别,目前已经积累了海量交易数据。如何对海量数据进行分析与业务创新从而提高用户黏性...
来自: 云产品
金融专属大数据workshop
金融专属<em>大数据</em>workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
对结果进行可视化展示 例如用户通过手机APP购买基金,金融公司可以通过后台的大数据分析平台达到如下的 大屏分析效果:文档版本:20210803(发布日期)4阿里云最佳实践大数据WorkShop 最佳实践方案设计 文档版本:20210803(发布日期)5阿里云最佳实践大数据WorkShop 最佳实践方案设计 2.2.2.项目架构 2.2.2.1.阿里云技术...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
大数据系统基准性能测试最佳实践
<em>大数据</em>系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
应用范围 使用阿里云 E-MapReduce服务进行基准性能测试 名词解释 E-MapReduce:(简称 EMR),是运行在阿里云平台上的一种大数据处理的系统 解决方案。EMR构建于云服务器 ECS上,基于开源的 Apache Hadoop和 Apache Spark,让您可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统分析和 处理数据。EMR还可以与阿里云...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
EMR本地盘实例规模数据集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
Master节点 通常可以生成 1TB的数据进行基准性能测试,首先进入 hive-testbench目录下执行如 下脚本并加载测试数据 参数说明:数据集规模参数单位为 GB,1000表示生成的数据量为 1TB/tpcdata/tpcds 为表数据生成的目录,目录不存在就自动生成,如果不指定目录, 目录就默认生成到/tmp/tpcds目录下 cd hive-testbench#如果...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce
DTS数据同步集成MaxCompute数仓
DTS<em>数据</em>同步集成MaxCompute数仓
场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 MaxCompute 数据传输服务DTS DataWorks 云数据库RDS MySQL 版
数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库 HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的 状态。2.针对不规范设计表,如没有 create_time/update_time的历史遗留表,传统 ETL需 全量抽取。3.实时性差,抽取数据+重试任务往往需要 1-3小时。另外数据库的数据...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,数据传输,DataWorks,大数据计算服务 MaxCompute
大数据近实时数据投递MaxCompute
<em>大数据</em>近实时<em>数据</em>投递MaxCompute
本文介绍离线大数据场景使MaxCompute构建云 上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。 l混合云环境下,现有业务系统零改造,打通数据上云链路。 l使用UDF实现复杂数据类型转换和数据动态分区。 l使用DataWorks配置周期调度业务流程,数据自动入仓。 l借助MaxCompute优化计算引擎,实现降本增效。 产品列表 云服务器ECS 专有网络VPC 访问控制RAM 数据总线DataHub E-MapReduceEMR DataWorks 大数据计算服务MaxCompute
大数据近实时数据投递 MaxCompute 最佳实践 业务架构 最佳实践 解决问题 场景描述 混合云环境下,现有业务系统零改造,打通数据 本文介绍离线大数据场景使用 MaxCompute构建云 上云链路。上近实时数仓,打通云下数据上云链路,解决数据复 使用 UDF实现复杂数据类型转换和数据动态分 杂类型支持和动态分区问题,满足高级数据...
来自: 最佳实践 | 相关产品:块存储,专有网络 VPC,云服务器ECS,访问控制,E-MapReduce,DataWorks,大数据计算服务 MaxCompute,数据总线,云速搭CADT
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
将表 datahub_dataconnector_apache_logs 灌 入 odps_apache_logs 本实践方案中 Hive数据仓库中的原始表 apache_logs有一个分区字段 ds(日期值),每天生成一个分区。在使用 MMA工具迁移到 MaxCompute表 odps_apache_logs的 过程中,保留了该分区字段,因此在 MaxCompute上可以看到该表有一个分区字段:Datahub ...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
< 1 2 3 4 ... 37 >
共有37页 跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 云原生大数据计算服务 MaxCompute 云数据库 RDS 数据传输服务 云数据库 Redis 版 弹性公网IP

新品推荐

切换为移动版

新人特惠 爆款特惠 最新活动 免费试用