大数据平台方案-大数据平台方案文档介绍内容-阿里云

金融大数据

架构优势：提供了结构化与非结构化数据的融合方案满足了同时存在离线、在线、流数据的业务场景解决了大数据平台的集成问题为大数据平台的开发与管理提供了高效方案金融风险控制方案金融风险控制解决方案通过大数据画像、机器学习、...

查看治理方案模板

背景信息功能作用治理方案模板是DataWorks的数据治理中心为您提供的排查当前登录账号下待治理问题的模板，该模板将常见的问题项进行了汇总、分类，并提供了相应的解决方案。您可以直接使用该模板快速发现当前账号中存在的待治理问题，并...

任务运行失败

您可以参考配置MySQL数据源进入数据源管理页面，单击目标数据源操作列的编辑，在数据源编辑页面查看创建数据源时所使用的模式。For-each，do-while、pai等节点如何在运维中心查看日志找到实例右键查看内部节点。分支节点运行报错...

产品优势

云原生数据湖分析DLA（Data Lake Analytics）是新一代大数据解决方案，采取计算与存储完全分离的架构，支持数据库与消息实时归档建仓。DLA提供弹性的Spark与Presto，满足在线交互式查询、流处理、批处理、机器学习等诉求，也是传统Hadoop...

等待资源

解决措施：检查日志（任务配置）中concurrent参数值，如果并发任务设置过大，需根据机器支持的最大并发数与当前同时消耗的并发数配置任务并发。如果单个任务并发设置超过了机器支持的最大并发数，请将这些并发任务全部停掉，修改任务并发数...

场景：节点孤立

场景描述解决方案上下游节点实例生成方式不一致。当上下游均为新建节点时，上游实例生成方式为 T+1 次日生成，下游实例生成方式为发布后即时生成且只有该一个上游依赖时，由于上游节点当天未生成实例，导致下游节点成为孤立节点。请调整...

Spark服务异常排查及处理

本文介绍Spark服务异常的排查方法和解决方案。Spark服务日志当出现Spark服务异常时，您可以查看Spark服务的日志。服务日志目录：EMR-3.40.0之后版本、4.10.1之后版本、5.6.0之后版本：/var/log/emr/spark EMR-3.40.0及之前版本、4.10.1及...

简介

典型案例&架构航海船舶大数据平台 场景：全球AIS船舶实时位置数据，每天上亿条轨迹写入，要求轨迹时空/时序查询秒级响应，具体包括：监管区域实时地理围栏判断。轨迹区域回放（指定区域+指定时间段）。轨迹回放（指定时间段查询）。架构...

提交节点时提示：输入输出和代码血缘分析不匹配

由于DataWorks的调度依赖主要保障调度节点定时更新的表数据，所以非DataWorks平台上调度更新的表，平台无法监控。当节点代码中SELECT非周期性调度生产的表数据时，您需要删除通过SELECT自动生成的依赖的上游节点配置。非周期性调度生产数据...

什么是DataWorks

获奖经历 IDC：大数据平台公共云市场份额中国第一 Forrester：全球云数据仓库卓越表现者象限，国内唯一中国信通院：首个通过577项技术要求的数据平台整体解决方案评测中国电子学会科技进步特等奖中国国际软件博览会金奖浙江省科技进步...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案，DBS沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见 DBS沙箱费用。后续步骤自建MySQL应急恢复...

数仓场景：即席查询

很多时候您在使用StarRocks进行数仓分层建模时，大部分将数据建模到DWD层（基础整合层）或DWS层（维度宽度）。在实际业务中，运用StarRocks的计算能力，可以直接查询DWD或DWS层数据，还可以灵活地交互式即席查询。方案架构使用StarRocks...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

常见问题

以下为您介绍实时同步数据至Hologres操作失败的常见问题和解决方案。PolarDB数据源网络联通性测试失败怎么办？Oracle数据源网络联通性测试失败怎么办？MySQL数据源网络联通性测试失败怎么办？实时任务，运行报错：...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

DeployDISyncTask

发布实时同步任务和同步解决方案任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

一键MaxCompute Merge任务节点问题排查方案

可以打开Logview看SQL任务的执行情况，sql执行慢的可能性很多：BASE数据量很大，启动的mapper和reducer过多，可以项目级别调整对应odps参数解决。启动的SQL任务过多，导致提交任务时资源不足，打开Logview，可以看到sql实例处在Waiting状态...

大数据AI公共数据集分析

教程简介阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、...

UpdateDIProjectConfig

调用UpdateDIProjectConfig修改当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

ListDIProjectConfig

调用ListDIProjectConfig查看当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL消息...

GetDISyncInstanceInfo

获取实时同步任务和同步解决方案任务的运行状态。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

保险行业解决方案与案例

与此同时国寿数据应用全面进入实时化，通过DTS将 PolarDB PostgreSQL版（兼容Oracle）实时变化的数据同步到KAFKA平台，下游业务系统和大数据平台通过数据订阅以满足监管报送等各种场景；通过上线前完整兼容性评估，上线过程中全量SQL回归压...

常见问题

造成服务不稳定的情况可能有很多，最常见的情况是znode数量过大或者snapshot过大，由于ZooKeeper将所有的znode维护在内存中，并且需要在节点间进行数据同步，因此过大的znode数量或者容量会对服务稳定性造成影响。ZooKeeper的定位是一个...

集群存储根路径没有权限，导致集群服务启动失败的问题

本文介绍集群运行时，由于配置的集群存储根路径（对应Hadoop-Common服务中 fs.DefaultFS 配置项）缺乏访问权限，导致集群的部分服务启动失败的原因和解决方案。问题详情在E-MapReduce控制台，集群的Hadoop-Common服务状态页面的健康...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

互联网、电商行业离线大数据分析

方案介绍实现互联网、电商行业离线大数据分析的流程如下：同步用户订单等数据至MaxCompute。通过DataWorks对原始数据进行处理，并形成开放API。以API的形式通过DataV在大屏上展示结果数据。方案优势大规模存储：超大规模存储且自动扩容，...

GetDISyncTask

获取数据集成实时同步任务和同步解决方案的详情。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

客户案例

解决方案玩物得志基于阿里云DataWorks+MaxCompute框架搭建大数据平台，使用其核心存储、计算等组件、上层可视化及业务查询能力，在开源方案的基础上进行了二次开发。解决方案架构如下。详细案例信息，请参见玩物得志案例。互联网社交案例...

测试分析方案报告

产品概述产品背景描述该数据产品的业务背景，以便测试小组成员了解业务背景，划分测试场景，并站在用户的立场进行测试。开发背景描述该项目采用的技术背景。产品目标描述产品所需达到的预期目标，基于此可以评估当前架构设计是否能够...

Delta Lake概述

背景信息通常的数据湖方案是选取大数据存储引擎构建数据湖（例如，阿里云对象存储OSS产品或云下HDFS），然后将产生的各种类型数据存储在该存储引擎中。在使用数据时，通过Spark或Presto对接数据分析引擎并进行数据解析。但该套方案存在...

资源组操作及网络连通

如果您需要使用独享数据集成资源组通过内网同步ECS自建的数据库，您需要为独享数据集成资源组做相关的网络配置，详情可参见新增和使用独享数据集成资源组，连通方案核心点为：独享数据集成资源组绑定ECS所在VPC，会自动添加一个路由指向...

自媒体：易撰

自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构解决方案。...

大数据平台方案

新品推荐