大数据的问题-大数据的问题文档介绍内容-阿里云

大数据分析工具的常见问题和解决方法

概述 大数据分析是阿里云用户中心与DataWorks和MaxCompute联合推出的成本分析工具，提供大数据分析能力，解决因账单过大而导致无法分析的问题，当前仍处于灰度期间。在使用大数据分析时可能会碰到DataWorks或MaxCompute的权限问题，您可以...

关于我们

阿里云隐私计算产品是源于阿里集团内部数据安全流通的最新解决方案和实践，所以她的提出是基于解决实际的数据安全问题和大数据场景需要，这就决定了她的基因里面就是贴身于实际产业应用。目前团队中拥有全职博士4名，研究型密码学博士实习...

大数据安全治理的难点

大数据体系的特点与安全治理难点由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点，想要回答好上述问题，存在诸多难点。存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）...

任务运行成功没有数据

本文汇总介绍任务执行成功没有数据的相关问题。场景一：节点状态成功，有执行日志场景二：节点状态成功，无执行日志场景一：节点状态成功，有执行日志节点运行完成说明节点里面的逻辑完成了，但是周期实例自动调度时，节点没有取到上游...

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

某网约车公司车辆轨迹数据

解决方案在原有的架构上引入了阿里云数据库，并将全量数据写到云原生多模数据库 Lindorm 中，同时增量数据通过Kafka、Spark等实时同步到云原生多模数据库 Lindorm，这样解决了客户线下数据库数据过大的问题。客户需要存储最近3年的数据...

常见问题

问题描述：创建完外部表后查询没有数据返回。外部表创建语句示例如下。CREATE EXTERNAL TABLE storage_log(content STRING)PARTITIONED BY(ds STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION 'oss:/...

通过脚本模式配置离线同步任务

说明脏数据认定标准：脏数据是对业务没有意义，格式非法或者同步过程中出现问题的数据。单条数据写入目标数据源过程中发生了异常，则此条数据为脏数据。因此只要是写入失败的数据均被归类于脏数据。例如，源端是VARCHAR类型的数据写到INT...

SQL其他常见问题

本文为您介绍在MaxCompute中执行SQL时，与数据类型、SQL限制等相关的常见问题。问题类别常见问题数据类型 MaxCompute的时间类型字段是否可以不带时分秒？在执行MaxCompute SQL过程中，对DOUBLE类型的数据进行等值比较，为什么结果不符合...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

外部表常见问题

问题类别常见问题 OSS外部表自定义Extractor在读取非结构化数据时，如果数据字段存在DATETIME类型，报错ODPS-0123131，如何解决？在MaxCompute上访问OSS外部表，编写UDF本地测试通过，上传后报错内存溢出，如何解决？通过外部表处理OSS...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

数据开发常见问题

问题描述：集群的HDFS容量被写满，发现/spark-history 下有大量的数据。解决方法：在Spark 配置页面的服务配置区域，查看是否有 spark_history_fs_cleaner_enabled 参数：是：修改参数值为 true，可以周期性清理已经完成的作业的日志...

实时同步常见问题

写端延迟大目标数据库性能、负载等问题当数据库负载较高时，单一的调整同步任务并发并不能解决问题，您需要联系数据库管理员寻求相关帮助。读写端延迟大使用公网同步，网络问题导致同步任务延迟。公网同步无法保障实时同步时效性，建议...

数据治理

数据地图血缘展示延迟问题数据地图新建表搜不到当前表业务逻辑变更如何通知下游？哪些类型的Hive表支持在数据地图中预览？数据保护伞数据保护伞为什么有时候查询脱敏有时候查询不脱敏为什么数据地图数据总览页存储量和存储趋势图相差较...

MaxCompute UDF（Java）常见问题

产生原因：在SELECT语句中调用Java UDTF时，存在Java UDTF与其他列或表达式混用的问题，Java UDTF暂不支持该用法。错误示例如下。select b.*,'x',udtffunction_name(v)from table lateral view udtffunction_name(v)b as f1,f2;解决措施：...

时空引擎版本发布记录

4.8 新特性增强 ST_Union 函数，支持按内存使用量分批次执行，避免大数据量造成OOM。新增 ST_SetValue 函数，支持指定像素位置设置像素值。栅格数据支持对HDFS文件系统支持。增强 ST_CreateRast 函数，支持基于HDFS栅格数据创建。增强 ST_...

时空数据库版本发布记录

缺陷修复 Geometry SQL 修复 ST_AsHMT 函数部分多边形数据裁减结果不正确的问题。Raster SQL 修复 ST_MosaicFrom 函数在波段数大于3时造成的波段缺失问题。Trajectory SQL 修复 ST_lcsSimilarity 函数无法处理单点轨迹的问题。Utility SQL ...

时空数据库版本发布记录

缺陷修复 Geometry SQL 修复 ST_AsHMT 函数部分多边形数据裁减结果不正确的问题。Raster SQL 修复 ST_MosaicFrom 函数在波段数大于3时造成的波段缺失问题。Trajectory SQL 修复 ST_lcsSimilarity 函数无法处理单点轨迹的问题。Utility SQL ...

2020年

2020年10月修复用默认参数构建矢量金字塔点数据后，顶级瓦片数据量过大的问题。2020年10月 V1.1.4 内核小版本类别名称描述相关文档发布时间新增 ali_decoding插件支持ali_decoding插件，用于数据库间增量同步DML语句。无 2020年9月...

2020年

修复用默认参数构建矢量金字塔点数据后，顶级瓦片数据量过大的问题。2020年9月内核小版本（V1.1.4）类别名称描述相关文档新增 GROUP_ID函数新增GROUP_ID()函数。GROUP_ID 分区表支持在分区表上并发创建索引CREATE INDEX ...

等待资源

本文为您介绍等待资源的相关问题。为什么会出现等待资源？为什么任务一直在等待gateway调度资源？为什么数据集成任务一直显示wait？为什么会出现等待资源？问题现象调度将任务下发到对应执行引擎上，此过程可能会出现以下等待资源问题：...

补数据

本文为您介绍补数据的相关问题。补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据选择业务时间昨天和今天，也会出现等待时间的情况...

其他问题

为什么不能在调度资源组上进行大数据计算？其他如何设置任务优先级？如何查看任务优先级？周期任务与周期实例、补数据实例、测试实例是什么关系？DataWorks每晚将根据周期任务，批量生成第二天自动调度的周期实例，周期实例自动生成并且...

运行失败

可以尝试使用MaxCompute的SQL UDF过滤出doc表和query表中的问题数据。多类目情况下，某个类目doc数目为0，query数目不为0导致的jni调用异常报错信息解决方法这种情况被认为是用户输入问题，在设计时发现这样的情况时通过报错终止来提示...

常见问题

当您使用阿里云E-MapReduce（简称EMR）时，可以根据本文查找对应的问题场景和解决方案。计费常见问题集群管理常见问题组件常见问题：HDFS常见问题 YARN常见问题 Hudi常见问题 Hive常见问题 HBase常见问题 Kudu常见问题 Spark常见问题 ...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

管理问题数据

背景信息问题数据表数据质量支持在部分规则校验不通过的情况下，系统自动创建问题数据表存储质量规则校验过程中发现的问题数据。问题数据表名生成规则：{监控数据表原表名}_dirtydata_dw_system_dqc。问题数据表所属空间：根据当前表所...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

数据开发与运行

本文为您介绍数据开发的相关问题。资源如何在pyodps调用第三方包？如何在节点内使用资源？如何下载上传到DataWorks的资源？超过30M的资源如何上传？通过odpscmd上传的资源如何在DataWorks上使用？在DataWorks如何上传自己本地编写的jar并...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

概述

DataWorks（数据工场，原大数据开发套件）是阿里云重要的PaaS（Platform-as-a-Service）平台产品，为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

概述

如果使用自建开源大数据生态体系，例如Hive、Spark等，需要专门的大数据工程师来操作和运维，且操作流程也不像使用MySQL一样简单，成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

大数据的问题

新品推荐