生活中运用大数据-生活中运用大数据文档介绍内容-阿里云

整体架构

湖仓版（3.0）架构如下：数据源数据管道APS可以一键低成本接入数据库、日志、大数据中的数据。存储层+计算层支持自研引擎，羲和计算引擎和玄武存储引擎。新增集成的开源引擎，Spark计算引擎和Hudi存储引擎。可以借助开源的能力为您提供更...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建Impala数据源

通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala，在导出Dataphin数据至...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

区域热力层（v2.x版本）

参数说明填充颜色 数据中最大、最小及为空的value值对应区域的颜色。边线样式区域热力层各区域边线的颜色、粗细和线类型。标注：设置区域热力层的区域的标注显示字段、文本样式参数。单击标注左侧的图标，可控制标注的显隐。参数 ...

自定义区域下钻层（v3.x版本）

参数说明填充颜色 数据中最大、最小及为空的value值对应区域的颜色。请参见颜色映射器使用说明，配置不同区域的映射颜色样式。描边样式自定义区域下钻层各区域边线的颜色、粗细和线的类型。说明线型支持数字输入，如：4,4，第一个数字...

区域热力层（v1.x版本）

标注标注字段：区域的标注字段，需要与地理数据中字段名称匹配。颜色：标注的颜色，请参见颜色选择器说明进行修改。阴影色：标注的阴影色。字体：标注的字体系列。说明请选择系统中的字体，如果您的系统中没有所选的字体，标注会使用...

区域下钻热力层（v2.x版本）

参数说明填充颜色 数据中最大、最小及为空的value值对应区域的颜色。边线样式区域下钻热力层各区域边线的颜色、粗细和线类型。标注：设置区域下钻热力层的区域的标注显示字段、文本样式参数。单击标注左侧的图标，可控制标注的显隐...

区域热力层（v3.x版本）

参数说明填充颜色 数据中最大、最小及为空的value值对应区域的颜色。请参见颜色映射器使用说明，配置不同区域的映射颜色样式。描边样式区域热力层各区域边线的颜色、粗细和线的类型。说明线型支持数字输入，如：4,4，第一个数字表示...

区域热力层

无值：系统在获取区域热力边界数据时，如果缺少了某个区域的数据（当区域热力图数据中没有对应的地理边界数据中的adcode值时），这个区域的颜色就会展示为无值的颜色，请参见颜色选择器说明进行修改。仅在关闭只显示边界开关时展示。面...

区域热力层

填充颜色：设置数据中最大、最小及为空的 value 值对应区域的填充颜色。边线样式：区域热力层各区域边线的颜色。文本样式：区域热力层各区域文本标注的字体系列、文本粗细、字号、颜色、文本描边粗细和描边颜色，请参见颜色选择器说明 ...

区域热力层

无值：系统在获取区域热力边界数据时，如果缺少了某个区域的数据（当区域热力图数据中没有对应的地理边界数据中的adcode值时），这个区域的颜色就会展示为无值的颜色。面透明度：区域面的透明度。边线颜色：区域边界线的颜色，请参见颜色...

什么是DataWorks

从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手，不断提升数据应用效率，助力产业数字化升级。产品架构 DataWorks十多年...

大数据安全治理的难点

通常，大数据系统中的工作流涉及多部门、多责任人且跨系统的数据，如何才能协调好这些业务系统准时、保质保量地产出数据，避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据，关乎到企业数据业务的连续性问题甚至高层的信任问题...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

入湖基础操作

关系数据库全量入湖：可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖，选择在数据源管理中配置好的数据源，将数据源对应数据库中选定表的数据全量同步到OSS中，如果待同步表中数据量大，则所消耗的资源也会比较大，建议在业务...

从RDS MySQL迁移至自建Kafka

Kafka是应用较为广泛的分布式、高吞吐量、高可扩展性消息队列服务，普遍用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，是大数据生态中不可或缺的产品之一。通过数据传输服务DTS（Data Transmission Service），...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集，在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来，并对这些图形或组件进行自由组合、布局，以某种分析思路对业务进行直观呈现。...

功能特性

安全管控功能集功能功能描述参考文档实例管理数据库配置在DMS中创建或删除数据库，调整数据库的Owner、字符集或校验规则。资源分组支持将多个数据库环境、引擎类型相同的数据库绑定成为一个分组。当使用SQL变更、结构设计时，DMS会...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能上传与下载 DataWorks的上传与下载模块，提供了便捷的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作，致力于为您...

区域热力层

无值系统在获取区域热力边界数据时，如果缺少了某个区域的数据（当区域热力图数据中没有对应的地理边界数据中的adcode值时），这个区域的颜色就会显示为无值的颜色。边线配置参数说明颜色区域边界线的颜色。宽度区域边界线的宽度。...

内存型

云原生内存数据库Tair 内存型（简称内存型）适合并发量大、读写热点多、高性能场景，内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式创建实例主要优势类别说明兼容性 100%兼容原生Redis，无需修改业务代码，提供 ...

如何对JSON类型进行高效分析

PolarDB IMCI处理半结构化数据时经常会将半结构化数据中一些属性按需转换为表的单独虚拟列，若属性数目过多时就可能突破表的最大列数限制。因此 PolarDB IMCI在原生MySQL基础上对InnoDB和列存表的最大列数进行扩展，目前支持最大列数4089列...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

宜搭创建大屏实操

本文主要介绍如何使用企业经营管理系统中客户库表及签约表表单数据，来创建并配置企业经营管理大屏。宜搭创建大屏实操视频，请参见：宜搭创建大屏实操视频。创建企业经营管理系统操作步骤如下：登录宜搭系统，通过空白应用创建名称为企业...

轮播页面

图表样式轮播页面是基础交互组件的一种，仅支持在数据中配置页面的属性，包括ID、页面名称和链接，适用于在可视化应用中轮播展示多个网页。配置面板搜索配置：单击配置面板右上角的搜索配置，可在搜索配置面板中输入您需要搜索的...

EMR+DLF数据湖解决方案

步骤三：初始化数据初始化数据一般常见的几种情况如下：已有大数据集群，需要进行数据迁移，此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据，此时可以考虑通过实时计算Flink实现...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

轮播页面

图表样式轮播页面是基础交互组件的一种，仅支持在数据中配置页面的属性，包括ID、页面名称和链接，适用于在数据看板中轮播展示多个网页。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要搜索的...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

功能特性

通过Kafka导入数据通过Flink导入数据云数据库 SelectDB 版支持通过SelectDB提供的Flink连接器（SelectDB Connector for Apache Flink），将Kafka中的非结构化数据以及MySQL等上游业务数据库中的变更数据，实时同步到云数据库 SelectDB 版...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

查询结果不符合预期的常见原因

Lindorm宽表经常会被应用在大数据链路中，如果写入链路出现问题，则可能导致写入延迟或无法正常写入数据，此时进行数据查询，该行数据还未写入，因此会产生无法查询到数据的情况。如果您在使用中遇到数据写入一段时间后才能查到的情况，...

路网轨迹层

最大宽度：路网轨迹层线的最大宽度，通过数据中的 value 字段来控制轨迹线的粗细。轨迹长度：运动轨迹线的长度。速度：轨迹线的运动速度。最大值颜色：数据中 value 值最大的线的颜色，请参见颜色选择器说明进行修改。最小值颜色：数据中...

如何支持超大事务

如果想支持更大的事务，比如在一个事务中插入更多的数据，请把数据表划分到更多的分片上。场景二在该场景下，执行SQL语句数量较少，每条语句携带数据量较小，事务修改数据量较大。执行SQL语句数量 1 每条语句携带的数据量约256 KB 数据...

生活中运用大数据

新品推荐