哪些行业在用大数据-哪些行业在用大数据文档介绍内容-阿里云

SQL查询

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。支持查询的数据源 SQL查询支持的数据源包含MaxCompute、Hologres、EMR Hive、EMR Spark SQL...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案，可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表，同时自动对数据进行分区和压缩，方便您分析和审计对云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

时序引擎应用开发简介

2.数据建模针对业务场景进行数据建模，需要确定创建数据库和时序数据表，确定时序数据表的标签、时间戳和量测值，并根据数据特征确定PRIMARY KEY用于数据分片。关于数据模型，请参见数据模型。时序引擎提供了三种Schema约束策略，分别为...

DBS沙箱功能概览

相比现有基于大数据平台的历史数据离线分析方案，DBS沙箱功能提供原始数据库SQL接口，不需要开发人员编写离线分析脚本，并由于使用快照存储机制，存储成本也更低。费用说明更多信息，请参见 DBS沙箱费用。后续步骤自建MySQL应急恢复...

场景管理器

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

DB2节点

背景信息 DB2是一款关系型数据库管理系统（RDBMS），用于存储、检索及管理数据，适用于处理高吞吐量、大数据集以及数据仓库的复杂查询和事务处理。更多介绍请参见 DB2官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

DataWorks On EMR使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

数据迁移

最佳实践合集 MaxCompute跨项目数据迁移：同一地域的MaxCompute跨项目数据迁移，详情请参见使用CLONE TABLE实现同地域MaxCompute跨项目数据迁移或通过DataWorks实现MaxCompute跨项目迁移。不同地域的MaxCompute跨项目数据迁移，详情请...

数据源配置常见问题

请根据数据库的网络类型和所在地域，将相应的DataV服务器IP地址加入到您的数据库白名单或ECS的安全组设置中，或者使用代理工具来连接您的数据库，具体请参见如何使用DataV Proxy。如何配置CSV数据来源？保留CSV的首行作为表头，并且每一个...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

应用场景

本文为您介绍DataV-Card可视分析创作间的典型使用场景及作品展示。运营长图制作赋能业务人员自助数据分析，仅需上传Excel文件，...支持行业数据挖掘，所见即所得沉淀数据知识，简单几步实现简报搭建。快速分享作品和卡片，充分交流数据见解。

数据源配置常见问题

请根据数据库的网络类型和所在地域，将相应的DataV服务器IP地址加入到您的数据库白名单或ECS的安全组设置中，或者使用代理工具来连接您的数据库，具体请参见如何使用DataV Proxy。如何配置CSV数据来源？保留CSV的首行作为表头，并且每一个...

如何处理Tair集群数据倾斜

避免使用大Key。对大Key进行拆分，例如将含有数万成员的一个HASH Key拆分为多个HASH Key，并确保每个Key的成员数量在合理范围。热Key 热Key指某个Key或者少部分Key的操作QPS明显高于其他Key。常见于压测时选了单一Key或秒杀场景下热点商品...

创建Hologres数据源

若您要使用DataWorks进行Hologres任务的开发、管理，需先将您的Hologres实例创建为DataWorks的Hologres数据源。创建完成后，可在DataWorks的各功能模块使用该数据源连接Hologres实例，进行相应的数据同步、数据开发、数据分析等操作。前提...

如何处理Redis集群数据倾斜

避免使用大Key。对大Key进行拆分，例如将含有数万成员的一个HASH Key拆分为多个HASH Key，并确保每个Key的成员数量在合理范围。热Key 热Key指某个Key或者少部分Key的操作QPS明显高于其他Key。常见于压测时选了单一Key或秒杀场景下热点商品...

GBase 8a节点

背景信息 GBase 8a是一款关系型数据库管理系统（RDBMS），支持大数据量存储和高并发读写能力，通常用于政府、金融、电信、能源等领域。GBase 8a支持SQL标准，并提供了一系列的企业级功能（例如，数据分区、负载均衡、灾备备份等）。更多...

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

快速入门

如果您初次使用阿里云关系型数据库RDS，请参见快速入门系列文档，帮助您快速上手RDS。MySQL快速入门 SQL Server快速入门 PostgreSQL快速入门 MariaDB快速入门数据库引擎以下是对四种数据库引擎的介绍：云数据库RDS MySQL MySQL是全球受...

典型场景

典型场景数据仓库服务您可以通过数据传输服务（DTS）或数据集成服务（DataX），将云数据库（例如RDS、PolarDB）或自建数据库批量同步到云原生数据仓库AnalyticDB PostgreSQL版。云原生数据仓库PostgreSQL版支持对海量数据的复杂ETL进行...

外部表概述

创建好的外部表可以像普通的MaxCompute表一样使用（大部分场景），充分利用MaxCompute SQL的强大计算功能。说明使用外部表功能时，外部表的数据不会复制一份存在MaxCompute上并产生存储费用。外部表支持全量搜索。Tunnel功能及Tunnel SDK...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

什么是备份数据量

本文介绍数据库备份DBS 中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份...当您的存储数据量较大时，推荐您购买 DBS存储包（包年包月）抵扣备份存储费用。相比按量付费，DBS存储包更加优惠。

数据变更最佳实践

批量和实时导入数据批量导入：适用于大数据量导入的场景，导入过程中可以查询旧数据，导入操作完成后一键切换新数据。导入失败时，支持回滚新数据，不影响查询旧数据。例如，从MaxCompute、OSS中导入数据到 AnalyticDB MySQL版时，推荐...

轨迹层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。单击 ...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

计费逻辑说明

软件费用明细：版本服务数据建模 DataWorks支持使用智能数据建模和DATABLAU数据建模两种产品构建数据模型，您可以根据业务需求选购合适产品使用。软件费用明细：数据建模增强分析 DataWorks增强分析提供卡片和报告功能，您无需下载数据，...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。章节目标将MySQL存储的用户基本信息及OSS存储的网站访问日志，通过数据集成服务将数据同步至...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

哪些行业在用大数据

新品推荐