大数据工作会议-大数据工作会议文档介绍内容-阿里云

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

创建HBase数据源

通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase，在导出Dataphin数据至HBase，您...

新建ArgoDB数据源

在新建数据源对话框的 大数据存储区域，选择 ArgoDB。如果您最近使用过ArgoDB，也可以在最近使用区域选择ArgoDB。同时，您也可以在搜索框中，输入ArgoDB的关键词，快速筛选。在新建ArgoDB数据源对话框中，配置数据源的基本信息。...

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

创建Hologres数据源

在新建数据源对话框的 大数据存储区域，选择 Hologres。如果您最近使用过Hologres，也可以在最近使用区域选择Hologres。同时，您也可以在搜索框中，输入Hologres的关键词，快速筛选。在新建Hologres数据源对话框中，配置连接数据源...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

DataWorks On Hologres使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

接入数据库

结构化数据：RDS、PolarDB、PolarDB-X 1.0（原DRDS）、Redis、MongoDB、OceanBase、自建数据库 大数据：TableStore、MaxCompute、ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）说明仅OSS不支持。前提条件已购买 DSC 服务并完成 DSC ...

散点层

重要该配置项为一个数组，配合数据分级使用，从类型1到类型n为递增的设置，例：类型1设置为10，则表示value值为0~10的数据将展示为10的大小，类型2设置为20，则表示value值为11~20的数据将展示为20的大小，如果数据分级配置项设置为3级，...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks数据集成

对于数据导出，请登录 AnalyticDB PostgreSQL版的管理控制台进行IP 白名单设置，详情请参见添加白名单数据导入源端的数据源需要在DataWorks管理控制台进行添加，数据源添加的详细步骤请参考配置AnalyticDB for PostgreSQL数据源配置...

增值服务

文本为您介绍钉钉会议的增值服务说明以及购买方式。视频会议计费如有购买需求，请提交购买咨询。产品名称价格说明并发接入许可 1200元/年/个企业需要同一个时间开启多个会议，但每个会议参加人数不等，可以购买并发许可证书。示例：...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

从自建TiDB全量迁移至RDS MySQL

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

2024年

03-26 新增Pandas API 新说明 MaxFrame提供了兼容Pandas的API接口，您可以用类似于Pandas的方式来操作MaxCompute中的数据，同时利用MaxCompute强大的分布式计算能力，简化您在大数据环境下的数据处理工作。Pandas API支持 2024-03-26 新增...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

产品概述

产品介绍 DataV是一款数据可视化应用搭建产品，让数据可视、价值可见。DataV数据可视化应用搭建平台以丰富的图表组件和二三维时空地理组件为特色，搭配强大的低代码可视化搭建编排能力，可以高效、低成本地完成可视化大屏、PC数据看板、...

产品简介

适用场景如果您在大数据业务场景中遇到如下问题，可以通过阿里云大数据专家获取专属服务：受限于传统数据工作开展方式及组织管理模式，数字化转型中遇难到大数据各方面瓶颈；根据业务发展，难以从全局构建稳定的、变化的、集成的大数据...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

升级数据库大版本

云数据库MongoDB版（单节点架构）全量迁移至云数据库MongoDB版（所有架构）云数据库MongoDB版（副本集架构）迁移至云数据库MongoDB版（副本集架构或分片集群...片集群架构）迁移至云数据库MongoDB版（副本集架构或分片集群架构）准备工作...

获取会议统计

GetStatistic 描述查询会议统计信息，最大支持30天数据查询请求参数参数类型是否必传描述 StartTime Long 是开始时间，时间戳 EndTime Long 是结束时间，时间戳响应参数参数类型描述 ErrorCode int 错误码 Message String 错误...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

创建GreenPlum数据源

其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

规划工作空间

通常来说，开发环境的数据读、写权限为各工作空间的“开发”角色共享，而生产环境的数据权限为生产账号独有数据质量各工作空间之间的数据质量是完全隔离的。仅对应工作空间的“开发”、“运维”或“管理员”角色具备配置数据质量规则的...

DML无锁变更概览

DBA提取目标数据手动拆分：人工拆分非常繁琐，工作量大，且易出错，并且很难进行动态调整。为解决上述问题，DMS提供了DML无锁变更。具体操作，请参见 DML无锁变更。适用场景历史数据清理全表更新字段支持的数据库类型 MySQL：RDS MySQL...

DataWorks On EMR使用说明

DataWorks支持基于EMR（E-MapReduce）计算引擎创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上使用EMR的基本开发流程，以及相关 ...

索引优化

大数据集场景下优先考虑稀疏索引：如果您的数据量非常地大，并且您的查询限定条件为<、、=、>=、>，需要从大数据量的表中取出少于50%的数据，那么使用稀疏索引（BRIN Index或者AOCS表的metascan）可以极大地减少无效数据的加载。...

DataWorks On MaxCompute使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

访问数据分析功能

本文介绍访问数据分析功能的三种方式。通过顶部菜单栏直接进入数据可视化登录数据管理DMS 5.0...相关操作在进入数据分析页面后，您需要创建数据集，用于后续所有的分析工作、仪表盘制作和大屏制作。创建数据集的操作，请参见管理数据集。

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

产品优势

DataWorks具有强大的基础能力，可以为您大幅提升工作效率，保障数据准时产出，助力数据治理，让您零成本构建数据服务。学习成本低非技术人员1~2小时即可掌握完整的数据开发、治理流程，告别传统命令行，节省巨大的学习成本。让您可以在同...

大数据工作会议

新品推荐