大数据中心太多-大数据中心太多文档介绍内容-阿里云

配置同步任务中的数据来源和去向

同步速率设置同步速率可保护读取端数据库，以避免抽取速度过大，给读取端造成太大的压力。同步速率建议限流，结合源库的配置，请合理配置抽取速率。错误记录数超过 NA 任务资源组 NA 单击保存和提交，配置任务需要的其他信息。完成同步...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

DataWorks模块使用说明

使用流程概览：参考文档：数据开发概述子模块：运维中心功能说明：运维中心是一站式大数据运维、监控平台，支持实时查看任务的运行状态，并为异常任务提供智能诊断、重跑等运维操作。它提供智能基线功能，帮助您解决重要任务产出时间不可...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

DataWorks On MaxCompute使用说明

任务调度属性配置概述任务调试流程发布任务批量操作流程管控运维中心运维中心是一站式大数据运维、监控平台，支持实时查看任务的运行状态，并为异常任务提供智能诊断、重跑等运维操作。它提供智能基线功能，帮助您解决重要任务产出...

DescribeTables-查询数据资产表的数据

查询数据安全中心连接授权的MaxCompute、RDS等数据资产的表数据。接口说明在调用 DescribeTables 接口时，您可以设置搜索关键词、数据资产表的风险等级等参数来获取符合要求的数据资产的表信息。QPS 限制本接口的单用户 QPS 限制为 10 次...

点热力层（v3.x版本）

数据源面板字段说明 lng 点热力层中心点的经度。lat 点热力层中心点的纬度。value 点热力层经纬度点的数据值大小。系统会根据 value 的最大值和最小值来计算热力图的大小和颜色。数据项配置说明数据源组件的数据源中通过代码编辑或 ...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

DataV读取数据源超时

问题原因查询超时的原因如下：使用SQL查询的业务数据表数量太大。API接口内部业务调用链路较长。解决方案执行以下操作，通过优化查询时间的方式进行解决：使用SQL查询的业务数据表数量太大针对查询条件所使用的字段添加索引，减少扫描行...

快速实现数据分类分级

数据安全中心DSC（Data Security Center）是一款数据安全中心产品，可以通过收集和分析数据库的信息，提供云上数据的分类分级（包括敏感数据识别）能力。本文介绍如何快速在DSC控制台实现数据分类分级。前提条件已规划好要接入数据安全...

发展历程

2018年 MaxCompute的多个客户案例荣获“2017大数据优秀产品和应用解决方案案例”奖。基于公共云的BigBench在100 TB规模上，MaxCompute的性能指标较2017年10月提升了一倍，达到18176.71 QPM（Queries Per Minute）。此外，在超小型10 TB规模...

安全基线检查

数据安全中心通过动态检测数据资产配置的方式，以数据为落脚点检测阿里云上数据库资产是否存在配置风险，例如身份验证、访问控制、加密、备份和恢复等方面的配置是否安全，这些检查策略和检查项统称为安全基线检查。安全基线检查功能可以帮...

通过函数计算节点实现GitHub实时数据分析与结果发送

步骤四：配置案例在 DataWorks控制台左侧导航栏选择 大数据体验>ETL工作流模板，单击 Github十大热门编程语言模板，单击载入模板，配置模板参数。参数说明模板名称显示当前模板名称，即“Github十大热门编程语言”。工作空间选择 ...

表设计最佳实践

源数据采集客户端太多时，如果源数据通过Tunnel直接进入到一个分区，则每个源数据采集客户端提交一次数据，都会在同一分区下产生一个独立的文件，从而导致大量小文件的出现。当SLS触发FunctionCompute持续高频地向MaxCompute中传入文件时，...

OSS数据安全防护最佳实践

智能化：运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，诸如数据异常访问和潜在的泄漏风险进行有效识别和监控，并提供修复建议。提供定制化的敏感数据识别能力，便于客户自定义识别标准，实现精准识别和高效防护。...

功能发布记录 2022年之前

DataWorks的数据治理中心从全局视角、工作空间视角、个人视角，自动发现并量化平台使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题，并通过健康分模型进行统计，以治理报告及治理排行榜的形式呈现治理...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询 大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

资产全景及目录概述

支持在个人数据中心快捷查看自己所负责的资产。名词解释元数据：是描述数据的数据（Data About Data），主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。主题域：为您展示数据架构部分已经创建好...

新建TDengine数据源

在新建数据源对话框的 大数据存储区域，选择 TDengine。如果您最近使用过TDengine，也可以在最近使用区域选择TDengine。同时，您也可以在搜索框中，输入TDengine的关键词，快速搜索。在新建TDengine数据源对话框中，配置数据源的...

资产全景及目录概述

支持在个人数据中心快捷查看自己所负责的资产。名词解释元数据：是描述数据的数据（Data About Data），主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。主题域：为您展示数据架构部分已经创建好...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

什么是RDS PostgreSQL

地域和可用区：地域是指物理的数据中心。可用区是指在同一地域内，电力和网络互相独立的物理区域。更多信息请参见阿里云全球基础设施。通用描述约定描述说明本地数据库指代部署在本地机房或者非阿里云RDS上的数据库。RDS XX（XX 为 ...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

轨迹层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。单击 ...

内置检测模型说明

数据安全中心DSC（Data Security Center）通过内置的行为异常自学习模型和流转异常自学习模型，能够高效地分析审计日志，以识别与敏感数据相关的异常行为及攻击行为。当这些模型检测到潜在的风险活动时，会自动触发告警。支持的数据库 RDS...

轮播页面

图表样式轮播页面是基础交互组件的一种，仅支持在数据中配置页面的属性，包括ID、页面名称和链接，适用于在数据看板中轮播展示多个网页。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要搜索的...

保险行业解决方案与案例

技术方案为保障多个业务系统实现平滑迁移，有效控制实施风险，该保险公司数据中心、研发中心与阿里云 PolarDB PostgreSQL版（兼容Oracle）团队共同制定了详实的迁移规划，针对核心系统制定了“主备库”的方案，利用DTS迁移工具实现数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

离线同步任务调优

源数据表的数据是否太多，如果数据太多，建议拆分为多个任务。查询日志，找到执行阻塞的SQL，咨询数据库管理员解决。检查数据库对应时间点负载情况。同步任务日志显示 run，但速度为0。此类情况任务并非未执行，如果长时间处于该状态，建议...

接入数据库

结构化数据：RDS、PolarDB、PolarDB-X 1.0（原DRDS）、Redis、MongoDB、OceanBase、自建数据库 大数据：TableStore、MaxCompute、ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）说明仅OSS不支持。前提条件已购买 DSC 服务并完成 DSC ...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

强一致分布式事务

因查询操作的数据涉及多个分区，PolarDB-X 首先会获取中心授时确定读取版本，读取过程中会对每行数据的MVCC多版本进行可见性判断，确保只会读取在全局时间戳之前已完成提交的事务。例如转账事务在多个数据节点的提交有先后时间差，已提交的...

创建Impala数据源

在新建数据源对话框的 大数据存储区域，选择 Impala。如果您最近使用过Impala，也可以在最近使用区域选择Impala。同时，您也可以在搜索框中，输入Impala的关键词，快速筛选。在新建Impala数据源对话框中，配置连接数据源参数。配置...

新建Doris数据源

在新建数据源对话框的 大数据存储区域，选择Doris。如果您最近使用过Doris，也可以在最近使用区域选择Doris。同时，您也可以在搜索框中，输入Doris的关键词，快速筛选。在新建Doris数据源对话框中，配置连接数据源参数。配置数据源的...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。更多信息...

大数据中心太多

新品推荐