大数据影响-大数据影响文档介绍内容-阿里云

Quick BI连接MaxCompute

背景信息智能分析套件Quick BI是一个专为云上用户量身打造的易上手、性能强的大数据分析及可视化平台，可以让每个人都能成为数据分析师。Quick BI不仅是业务人员查看数据的工具，更是数据化运营的助推器。更多Quick BI信息，请参见 Quick ...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

风险识别管理（新版）

规则名称规则类型规则等级规则配置非工作时间查询大数据量敏感数据数据访问风险低如下时间段查询数据量大于10000时命中该规则。周一至周五：22:00～24:00。周六至周日：00:00～24:00。相似SQL查询数据访问风险低十分钟内查询相似...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。业务背景为了更好的制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体地理属性、社会属性等，...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

什么是备份数据量

本文介绍数据库备份DBS中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份DBS业务场景下，含有常见以下几个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念说明数据库...

创建数据板块

后续如果数据板块内已有逻辑表产生，不可编辑英文名，以避免影响数据生产。公用名称数据板块名称。命名规则如下：包含汉字、数字、字母、下划线（_）或短划线（-）。不能超过64个字符。完成数据板块创建后，Dev数据板块名称格式为 {自定义...

创建数据板块

后续如果数据板块内已有逻辑表产生，不可编辑英文名，以避免影响数据生产。公用名称数据板块名称。命名规则如下：包含汉字、数字、字母、下划线（_）或短划线（-）。不能超过64个字符。完成数据板块创建后，Dev数据板块名称格式为 {自定义...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

无感集成（Zero-ETL）

方案概述在大数据时代，企业面临着大量分散在不同的系统和平台上的业务数据，为了有效地管理和利用这些数据，企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取（Extract）、转换清洗（Transform）、...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

散点层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。散点贴图：散点层贴图样式，可黏贴贴图URL链接获取。散点大小（从小到大）：单击右侧的或图标，添加或删除一个散点大小...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

必读：简单模式和标准模式的区别

场景示例：标准模式对使用流程的影响如图，标准模式“生产、开发隔离”的模式将影响数据模型设计、数据处理逻辑、代码发布等流程。附录：不同工作空间模式下，DataWorks模块对应操作的数据源您可以在数据开发>数据源界面下查看数据开发...

数据连接管理

数据传输服务DTS（Data Transmission Service）支持录入数据库信息。在配置任务时，您可以直接选择已录入的数据库，DTS将自动填入数据库...在数据连接管理页面执行的删除实例操作，只是将数据库实例从DTS中移除，而不影响数据库中的数据。

功能特性

审计日志权限管理权限管理为确保MaxCompute项目数据的安全性，项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控，确保权限不会过大也不会过小。权限管理管理&运维 MaxCompute提供用户可视化运维、管理功能，方便...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

某网约车公司车辆轨迹数据

业务挑战目前线下有7万+辆车，车辆数量在快速增长，每辆车每分钟上传轨迹、位置等信息到MySQL，导致MySQL库数据量过大，直接影响了在线查询业务。车辆数据需要存储3年，日增数据量100 GB，3年总数据量超100 TB，数据存储成本高昂。解决...

删除或变更节点输出的影响

若已存在下游依赖，此时删除节点输出（节点产出表数据变更导致节点输出变更，或直接修改了节点输出），可能会导致下游任务产生严重影响（任务不运行或产生数据质量问题）。若产出表数据的节点发生变更，请重新为下游节点设置新的节点依赖。...

离线同步日志分析

若同步过程产生大量脏数据，将会影响数据同步的同步速度。若您对同步速度有要求，建议您先处理脏数据问题。脏数据介绍详情请参见离线同步任务配置相关能力。您可以通过配置脏数据容忍条数控制同步产生的脏数据是否影响任务正常执行。离线...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

执行补数据并查看补数据实例（旧版）

为避免补数据实例占用过多的资源而影响周期实例运行，平台对补数据实例制定以下规则：如果补数据选择业务日期为昨天（T-1），即补当天数据时，补数据任务优先级由任务所在基线优先级决定。如果补数据选择业务日期为历史业务日期（T-2）时，...

大数据影响

新品推荐