为什么要进行大数据-为什么要进行大数据文档介绍内容-阿里云

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

质量规则模板类型

如果差异较大，可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比高可用场景下，需要构建多条链路，以便数据出现异常时，能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题，提升实时...

新建补数据任务

补数据任务能够支持您以不同的调度方式对历史数据进行回刷。对于需要定期进行补数据的场景，您可以通过补数据的定时调度功能进行定期补数据；对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补...

新建补数据任务

补数据任务能够支持您以不同的调度方式对历史数据进行回刷。对于需要定期进行补数据的场景，您可以通过补数据的定时调度功能进行定期补数据；对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补...

垃圾回收机制

PolarDB PostgreSQL版（兼容Oracle）支持通过vacuum命令对垃圾数据进行回收。回收垃圾数据释放的空间并不会返还给操作系统，但是新插入或更新的数据可以使用该空间。在上图中，tuple1 和 tuple2 代表有效数据行，unused 代表无效数据行，...

DLA Lakehouse实时入湖

校正过程会重新进行部分存量数据的全量同步，请慎重填写库表筛选表达式，建议使用精确匹配表达式筛选，避免校正一些不必要的数据。如果未填写需要校正的库表，则校正失败。工作负载任务启动成功后，在湖仓列表页签单击存储路径下的OSS...

什么是数据安全中心

数据安全中心（Data Security Center，简称DSC），在满足等保2.0“安全审计”及“个人信息保护”的合规要求的基础上，为您提供敏感数据识别、数据...重要 DSC 仅对数据进行敏感数据分级、打标和敏感数据检测，不会对您的数据文件进行保存。

在工作空间创建数据源或注册集群

工作空间创建完成后，您需要先将您的数据库或数据仓库，通过创建数据源的方式添加至DataWorks工作空间，或将您的集群注册至DataWorks工作空间，以便进行数据同步、数据分析与开发、数据调度等操作。本文主要以使用正式开发环境为例，为您...

东软案例

业务/技术亮点移动端到云端业务全链路海量运维大数据存储。指标、日志等多源异构监控数据融合分析。99.99%数据可用性的高可靠低成本存储。客户感言利用阿里云新一代云原生多模数据库 Lindorm“灵动”引擎驱动的政府、企业数字信息系统...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

产品功能

数据清理您可以在控制台上根据度量（Metric）进行数据清理，或者通过 API 进行更灵活的数据清理。高效压缩存储 TSDB 使用高效的数据压缩技术，将单个数据点的平均使用存储空间降为1~2个字节，可以降低90%存储使用空间，同时加快数据写入的...

新增授权

本文档主要为您说明如何进行新增数据授权。说明目前支持的引擎：E-MapReduce产品（EMR-3.40.0及后续版本或EMR-5.6.0及后续版本），包括的计算引擎如下：Spark Hive Presto（目前仅限EMR-3.40.0及EMR-5.6.0版本支持，其他版本暂不支持）...

管理数据库（仅 MySQL）

背景信息您可以通过登录数据库进行数据库对象管理、数据导入导出、SQL 编辑与执行、PL 编译与调试、数据与结构处理、执行分析、数据库运维等操作。更多信息请参见开发者中心介绍。通过对数据库进行管理账号的操作，您可以根据业务需求...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

数据集成支持的数据源

离线集成支持的数据源数据源读取写入 大数据存储型数据源 MaxCompute 支持支持 Hive 支持支持 Hologres 支持支持 IMPALA 支持支持 TDH Inceptor 支持支持 Kudu 支持支持 StarRocks 支持支持 Hudi 支持支持 Doris 支持支持 ...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

亿海蓝-航运大数据的可视化案例

——亿海蓝CTO 客户简介亿海蓝是中国的航运大数据公司，做为中国最大的AIS数据服务运营商，发展目标是通过大数据技术推动全球航运物流与互联网的融合，加速航运产业转型升级。亿海蓝目前已为全球上百万行业用户提供数据服务，客户涵盖港口...

引擎功能

数据查询支持通过SQL进行数据查询，兼容基于OpenTSDB协议的查询API等方式进行数据查询。用户也可以通过产品控制台的数据查询功能进行数据分组、降采样、空间聚合等可视化数据查询展现。数据管理数据库管理时序数据的存储以Database为...

BigQuery数据源

创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源。以下对BigQuery数据源的几个配置项进行说明：BigQuery Project ID：Google BigQuery的项目名。BigQuery授权认证信息：...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

建模空间

当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时，面对跨多个工作空间的复杂数据体系，可以通过设计空间来共享一套数据建模工具，针对整个数据体系进行统一的数仓规划、维度建模及指标定义等工作。本文为您介绍DataWorks建模...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

数据资产等级定义

MaxCompute进行数据加工基本流程为从业务系统上产生数据，通过同步工具（DataWorks的数据集成或阿里云DTS）进入数据数仓系统（MaxCompute），数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后，再通过同步工具输出到数据产品中...

导入数据

数据查询提供数据导入功能，可将数据直接进行导入，并且提供快速预览和一键探查。本文介绍如何导入数据。前提条件已新建导入数据所需的云计算资源，具体操作，请参见新建云计算资源。说明支持进行数据导入的云计算资源有：RDS MySQL、...

导入数据

数据查询提供数据导入功能，可将数据直接进行导入，并且提供快速预览和一键探查。本文介绍如何导入数据。前提条件已新建导入数据所需的云计算资源，具体操作，请参见新建云计算资源。说明支持进行数据导入的云计算资源有：RDS MySQL、...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据方案概览

DMS的数据方案提供数据变更、数据导出、数据追踪、环境构建的功能，通过本文您可以了解数据方案的各项功能详情。一级功能二级功能功能描述结构变更结构设计可以对目标库、表进行符合研发规范的表结构设计，保障多套环境（例如开发环境...

数据模型

基本概念物联网、应用监控、工业互联网等典型的时序场景下，数据源（Data Source）通常按一定的周期持续产生时序数据，一条时序数据由Tag、Timestamp、Field等元素共同来描述，具有相同特征的一类数据存放在同一张表中，表的时序数据元素...

Quick BI数据可视化

Quick BI支持连接云数据库 SelectDB 版实例，连接成功后，您可以在Quick BI上进行数据的分析与展示。本文为您介绍如何为Quick BI添加云数据库 SelectDB 版数据源。前提条件已为云数据库 SelectDB 版实例申请公网地址。具体操作，请...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

概述

大部分阿里云用户以CSV格式将数据存储在OSS上，若要提高数据扫描性能，需要借助第三方工具对文件进行格式转换，然后将转换后的数据上传至OSS，整个过程比较繁琐。为减轻用户工作量，您可以直接使用DLA来转换文件格式。假设将1.2GB的数据以...

使用场景

包含但不限于如下场景：数据迁移与同步使用DMS任务编排配置和管理数据迁移或数据同步任务，将数据从一个数据源迁移到另一个数据源，或实现同数据源、不同数据源之间的数据实时同步。数据清洗与加工 DMS任务编排可以用于数据清洗和加工任务...

使用DMS进行数据归档

使用OLTP数据库进行数据归档较差优秀中等使用对象存储OSS进行数据归档优秀较差较差使用传统OLAP引擎进行数据归档较差优秀优秀使用 AnalyticDB PostgreSQL版 Serverless模式进行数据归档优秀优秀优秀前提条件已创建 ...

数仓规划概述

使用DataWorks进行数据建模时，数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后，模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

数据处理

数据导入后，GDB Automl提供数据解析器对数据进行解析，可以自动配置解析数据源，解析器（支持CSV、ARFF、XLS、XLSX、ORC等多种数据格式的解析）。在数据解析器页面，选择导入数据对应的解析器、分离、列标题和选项。单击解析以生成...

增量数据同步

通过选择已注册的数据源端数据和目标端，实现增量任务自动建表的方式创建离线同步周期任务，本文介绍如何创建MySQL to MaxCompute离线增量数据同步周期调度的任务。前提条件已新建工作组“信息中心（xxzx）”，具体操作，请参见新建工作...

敏感数据溯源

DataWorks的数据溯源功能，支持通过提取数据泄露文件中数据的水印信息，帮助您定位到可能会泄露目标数据的责任人。本文为您介绍如何创建溯源任务，并通过该任务查找可能会泄露数据的责任人。前提条件已创建数据识别规则，详情请参见配置...

运营

数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。数据资产申请，数据使用者向数据管理方提出使用...

为什么要进行大数据

新品推荐