大数据技术员-大数据技术员文档介绍内容-阿里云

如何处理Tair集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

如何处理Redis集群数据倾斜

您可以在性能监控的数据节点页面中查看各数据分片节点的对应指标，通常情况下，若某数据分片节点（最高）的性能指标高出其他数据分片节点（最低）20%及以上时，可认为已产生数据倾斜，差值越大，数据倾斜程度越严重。下图介绍两个典型...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

功能发布记录（2024年）

所有DataWorks用户数据治理中心概述数据治理中心新增物化视图功能当您在面对大数据计算任务频繁且存在大量相似子查询场景时，DataWorks支持自动化治理，智能推荐物化视图，为您提供了一种智能化、自动化的解决方案。当您启用此功能时，...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

通用数据库授权

结构化数据：RDS、PolarDB、PolarDB-X（原DRDS）、PolarDB-X 2.0、MongoDB、OceanBase、自建数据库 大数据：ADB-MySQL、AnalyticDB for PostgreSQL（即ADB-PG）您可以根据上表中对应数据库支持的连接方式和数据安全需求，选择合适的连接...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

基于Delta Table构建近实时增全量一体化链路实践

面对当前日益复杂且对数据时效性要求极高的近实时业务场景，MaxCompute基于Delta Table推出了集大规模存储、高效批量处理和近实时能力于一体的近实时增量一体化架构。本文为您介绍该架构的工作原理及其优势。背景和现状在当前典型的数据...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

无感集成（Zero-ETL）

方案概述在大数据时代，企业面临着大量分散在不同的系统和平台上的业务数据，为了有效地管理和利用这些数据，企业往往需要依赖于ETL工具对数据进行集中式管理。ETL是将上层业务系统的数据经过提取（Extract）、转换清洗（Transform）、...

散点层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。散点贴图：散点层贴图样式，可黏贴贴图URL链接获取。散点大小（从小到大）：单击右侧的或图标，添加或删除一个散点大小...

散点层

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

冷数据归档常见问题

归档为CSV格式的数据的数据量可能会比归档为ORC格式的数据的数据量更大。为什么归档后的冷数据及文件在主账号下面的OSS上看不到？PolarDB 的冷数据存储在系统默认的OSS上，不在客户的OSS里，所以客户无法看到。目前只支持在PolarDB控制台上...

安全基线检查

了解安全基线检查数据安全中心以GB/T 37988-2019《信息安全技术数据安全能力成熟度模型》为依据，针对云上复杂的数据库应用环境和不同类型的数据（结构化数据和非结构化数据），制定了7类基线检查策略以及40+具体的检查项，并提供不同类型...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

慢日志分析功能简介

背景信息慢日志问题极大地影响数据库的稳定性。当数据库出现负载高、性能抖动等问题时，数据库管理员或开发首先会查看是否有慢日志在执行。慢日志由数据库内核输出，不同数据库引擎的配置参数及阈值不相同，具体的配置参数和阈值请参见...

计算设置概述

亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB Transwarp ArgoDB是星环科技的分布式分析性数据库。说明星环ArgoDB不支持智能研发版。设置Dataphin实例的计算引擎为TDH或ArgoDB 星环...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合，海量离线数据分析可以应用于多种商业系统环境，例如，电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述主流的三大分布式计算框架...

阶段一：基础防护建设

例如：《金融数据安全分级指南 JR/T 0197-2020》《网络安全标准实践指南——网络数据分类分级指引》《信息安全技术个人信息安全规范 GB/T 35273—2020》《信息技术大数据数据分类指南 GB/T 38667-2020》《基础电信企业数据分类分级方法 YD/...

创建HBase数据源

使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与配置请参见添加、配置及管理Dataphin成员。板块架构师配置请参见创建数据板块。项目管理员配置请参见添加...

创建Impala数据源

权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。使用限制 Dataphin的Impala数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及...

ETL工作流快速体验

GitHub十大热门编程语言 DataWorks MaxCompute 函数计算 OSS 数据集成数据开发基于GitHub Archive公开数据集，通过DataWorks 数据集成模块获取过去1小时GitHub中提交次数最多的代码语言数据，在DataStudio 数据开发模块通过函数计算...

防泄露数字水印

暗水印（隐形水印）：阿里安全团队自研的肉眼不可见数字水印技术，将水印内容通过特殊技术隐藏在载体内部，用于数据泄露后的最终溯源或者其他业务场景。目前您可以通过人工帮助联系DMS客服，帮您进行暗水印溯源。开启防泄露数字水印登录...

创建Impala数据源

权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。使用限制 Dataphin的Impala数据源的数据集成使用JDBC的方式进行集成，因此性能相较于Hive较差，若您集成的表为非Kudu表，您可使用Hive数据源及...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

创建Kudu数据源

权限说明 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在Dataphin首页，单击顶部菜单栏管理中心。按照以下操作指引，进入新建数据源对话框。依次单击数据源管理->数据源->新建数据源。...

SQL防火墙

攻击者通常使用该技术来试探数据库的缺陷，SQL/Protect插件可以阻断任何使用true表达式的查询语句。Unbounded DML Statements攻击 Unbounded DML Statements是一类不受条件限制的数据库更新语句，例如：没有WHERE条件的UPDATE/DELETE操作。...

功能特性

资源观测作业运维 MaxCompute提供作业运维管理功能，数据开发人员和管理员可通过MaxCompute控制台的作业运维功能查看历史作业和正在运行的作业，方便了解作业运行详情：包括参数配置、角色授权、Package、Tables、Resources、UDF管理等...

功能特性

数据管理分类分级模版内置基于阿里巴巴集团数据安全最佳实践的数据分类分级识别模版、基于GB/T 35273的通用数据分类分级识别模版、金融行业、车联网行业以及能源行业数据分类分级识别模版；支持管理员自定义分类分级模版。配置识别模板 ...

数据治理中心概述

量化评估：健康分健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据，使用数据处理及机器学习等技术，对各类型数据进行综合处理和评估，通过个人、工作空间维度客观呈现数据资产状态的综合...

批量创建质量规则

因此，创建质量规则时，该属性值为下拉多选框，可选项为枚举值（多选），可选枚举值范围为大数据部、业务部、技术部。规则负责人所对应的字段取值类型为自定义输入，属性字段长度为256。因此，在创建质量规则时，该属性值可以输入不超过256...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

创建Hive数据源

使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。在E-MapReduce5.x Hadoop计算引擎下，若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后，才可以正常使用。配置说明，...

大数据技术员

新品推荐