大数据在领域的应用案例-大数据在领域的应用案例文档介绍内容-阿里云

概述

数据湖构建可以帮助用户快速构建云上数据湖，采用统一的管理视角治理数据湖。本产品目前处于公测阶段，您可以随时开通使用，目前数据湖构建所有功能均为免费使用阶段。用户使用流程数据湖构建将帮助您快速简洁抽取源数据到统一数据湖的...

JindoFS实战演示

描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI应用等。...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

管理数据分级

数据分级用于定义数据在安全领域的安全等级。新建数据分级在Dataphin首页，单击顶部菜单栏资产。按照下图指引，进入新建数据分级对话框。在新建数据分级对话框，配置参数。参数描述分级名称数据分级的名称。支持汉字、字母、数字...

管理数据分级

数据分级用于定义数据在安全领域的安全等级。新建数据分级在Dataphin首页，单击顶部菜单栏资产。按照下图指引，进入新建数据分级对话框。在新建数据分级对话框，配置参数。参数描述分级名称数据分级的名称。支持汉字、字母、数字...

OSS数据安全防护最佳实践

应用场景敏感数据识别云端OSS中存储了大量的数据与文件，但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则，或根据其行业特点自定义规则，对其存储在OSS中的数据进行整体扫描、分类、...

透明数据加密概述

经过数据库身份验证的应用和用户可以继续透明地访问应用数据（不需要更改应用代码或配置），而尝试读取表空间文件中的敏感数据的OS用户以及尝试读取磁盘或备份信息的未知用户将不允许访问明文数据。透明：数据在使用过程中无感知，数据在...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

同步数据

分析型数据库MySQL版支持多种数据加载方式，包括但不限于：通过阿里云数据传输服务DTS将MySQL/DRDS中的数据导入分析型数据库MySQL版，其中MySQL可为RDS for MySQL、其他云厂商或线上IDC的自建MySQL以及ECS自建MySQL。详细操作步骤请参见 ...

应用场景

本节主要介绍 OceanBase 数据库的主要应用场景。交易支付透明拆分交易支付是蚂蚁集团最核心的一个业务，最初采用的是分库分表的解决方案。分库分表的方案给核心业务带来了水平扩展的能力，同时也带来了灰度升级的能力，让核心业务的系统性...

新建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

应用画像

系统信息系统信息是根据ADAM应用采集器采集的应用运行时系统参数，有助于用户评估应用运行状态。对象汇总对象汇总主要罗列了应用采集与智能分析出的SQL与数据库对象情况汇总，可以直观通过数据看到应用画像的整体内容。对象详情对象详情...

数据源和项目协同

背景信息项目管理员创建一个项目成员后，项目成员可以创建数据源，并在项目中添加数据源中的数据库后，即可进行数据库变更任务。系统管理员在 Web 版 ODC 中创建项目，并为该项目指定成员。系统管理员或者拥有新建数据源角色权限的项目...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

冷热分层

在数据湖架构设计中，通常会应用HTAP（Hybrid Transaction and Analytical Process）体系结构，通过合理地选择分层存储组件和计算引擎，既能支持海量数据分析和快速的事务更新写入，又能有效地降低冷热数据分离的成本。更多介绍请参见结构...

数据资产定级

数据的资产等级，可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下：毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

步骤二：规划数仓

数仓规划是基于Dataphin建设数据中台的第一步，同时也是数据体系的顶层设计中至关重要的一步。在开始数据开发前，需要完成数据仓库的规划，包括定义数据板块、项目、数据源、计算源和统计周期。本文将指导您完成本教程的规划数仓。背景信息...

应用场景

大数据场景：海量数据存储与分析 Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势低成本：高压缩比，数据冷热分离...

数据资产定级

数据的资产等级，可以根据数据质量不满足完整性、准确性、一致性、及时性对业务的影响程度进行划分。数据等级定义如下：毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级...

代码智能推荐

在智能推荐的数据处理脚本中进行二次编辑，确认无误后单击应用。说明可以通过数据响应结果区域，查看经过处理后的数据详情。可选，若不需要使用当前处理方法，单击撤销应用即可。单击画布任一处退出智能推荐窗口，在数据源配置页...

PolarDB的高级脱敏

高级脱敏功能具有但不限于如下特性：统一管理敏感数据敏感数据分类分级周期性扫描敏感数据主动发现敏感数据应用场景实时从生产环境中的数据库（即生产库）获取用户已脱敏的数据来进行报表生成、数据分析、开发测试等。前提条件已录入...

什么是RDS PostgreSQL

只读实例：在对数据库有少量写请求，但有大量读请求的应用场景下，单个实例可能无法承受读取压力，甚至对业务产生影响。为了实现读取能力的弹性扩展，分担数据库压力，您可以创建一个或多个只读实例，利用只读实例满足大量的数据库读取需求...

识别任务说明

扫描速度不同类型数据库的扫描速度说明如下，该扫描速度仅供参考：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据（TableStore、MaxCompute等）：对于较大的数据库（即表数量大于1000个），扫描速度为1000列/分钟。...

创建Hologres数据源

新建Hologres数据源用于实现Dataphin能够读取Hologres的业务数据，及能够向Hologres写入数据。在引入Hologres的业务数据至Dataphin和将Dataphin的数据写入至Hologres的场景中，您需要先创建Hologres数据源。本文为您介绍如何新建Hologres...

iframe

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

使用MaxCompute控制台（离线）

MaxCompute控制台提供数据上传功能，支持您将本地文件或阿里云对象存储服务OSS中的文件数据离线（非实时）上传至MaxCompute进行分析处理及相关管理操作。使用限制仅支持基于本地文件或阿里云对象存储OSS 上传数据，具体如下。本地文件...

功能特性

Datahub数据总线功能集功能功能描述参考文档数据接入 API接入使用REST API方式，将数据写入Datahub API参考 SDK接入使用SDK将数据传入Datahub Java SDK C++ SDK Go SDK Python SDK 插件接入使用插件将数据传入Datahub LogStash插件...

Catalog概述

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...

操作流程

数据更新API：通过调试或调用创建的数据更新API修改数据库中的表数据。空间服务API：通过将空间数据管理中的各类型空间数据发布成行业标准的空间服务API，以便后续调用。上线API 通过上线API操作才能使API被调用。服务调用流程（工作组内）...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

应用身份识别

B/S结构的应用需要在审计日志中记录数据访问者的真实信息。您的业务为B/S结构时，用户通过访问您的Web应用，Web应用再发起对数据库的访问，来完成一次数据请求。这种情况下，数据库审计系统审计到的请求均为Web应用发起的请求，无法溯源到...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

RDS术语

J JDBC Java Database Connectivity，是Java语言中用来规范客户端程序如何访问数据库的应用程序接口。结构迁移 DTS将迁移对象的结构定义迁移到目标实例。经典网络实例之间不通过网络进行隔离，只能依靠实例自身的白名单策略来阻挡非法访问...

大数据在领域的应用案例

新品推荐