大数据用到的语言-大数据用到的语言文档介绍内容-阿里云

我的资产

通过我的资产清晰掌握可使用、可管理、已授权的数据表和数据服务API数据资产相关信息。通过不同的权限来源，用户可获取数据表、API等类型数据资产的使用权限。我的资产以用户的视角展示自有权限或申请授权成功的数据表、数据服务API数据...

数据集成概述

离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。...

适配组件数据

背景信息本文以使用静态数据源为例，因此可以直接在组件的数据源配置区域粘贴准备好的数据。如果您的数据源为 CSV文件、数据库等其他类型的数据，需要首先添加数据源。如果您需要使用的数据源为 API，直接在数据源配置栏输入API即可。...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

数据质量教程概述

数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。前提条件在开始本教程前，请您首先完成搭建互联网在线运行分析平台教程，详情请参见业务场景与开发流程。业务场景 ...

数据质量教程概述

数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。前提条件在开始本教程前，请您首先完成搭建互联网在线运行分析平台教程，详情请参见业务场景与开发流程。业务场景 ...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

配置资产数据

本文档介绍配置资产数据的方法，以及资产数据面板的内容，包括数据接口、数据源、数据过滤器和数据轮询频次等。操作步骤登录 DataV控制台。在我的可视化页面，单击您创建的可视化应用项目上方的编辑按钮。在画布编辑器页面，单击图层...

数据标准

数据字典管理：支持创建并维护逻辑表中使用的数据字典，方便用户在定义数据元或维度属性时进行数据字典引用，支持数据字典物理化、数据字典导入、导出，方便数据字典使用与跨项目复制。质量校验函数：支持质量检测函数自定义，方便用户在...

目标数据库连接性检查

为保障数据迁移任务的顺利执行，在预检查阶段检查DTS服务器是否能够连通要迁移的目标数据库。本文将介绍目标数据库连接性检查失败可能的原因及修复方法。当目标数据库连接性预检查失败时，可能是以下几种原因。数据库账号或数据库密码不...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

DataWorks On Hologres使用说明

将工作空间成员添加至Hologres引擎实例及DataWorks绑定的Hologres数据源中，并为生产环境执行账号授予较大的数据库权限。工作空间添加成员为工作空间成员配置Hologres引擎权限权限控制 DataWorks为您提供了产品级与模块级的权限控制，您...

DLF+EMR之统一权限最佳实践

本文结合具体业务场景，为您介绍如何使用DLF+EMR两个产品实现数据湖上统一权限的最佳实践。背景说明元数据和数据权限是DLF产品提供的数据湖构建所需的基础能力，数据湖上引擎及产品。通过DLF提供的统一元数据视图访问湖上数据，解决湖上...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

配置SQLServer数据源

SQLServer数据源为您提供读取和写入SQLServer双向通道的功能，您可以通过向导模式和脚本模式配置同步任务。前提条件在配置SQLServer数据源之前，您需要在RDS for SQLServer端做好以下准备工作。创建RDS for SQLServer实例，请参见快速...

适配组件数据

背景信息本文以使用静态数据源为例，因此可以直接在组件的数据配置区域粘贴准备好的数据。如果您的数据源为 CSV文件、数据库等其他类型的数据，需要首先添加数据源。如果您需要使用的数据源为 API，直接在数据配置栏输入API即可。具体...

数据质量评估标准

一致性一致性通常体现在跨度很大的数据仓库中。例如，某公司有很多业务数仓分支，对于同一份数据，在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库，再到各个数据应用节点，用户ID必须保持同一种类型，且长度也要保持一致...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

组件数据源配置

本文介绍如何进行配置组件数据和设置组件数据源。前提条件已登录DataV控制台已进入画布编辑器页面配置组件数据单击左侧导航栏的组件库页签，进入组件库管理页面。单击任一组件，添加到画布中。选中组件后，查看右侧配置面板。例如 ...

场景管理器

图表样式场景管理器是3D地球的子组件，支持独立的样式、数据和交互配置，能够使用数据定义镜头位置，通过移动和缩放的动效展示球体的不同位置。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

数据归档

通过数据归档OSS功能，用户能够将低频访问、数据量大的表转储至OSS，并通过原生InnoDB的访问方式去读取冷表数据。数据归档DDL操作如下：归档 ALTER TABLE$table_name ENGINE_ATTRIBUTE='{"OSS":"Y"}';取回 ALTER TABLE$table_name ENGINE_...

登录数据库

操作步骤在DMS实例列表登录数据库使用该方式登录数据库前，需要确保您的数据库实例已录入DMS。更多信息，请参见云数据库录入。登录数据管理DMS 5.0。在首页左侧的未登录实例列表中，选择并右键单击目标实例。说明数据库实例有未登录...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

SQL查询

如果需要快速地对数据进行查询与分析，您可以使用SQL语句查询MaxCompute、EMR Hive、Hologres等数据源。本文为您介绍如何通过SQL语句查询数据源。支持查询的数据源 SQL查询支持的数据源包含MaxCompute、Hologres、EMR Hive、EMR Spark SQL...

添加TableStore数据源

如果值为正序（FORWARD），则起始主键必须小于结束主键，返回的行按照主键由小到大的顺序进行排列。如果值为逆序（BACKWARD），则起始主键必须大于结束主键，返回的行按照主键由大到小的顺序进行排列。例如同一表中有两个主键A和B，A。如...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

什么是EMR Serverless StarRocks

使用数据湖的优势在于可以使用开放的存储格式和灵活多变的Schema定义方式，可以让BI、AI、AdHoc、报表等业务维持在统一的单点身份可信（Single Source of Truth），而StarRocks作为数据湖的计算引擎，可以充分发挥向量化引擎和CBO（Cost ...

使用DataWorks

当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的数据导出至其他数据源。背景信息数据集成的导出方式有如下两种：向导模式：创建离线同步节点后，...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

存储加密

当MaxCompute项目中存有敏感信息如个人身份信息、财务记录、健康记录等，开启数据存储加密可保护这些数据不被未授权者访问。MaxCompute支持通过密钥管理服务KMS（Key Management Service）对数据进行加密存储，提供数据静态保护能力，满足...

MaxCompute数据源

使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。2023年12月11日之后创建的MaxCompute数据源，若数据源所在的DataWorks服务与需要...

A100使用指南

12,000元/月 144,000元/年企业版吞吐量峰值：30,000条SQL/秒 800万/小时入库速率 10亿条在线SQL语句存储 350亿条归档SQL语句存储支持审计25个数据库实例 20,000元/月 240,000元/年说明可以通过需要使用的数据库实例的数量来选择需要...

概述

该功能支持用户将训练好的AI模型注册到 PolarDB 内部进行推理，并提供Native SQL能力给用户，对于内置模型性能有明显优势，同时支持使用Hook函数来连接大语言模型。用户可以像使用Database内置函数一样简单操作AI模型和大语言模型。该功能...

索引优化

并且对于BI报表类查询，通常会返回很大的数据集，使用索引在这种场景并不一定有加速查询的效果。在使用 AnalyticDB PostgreSQL版时，首先应该尝试在没有增加任何索引的情况下执行您的查询。索引通常都是更适合于TP场景的，只返回一条记录...

混合存储型（已停售）

使用混合存储型，将所有课程信息存储到磁盘，访问量大的课程和题库数据存储到内存并常驻内存，保证高频访问数据的读写性能，实现高性能与高性价比的有机结合。典型业务场景的示例如下：场景1：使用开源Redis集群存储了100 GB的数据，但高峰...

ECS实例说明

大数据量（10 TB或以上）情况下，推荐使用大数据机型，可以获得极高的性价比。重要当Core核心实例使用本地盘时，HDFS数据存储在本地盘，需要您自行保证数据的可靠性。Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有...

概述

数据内容安全管理安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能，在处理业务流程的过程中，能够快速及时识别存在安全隐患的数据，保障了数据内容的安全可靠，详情请参见数据保护伞。安全诊断的最佳实践 ...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

数据订阅操作指导

数据订阅功能可以帮助您获取数据库的实时增量数据，适用于缓存更新策略、业务异步解耦、异构数据源的数据实时同步和复杂ETL的数据实时同步等多种业务场景。本文介绍数据订阅功能的具体使用流程，帮助您快速掌握创建、监控、管理数据订阅...

大数据用到的语言

新品推荐