大数据客服-大数据客服文档介绍内容-阿里云

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

产品优势

DataWorks具有强大的基础能力，可以为您大幅提升工作效率，保障数据准时产出，助力数据治理，让您零成本构建数据服务。学习成本低非技术人员1~2小时即可掌握完整的数据开发、治理流程，告别传统命令行，节省巨大的学习成本。让您可以在同...

DataWorks产品安全能力介绍

备份与恢复：云原生底层存储天然支持三份副本备份，同时，大数据计算服务MaxCompute提供数据备份与恢复功能，您可对保留周期内的数据进行快速恢复，避免因错误操作丢失数据。安全销毁：阿里云上落盘的数据一经删除，永久不可恢复；同时，...

快速体验

涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控，以及数据可视化展现，您需提前开通该服务。详情请参见开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

创建GreenPlum数据源

通过创建GreenPlum数据源能够实现Dataphin读取GreenPlum的业务数据或向GreenPlum写入数据。本文为您介绍如何创建GreenPlum数据源。背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

功能特性

计算 MaxCompute向用户提供了多种...数据公网下载数据传输独享资源数据传输服务（包年包月）资源组是MaxCompute为满足部分客户数据传输的需求推出的独享资源组，保障了数据传输资源的独享性，并提高了数据传输的稳定性。数据传输独享资源

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

新零售：杭州数云信息技术有限公司

数云客户业务是天猫CRM系统提供商，客户数据库的部署模式是多租户部署，即每个实例上会部署一个或多个数云的客户的数据，因此数云使用的数据库实例数据量都比较大，较大的实例存储容量一般在2 TB~3 TB左右，约有上百个实例来满足该业务需求...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

支持的云服务

AnalyticDB for MySQL 云原生数据仓库 AnalyticDB MySQL 版（AnalyticDB for MySQL）是海量数据实时高并发在线分析（Realtime OLAP）云计算服务，与MaxCompute结合应用于大数据驱动业务系统的场景。通过MaxCompute离线计算挖掘，产出高质量...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

创建MaxCompute数据源

背景信息 MaxCompute即阿里云大数据计算服务，适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

准备数据源和计算源

准备数据源 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型及操作指导，请参见 Dataphin支持的数据源。重要确定业务数据源类型后，在Dataphin创建...

慢日志

慢日志问题极大地影响数据库的稳定性，当数据库出现负载高、性能抖动等问题时，数据库管理员或开发首先会查看是否有慢日志在执行。数据库自治服务DAS（Database Autonomy Service）支持慢日志分析功能，会统计并分析数据库中执行时间超过...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

Delta Lake概述

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

2023年

MaxCompute服务不可用赔付案例说明 2023-07-25 新增MaxCompute停止服务规格转换操作指引新说明阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务，您需要将这些版本的计算资源转换为...

内存型

云原生内存数据库Tair 内存型（简称内存型）适合并发量大、读写热点多、高性能场景，内存型重点增强了多线程性能并集成多个自研扩展数据结构。购买方式创建实例主要优势类别说明兼容性 100%兼容原生Redis，无需修改业务代码，提供 ...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka至湖仓版（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS至湖仓版（推荐）大数据 Hive 数据迁移 Hive数据导入相关文档 AnalyticDB...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

2024年

数据输入输出 2024-03-26 新增准备工作新说明 MaxCompute支持通过标准MaxFrame SDK（本地MaxFrame客户端）、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame，本文为您介绍使用MaxFrame前需要准备的运行环境。准备工作 2024-03-...

功能发布记录（2023年）

2023-12 功能名称功能描述发布时间发布地域使用客户相关文档数据开发（DataStudio）绑定数据源若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

RDS迁移至MaxCompute实现动态分区

本文为您介绍如何使用DataWorks数据集成同步功能自动创建分区，动态地将RDS中的数据迁移至MaxCompute大数据计算服务。前提条件准备DataWorks环境开通MaxCompute。在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见 ...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

数据源白名单配置

产品名称操作说明云原生大数据计算服务MaxCompute 设置白名单实时数仓Hologres IP白名单云数据库ClickHouse 设置白名单消息队列Kafka版配置白名单云原生分布式数据库PolarDB-X 设置白名单云原生分布式数据库PolarDB-X（2.0）设置白...

通过RAM角色授权模式配置数据源

本文以OSS数据源为例，为您介绍如何通过RAM角色授权模式配置数据源，提高云上数据的安全性。前提条件如果您需使用RAM用户登录并完成本文操作流程，请先为RAM用户授予 AliyunDataWorksFullAccess 和 AliyunRAMFullAccess 权限策略，详情请...

限制说明

项目限制说明数据类型云数据库 Memcache 版仅支持 Key-Value 格式的数据，不支持 array、map、list 等复杂类型的...连接处理云数据库 Memcache 版服务端不会主动关闭空闲的客户端连接。数据过期 Key 过期时间建议由用户主动控制和管理。

慢日志分析

慢日志问题极大地影响数据库的稳定性，当数据库出现负载高、性能抖动等问题时，数据库管理员或开发首先会查看是否有慢日志在执行。数据库自治服务DAS（Database Autonomy Service）支持慢日志分析功能，会统计并分析数据库中执行时间超过...

典型场景

大数据分析平台对于MaxCompute、Hadoop和Spark中保存的海量数据，可通过采用数据集成服务（DataX）或通过对象存储服务（OSS），快速批量导入到云原生数据仓库AnalyticDB PostgreSQL版，帮助您实现高性能分析处理和在线数据探索。数据湖...

大数据客服

新品推荐