大数据带来的四种思维-大数据带来的四种思维文档介绍内容-阿里云

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

通过RAM角色授权模式配置数据源

本文以OSS数据源为例，为您介绍如何通过RAM角色授权模式配置数据源，提高云上数据的安全性。前提条件如果您需使用RAM用户登录并完成本文操作流程，请先为RAM用户授予 AliyunDataWorksFullAccess 和 AliyunRAMFullAccess 权限策略，详情请...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

最佳实践

PolarDB-X 2.0结合新老应用的库表使用、SQL复杂情况以及对性能吞吐的要求，将用户的应用场景大体上划分为四种典型类型，如下表所示：应用类型示例总体概况 SQL 特点大量存量业务的应用某医疗公司或医院已使用10+年的业务系统，系统存在...

负载均衡

如上图所示，假设 PolarDB 集群中只存在一个RW节点和三个RO节点，在不考虑一致性的前提下，三种场景下的请求路由和数据读取效率如下：非按需建联用户的一个会话通过数据库代理会与四个数据库都建立连接，并且广播语句会路由到四个数据库...

常见问题

StarRocks的数据模型主要有四种，分别为duplicate key、uniq key、agg模型和primary key模型，他们对于count的实现有比较大的区别。具体区别如下：duplicate key：该模型不需要做merge操作，所以count比较快。uniq key和agg模型：对count...

Join优化

四种Shuffle方式对比如下。Shuffle方式网络开销物理算子适用场景 BroadCast N*T(R)Hash Join/Nest Loop Join 通用 Shuffle T(S)+T(R)Hash Join 通用 Bucket Shuffle T(R)Hash Join Join条件中存在左表的分布式列，且左表在执行时只使用...

PyODPS概述

整个流程中，下载上传数据消耗了大量的时间，并且在执行脚本的机器上需要很大的内存处理所有的数据，特别是对于使用DataWorks节点的用户来说，很容易因为超过默认分配的内存值而导致OOM运行报错。高效处理代码demo from odps.df import ...

术语表

三权分立可以将高权限账号拥有的权限分给系统管理员、安全管理员和审计管理员这3个角色，避免因权限高度集中带来的风险，增强数据库的安全性。三权分立主要运用于金融业务场景中。白名单为PolarDB-X实例提供访问安全保护，设置白名单并不...

DataStudio侧实时同步任务配置

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，将多种输入及输出数据源搭配组成同步链路，进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务，并在创建完成后查看任务运行情况。前提...

MySQL分库分表同步至Hologres（方案1.0）

本文以MySQL分库分表实时写入Hologres场景为例，为您介绍如何通过数据集成同步分库分表数据至Hologres。前提条件已完成Hologres和MySql数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来控制...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

MySQL分库分表同步至MaxCompute

本文以MySQL分库分表实时写入MaxCompute场景为例，为您介绍如何通过数据集成同步分库分表数据至MaxCompute。前提条件已完成MaxCompute和MySQL数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来...

MySQL分库分表同步至MaxCompute

本文以MySQL分库分表实时写入MaxCompute场景为例，为您介绍如何通过数据集成同步分库分表数据至MaxCompute。前提条件已完成MaxCompute和MySQL数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来...

数据集成侧同步任务配置

完成数据源、网络、资源的准备配置后，您可以根据同步场景选择同步解决方案，创建并执行同步任务，将源端数据同步至目标端。本文为您介绍同步任务的通用配置流程，不同的同步方案配置流程可能存在差异，对应方案配置详情请以界面为准。前提...

数据服务权限列表

数据服务中的角色有服务项目管理员、开发用户、业务应用用户和运维用户四种角色。本文为您介绍在数据服务中用户可以被授予的角色及角色权限范围和具体角色的权限点。在数据服务中，用户可以被授予的角色及角色权限范围，请参见下表。用户 ...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

计费概述

产品定价 DTS提供数据迁移、数据同步、数据订阅及数据校验四种功能，每种功能的计费方式略有不同。数据迁移：仅支持按量付费模式，收取配置费用及公网流量费，其中配置费用只对增量迁移的正常运行时间收取。数据订阅：支持包年包月及按量...

配置规则：按表（单表）

数据质量支持按照数据表配置质量监控规则，用来监控表数据是否符合要求，自动拦截问题任务，阻断脏数据向下游蔓延，保障产出的表数据符合预期。本文为您介绍如何配置表的质量监控规则并执行质量监控及其他相关操作。前提条件已采集引擎...

概述

数据内容安全管理安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能，在处理业务流程的过程中，能够快速及时识别存在安全隐患的数据，保障了数据内容的安全可靠，详情请参见数据保护伞。安全诊断的最佳实践 ...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

云原生大数据计算服务 MaxCompute

云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

轨迹线层（v3.x版本）

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

术语表

M MapReduce MapReduce是处理数据的一种编程模型，通常用于大规模数据集的并行运算。您可以使用MapReduce提供的接口（Java API）编写MapReduce程序，来处理MaxCompute中的数据。编程思想是将数据的处理方式分为Map（映射）和Reduce（规约）...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

轨迹线层（v3.x版本）

参数说明轨迹线型单击下拉框，选择一种轨迹线类型样式，系统默认内置四种类型的轨迹线。轨迹粗细设置轨迹线的粗细大小值，参见尺寸映射器使用说明，配置不同轨迹线的粗细大小映射样式。轨迹颜色数据中value字段值对应轨迹线的颜色。...

轨迹线层（v4.x版本）

参数说明轨迹线型单击下拉框，选择一种轨迹线类型样式，系统默认内置四种类型的轨迹线。轨迹粗细设置轨迹线的粗细大小值，请参见尺寸映射器使用说明，配置不同轨迹线的粗细大小映射样式。轨迹颜色数据中 colorField 字段值对应轨迹线...

什么是备份数据量

本文介绍数据库备份DBS 中备份数据量的概念。名词解释备份数据量，是指通过DBS备份链路的数据量。常见概念在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库...

数据导入方式介绍

为满足多样化的数据导入需求，AnalyticDB for MySQL 提供了多种数据导入方式，包括：通过外表导入数据、通过DataWorks导入数据、通过DTS导入数据以及使用JDBC通过程序导入数据等。您可以通过本文了解各导入方式的特性及适用场景，帮助您...

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

数据查询

使用预降采样查询提升查询性能大范围的时间查询预降采样通过存储引擎将写入的数据降低精度后单独存储，查询时按查询条件中指定的降采样精度自动查询最接近预降采样精度的数据，然后再对查询的数据进行聚合计算，减少实时查询的计算数据...

添加数据集

DataV数据集支持多种数据源的接入，如数据库、excel表格文件等，通过对数据的结构化存储和元数据的汇集整理，提供高效实用的数据建模能力，可用的算子包括常见的数据聚合函数、按不同时间粒度划分、地理信息处理等。本文为您介绍如何在...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

数据归档概述

当线上数据库中的历史数据（访问率很低的数据）越来越多，占用的存储越来越大，以至于会影响数据库的查询性能与业务运转，此时您可以使用数据管理DMS 的数据归档功能，周期性地将指定表的数据归档至其他数据库或存储服务中。同时，该功能...

大数据带来的四种思维

新品推荐