怎么样使用大数据-怎么样使用大数据文档介绍内容-阿里云

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持的组件以控制台实际展示为准。集群类型场景介绍 ...

ECS实例说明

大数据量（10 TB或以上）情况下，推荐使用大数据机型，可以获得极高的性价比。重要当Core核心实例使用本地盘时，HDFS数据存储在本地盘，需要您自行保证数据的可靠性。Task计算实例用于补充集群的计算能力，可以使用除大数据型外的所有...

容量中心

容量中心可以反映集群、租户、数据库、表、索引的资源使用情况及使用趋势，告知客户是否存在容量风险，便于客户及时进行扩容等操作。操作步骤登录 OceanBase 管理控制台。在左侧导航栏中，单击自治服务。在实例详情区域，单击需要查看...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

功能简介

洞察是一款自助式数据挖掘分析型，面向业务管理者、运营、业务分析师等人员提供低使用门槛的智能、自动化、全面、精准的数据诊断和分析能力，智能发现数据规律或异常，实现从数据到知识的提取，辅助业务决策。几乎每个业务每天都存在业务...

应用场景

云数据库MongoDB版支持单节点、副本集和分片集群三种部署架构，具备安全审计、时间点备份等多项企业能力。在互联网、物联网、游戏、金融等...大数据应用：使用云数据库MongoDB作为大数据的云存储系统，随时进行数据提取分析，掌握行业动态。

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时，支持对开发、测试、生产等环境进行隔离，当您联合使用了其他阿里云产品时，也可根据环境隔离诉求进行对应业务的环境设置与隔离，本文以DataWorks联合EMR、OSS等产品为例，为您介绍如何实现开发生产等多套...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息，请参见行业客户案例...

概览

为了更好地指导您使用数据管理DMS（Data Management），DMS推出解决方案系列文档，旨在通过最佳实践（Step by Step）的形式向您介绍DMS研发流程、数据安全、数据开发的解决方案。研发流程解决方案 DMS为在线流程化系统，可统一管理企业内...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

面临的业务挑战

系统极复杂 大数据平台普遍存在使用复杂的问题。用户希望专注于核心业务，而非底层技术。用户希望使用的是“开箱即用”的方案，而不是陷入到高昂的学习成本、繁复的技术细节之中。用户渴望拥有一个简单易用的平台。此外，大数据平台的组合...

概述

如果使用自建开源大数据生态体系，例如Hive、Spark等，需要专门的大数据工程师来操作和运维，且操作流程也不像使用MySQL一样简单，成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB...

索引优化

大数据集场景下优先考虑稀疏索引：如果您的数据量非常地大，并且您的查询限定条件为<、、=、>=、>，需要从大数据量的表中取出少于50%的数据，那么使用稀疏索引（BRIN Index或者AOCS表的metascan）可以极大地减少无效数据的加载。...

使用须知

本文介绍使用Lindorm计算引擎SQL语句访问数据库的数据时，需要提前了解的相关内容。了解开源Spark SQL 通过开源Spark SQL访问数据库的数据分为以下三个级别：Catalog：用来标识用户不同的数据源。Namespace：与数据库中的Database或者...

通过RAM角色授权模式配置数据源

因此，云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole，并限制可以使用角色的人员为大数据团队的相关人员，实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为阿里云账号、角色名称为 BigDataOssRole 的自定义...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

阶段一：基础防护建设

场景四：开源身份隔离企业通常会使用DataWorks联合各类大数据引擎（例如，MaxCompute、E-MapReduce）进行数据开发。使用DataWorks及MaxCompute进行数据开发时，在标准模式工作空间下默认支持身份权限隔离。使用DataWorks及E-MapReduce时，...

高压缩引擎（X-Engine）介绍

挑战和诉求：历史数据归档历史数据归档的挑战大部分业务数据的读写特征，都是最新产生的数据会被更频繁地读取或更新，而更久之前的数据（如1年前的聊天记录或订单信息）很少被访问。随着业务发展，数据库系统中会积累大量访问频率很低...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

配置数据源

使用数据服务创建API前，需先将您的数据库或数据仓库添加为DataWorks数据源，以此作为数据服务API的数据来源。开发数据服务API时，数据服务将访问该数据源获取数据表的Schema信息，帮助您进一步设置请求和返回参数。本文为您介绍如何配置...

混合存储型（已停售）

正在使用大容量的主备或者集群Redis。数据量小，或者预算充足且暂时无需降低存储成本。冷热数据分布业务中冷热数据区分明显。说明冷数据即访问频率较低的数据。业务中的数据访问完全随机。冷热数据的性能和延迟要求热数据访问场景对性能...

混合存储型（已停售）

使用混合存储型，将所有课程信息存储到磁盘，访问量大的课程和题库数据存储到内存并常驻内存，保证高频访问数据的读写性能，实现高性能与高性价比的有机结合。典型业务场景的示例如下：场景1：使用开源Redis集群存储了100GB的数据，但高峰...

冷热分离

背景信息在海量大数据场景下，一张表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低，同时这部分历史数据体量非常大，比如订单数据或者监控数据，降低这部分数据的存储成本将会极大的节省企业的成本。因此，如何以极简的...

数据服务概述

使用场景最小粒度的数据输出控制当企业需要对外提供数据时，可以使用调用API的方式，该方式可帮助用户仅暴露最小单元的数据（可控制到行级、列级）。使用API数据源进行可视化制作在多数可视化工具中使用API数据源来分析数据，而不是对外...

全景视角

数据使用视角：在数据分析、发布或使用数据服务等数据使用场景下，建议您使用数据使用视角，关注查看数据使用过程中，浏览、访问过的表列表、拥有权限的数据服务等方面的情况。详情请参见：数据使用视角。数据生产视角：在数据开发场景下，...

数据脱敏能力概述

DataWorks为您提供了数据开发/数据地图展示脱敏、数据集成静态脱敏、数据分析展示脱敏、MaxCompute引擎层脱敏、Hologres引擎层脱敏等一级脱敏场景，您可直接使用。若该类场景指定生效的数据范围及用户范围无法满足您更细化的脱敏需求，则...

独享资源组

独享资源组使用场景独享调度资源组使用场景独享数据集成资源组使用场景独享资源组网络配置独享资源组访问VPC环境下数据的前提条件是什么？如何查看数据源的网络环境？添加独享资源组白名单独享资源组商业化行为如何对资源组进行续费...

概述

DataHub数据同步功能 DataHub提供数据Sink/Source功能，即数据同步功能，DataHub支持将对应Topic中的数据实时/准实时的同步到第三方阿里云产品中，打通阿里云产品间的数据流通。目前支持MaxCompute（原ODPS）、分析型数据库MySQL(ADS)、...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们离职、换部门了怎么办？这其中很有可能出现权限蠕变、过度...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

入门概览

本文旨在介绍如何购买实例、创建账号、设置白名单、导入数据、连接实例和查询分析图，使您能够了解从购买图数据库GDB到开始使用的流程。前提条件如果您是初次使用图数据库GDB，请先了解相关使用限制。具体信息，请参见使用须知。如果您...

场景管理器

图表样式场景管理器是3D地球的子组件，支持独立的样式、数据和交互配置，能够使用数据定义镜头位置，通过移动和缩放的动效展示球体的不同位置。样式面板搜索配置：单击样式面板右上角的搜索配置项图标，可在搜索配置面板中输入您需要...

怎么样使用大数据

新品推荐