大数据怎么用-大数据怎么用文档介绍内容-阿里云

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

大数据安全治理的难点

使用大数据系统的常见人员包括开发、运营、分析师，甚至销售及HR都会来查询自己所需的数据。如此多类型的用户，授权、管理难度加大，什么样的人员需要授予什么样的权限？如果他们离职、换部门了怎么办？这其中很有可能出现权限蠕变、过度...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持的组件以控制台实际展示为准。集群类型场景介绍 ...

使用DataV大屏展示阿里云Elasticsearch数据

通过在DataV中添加阿里云Elasticsearch数据源，您可以使用DataV访问阿里云Elasticsearch服务，完成数据的查询与展示。本文介绍如何使用DataV大屏展示阿里云Elasticsearch数据。前提条件您已完成以下操作：创建阿里云Elasticsearch实例。...

功能简介

洞察是一款自助式数据挖掘分析型，面向业务管理者、运营、业务分析师等人员提供低使用门槛的智能、自动化、全面、精准的数据诊断和分析能力，智能发现数据规律或异常，实现从数据到知识的提取，辅助业务决策。几乎每个业务每天都存在业务...

RDS SQL Server空间不足问题

由于tempdb库总是使用简单恢复模式，因此tempdb库的日志文件通常很小，但是数据文件容易增长地很快，例如创建大量临时表、连接大表或排序等都可能导致tempdb库数据文件空间增加。解决方案尽量从数据库应用层面规避，例如减少不必要的临时...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

快速体验

说明本次实验数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。技术选型数据建模：大数据开发治理平台 DataWorks数据建模（可选），标准版及以上版本可使用，需要单独购买。原始数据存储：云...

全景视角

数据使用视角：在数据分析、发布或使用数据服务等数据使用场景下，建议您使用数据使用视角，关注查看数据使用过程中，浏览、访问过的表列表、拥有权限的数据服务等方面的情况。详情请参见：数据使用视角。数据生产视角：在数据开发场景下，...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

操作指南

一、大数据专家服务流程指南二、服务流程说明用户可以根据自己实际需要，提前或者在问题发生时购买大数据专家服务，服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、跨地域迁移支持服务、大数据专家高阶...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

OSS Foreign Table功能概览

与OSS External Table的对比 OSS Foreign Table在性能、功能以及稳定性上都优于OSS External Table，具体信息如下：功能 OSS Foreign Table OSS External Table 导入OSS数据或导出数据到OSS 支持支持 OSS数据分析（大数据量场景）大数据量...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

应用场景

访问频度极高业务如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作流程。

IoT数据自动化同步至云端解决方案

下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行读取，详情请参见 OSS Reader。选择数据去向进行写入，本文以 MaxCompute...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有...说明目前使用DDM进行数据建模可以进行逻辑建模和物理建模，但物理建模仅支持MaxCompute和Hive两种大数据引擎，不支持自定义数据源类型。

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

DataWorks快速入门指引

教程指南教程列表示例场景操作难度预计时长 大数据AI公共数据集分析 DataWorks、MaxCompute 使用DataWorks快速分析公共数据集的数据。15分钟 Github实时数据同步与分析 DataWorks、Hologres、DataV 基于GitHub Archive公开数据集实时...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

账单数据订阅及查询分析

DataWorks及MaxCompute：DataWorks基于MaxCompute等大数据引擎，支持您在线进行SQL分析、业务洞察、编辑和分享数据，以及将查询结果保存为可视化图表卡片，快速搭建可视化数据报告。订阅账单数据后，用户中心会将相关账单数据同步至指定...

数据分析整体趋势

大数据与数据库一体化：早期大数据技术以牺牲一定程度一致性为基础提供分布式能力，解决了传统单机数据库的扩展性不足问题，在MapReduce基础上提供了标准SQL接口，架构上也逐步采用了部分MPP数据库技术；另一方面，分布式数据库也快速发展...

AnalyticDB MySQL 2.0 DLA SelectDB NoSQL数据库 Redis MongoDB Memcache Cassandra Lindorm SQL Lindorm Phoenix Lindorm CQL Lindorm TSDB Lindorm HBase Graph Database 大数据 MaxCompute MaxCompute Lighting Hologres 文件及日志 OSS...

DataWorks V3.0

MapReduce：E-MapReduce（Elastic MapReduce，简称EMR）构建在阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其它周边系统（例如Hive），来分析和处理自己的数据的大数据引擎...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

JindoFS介绍和使用

A：因为JindoFS SDK和Cache模式完全兼容OSS对象存储语义，具有完全的存储分离架构和弹性灵活性，所以，针对典型的数据湖场景，推荐您使用SDK或者Cache模式以支持大数据分析和AI训练加速。Q：为什么Block模式跟HDFS相比，是更好的HDFS？A：...

大数据怎么用

新品推荐