大数据能做什么 2017-大数据能做什么 2017文档介绍内容-阿里云

Github实时数据同步与分析

我能学到什么学会通过DataWorks实时同步数据。熟悉使用DataV大屏进行可视化操作。操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

Tunnel命令常见问题

使用Tunnel Upload命令上传数据时，如果数据使用空格作为列分隔符，或需要对数据做正则表达式过滤时，如何解决？Tunnel Upload完成后，存在脏数据，如何解决？Tunnel Download Tunnel Download导出格式有哪些？在同一地域内使用Tunnel ...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

DQL操作常见问题

ORDER BY MaxCompute查询得到的数据是根据什么排序的？MaxCompute是否支持ORDER BY FIELD NULLS LAST语法？执行MaxCompute SQL过程中，报错ORDER BY must be used with a LIMIT clause，如何解决？子查询在执行MaxCompute SQL过程中，使用...

分区表常见问题

是的，分区表把数据切分成小的分片独立管理，从而使得拥有大数据量的表仍然拥有高性能和高可用。分区表的更多介绍请参见分区表概述。业务上估算单张表的数据量为2 TB，选择使用 PolarDB MySQL版还是PolarDB-X？PolarDB MySQL版单表最大...

常见问题

在数据水印的基础上，数据安全中心通过系统内置的异常事件检测，对运维高危操作、异常访问、拖库攻击、数据库注入、数据库外联、数据库高危操作等行为进行监控告警，覆盖传统数据库的基础上，还支持对象存储OSS、大数据平台MaxCompute以及...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

文档修订记录

Check节点 2024.1.12 新增功能最佳实践新增DataWorks大数据安全治理实践新增指南，为您介绍数据安全治理的常见思路、DataWorks产品的安全能力，以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

数据传输服务概述

数据传输服务是MaxCompute数据进出的最重要通道，其中包括适用于批量操作的普通Tunnel和适用于流式写入的Stream Tunnel，同时在所有Region提供免费限量使用的数据传输服务共享资源组，也提供数据传输服务（包年包月）独享资源组，供您采购...

实时同步常见问题

写端延迟大目标数据库性能、负载等问题当数据库负载较高时，单一的调整同步任务并发并不能解决问题，您需要联系数据库管理员寻求相关帮助。读写端延迟大使用公网同步，网络问题导致同步任务延迟。公网同步无法保障实时同步时效性，建议...

补数据

补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据选择业务时间昨天和今天，也会出现等待时间的情况？为什么补数据选择补0点~1点生成...

流式数据通道概述

流式服务在API上极大简化了分布式服务的开发成本，同时解决了批量数据通道在高并发、高QPS（Queries-per-second）场景下的性能瓶颈。本文为您介绍如何使用流式数据通道服务。功能介绍 MaxCompute流式数据通道服务已商业化且不计费，您可以...

SQL其他常见问题

定时（例如每天）对ODS层的增量数据做数据清洗，复杂字段拆分为多个简单字段，然后存储在CDM层的表中，便于统计和分析数据。在执行MaxCompute SQL过程中，报错partitions exceeds the specified limit，如何解决？问题现象在执行...

执行补数据并查看补数据实例（旧版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

常见问题

搜索索引的数据一致性默认为最终一致，数据写入宽表后需等待1-15秒后才可查询，如果希望数据能更快可查询，请提交工单咨询。二级索引的数据一致为强一致，数据写入宽表即可查询。为什么已购买搜索引擎，使用搜索索引还需要单独开通？搜索...

常见问题

为什么增量同步任务不能同步数据？如果DTS实例只配置了增量同步任务，则DTS只会同步任务启动之后的增量数据，任务启动前的数据不会同步至目标库。建议配置任务时同时勾选增量同步、库表结构同步和全量同步，以保障数据一致性。同步RDS...

数据库代理常见问题

目录什么是数据库代理？通用型代理和独享型代理有什么区别？数据库代理是否占用主实例的QPS或者TPS？数据库代理地址和常规地址是否是一个地址？开通数据库代理后，实例原来的地址和只读实例的地址是否会被收回？数据库代理的内网网络类型...

执行补数据并查看补数据实例（新版）

补数据可通过补历史或未来一段时间的数据，将写入数据至对应时间分区。代码中的调度参数，将根据补数据选择的业务时间自动替换为具体值，并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑，与任务定义的代码...

资产安全概述

通过数据分类分级、敏感数据识别、敏感数据脱敏等措施，帮助客户建立完善的数据安全体系，确保数据使用的安全合规性。前提条件已购买资产安全增值服务，详情请参见开通Dataphin。应用场景基于Dataphin实现数据安全保护的一些典型的...

资产安全概述

通过数据分类分级、敏感数据识别、敏感数据脱敏等措施，帮助客户建立完善的数据安全体系，确保数据使用的安全合规性。前提条件已购买资产安全增值服务并且当前租户已开通资产安全模块。应用场景基于Dataphin实现数据安全保护的一些...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

新功能发布记录

PostgreSQL数据库管理 PostgreSQL数据库账号权限管理 04月功能名称变更类型功能描述相关文档数据安全防护新增数据安全防护能为数据库实例生成的代理地址，为应用程序调用企业数据库带来更全面的安全管控、访问控制、数据脱敏以及...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

数据库管理常见问题

在控制台删除数据库后，为什么仍能看到这个数据库？删除数据库的操作是在后台异步执行的，如果数据库较大，删除可能需要一定的时间。如果经过较长时间仍未删除成功，可能是因为存在MDL锁导致删除操作被阻塞或删除失败，排查方法请参考查看...

操作指南

一、大数据专家服务流程指南二、服务流程说明用户可以根据自己实际需要，提前或者在问题发生时购买大数据专家服务，服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、跨地域迁移支持服务、大数据专家高阶...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

大数据能做什么 2017

新品推荐