国内大数据时代发展历程-国内大数据时代发展历程文档介绍内容-阿里云

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

PolarDB Serverless实现了哪些突破

在国际数据库顶级会议2021 ACM SIGMOD上，一篇标题为《PolarDB Serverless:A Cloud Native Database for Disaggregated Data Centers》的论文，介绍了阿里云自研数据库 PolarDB 基于计算存储分离，实现的最新Serverless技术架构研究进展。...

配置同步任务

配置同步任务是将数据源的数据同步到目标表的过程。本文为您介绍如何配置同步任务。配置流程说明同步任务的配置流程如下图。来源表和目标表均支持多种数据源。数据库类型数据源关系型数据库 MySQL、Oracle、Microsoft SQL Server、...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

通过数据传输服务DTS（Data Transmission Service），可以实现 PolarDB PostgreSQL版（兼容Oracle）集群间的迁移。背景信息 PolarDB PostgreSQL版（兼容Oracle）作为一款企业级关系型数据库管理系统，具有广泛的应用和强大的社区支持。每个...

DQL操作常见问题

本文为您介绍在MaxCompute中执行DQL操作过程中的常见问题。问题类别常见问题 GROUP BY 在执行MaxCompute SQL过程中，报错Repeated key in GROUP BY，如何解决？在执行MaxCompute SQL过程中，报错Expression not in GROUP BY key，如何解决...

功能特性

PolarDB MySQL数据导入 PolarDB-X数据导入自建MySQL数据源 AnalyticDB for MySQL支持通过外表将ECS自建MySQL数据库中的数据导入至数仓版集群，同时也支持将数仓版集群中的数据导出至自建的MySQL数据库。自建MySQL数据导入导出至自建MySQL...

接入数据库

在使用数据安全中心DSC（Data Security Center）检测云产品（包括OSS、RDS、PolarDB等）中存在的敏感数据或审计数据库活动前，您需要先将数据库接入DSC。本文介绍如何将数据库接入DSC。背景信息 DSC 支持的数据库类型详情，请参见支持的...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版提供的多种数据导入方法，满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响，如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

数据导入性能优化

云原生数据仓库AnalyticDB MySQL版提供的多种数据导入方法，满足不同场景下的数据导入需求。然而数据导入性能依然受各种各样的因素影响，如表的建模不合理导致长尾、导入配置低无法有效利用资源等。本文介绍不同场景下的数据导入调优方法...

数据归档

RDS MySQL实例数据量较大时，存储成本会随之增高。业务数据通常分为冷数据和热数据，将对象存储（OSS）作为归档冷数据的存储介质，能够大幅降低用户的存储成本。功能简介在开启RDS MySQL通用云盘的数据归档OSS功能后，用户可通过执行下面...

DataWorks数据服务对接DataV最佳实践

DataV通过与DataWorks数据服务的对接，通过交互式分析Hologres连接DataWorks数据服务开发并生成API，快速在DataV中调用API并展现MaxCompute的数据分析结果。数据服务对接DataV产生背景 MaxCompute是阿里巴巴集团自主研究的快速、完全托管的...

管理健康报告

该健康报告提供了前一天（T+1）的数据，并包括SQL查询、表分析和导入任务三个核心部分。查看健康报告进入EMR Serverless StarRocks实例列表页面。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>StarRocks。在顶部菜单栏处，...

离线同步常见问题

读取Loghub同步某字段有数据但是同步过来为空读取Loghub同步少数据读取Loghub字段映射时读到的字段不符合预期读取kafka配置了endDateTime来指定所要同步的数据的截止范围，但是在目的数据源中发现了超过这个时间的数据 Kafka中数据量少...

配置ClickHouse输出组件

同步其他数据源的数据至ClickHouse数据源的场景中，完成源数据的信息配置后，需要配置ClickHouse输出组件写入数据的目标数据源。本文为您介绍如何配置ClickHouse输出组件。前提条件在开始执行操作前，请确认您已完成ClickHouse数据源及...

离线同步任务运维

表数据质量监控数据集成部分目标端数据源支持配置产出表的数据质量监控，您可以进入数据质量规则页面，对数据同步写入的目标表配置数据质量校验规则。对于配置了数据质量监控规则的表，当表关联的调度节点运行（执行节点代码逻辑）完成后...

同步时源库为Db2 for LUW的注意事项及限制

说明如为增量同步任务，DTS要求源数据库的数据日志保存24小时以上，如为全量同步和增量同步任务，DTS要求源数据库的数据日志至少保留7天以上（您可在全量同步完成后将数据日志保存时间设置为24小时以上），否则DTS可能因无法获取数据日志...

配置ClickHouse输出组件

同步其他数据源的数据至ClickHouse数据源的场景中，完成源数据的信息配置后，需要配置ClickHouse输出组件写入数据的目标数据源。本文为您介绍如何配置ClickHouse输出组件。前提条件在开始执行操作前，请确认您已完成ClickHouse数据源及...

未来规划

云计算架构的核心逻辑就是通过虚拟化技术带来池化资源，云原生数据库采用分布式数据库架构，实现大规模扩展，每套数据库系统横跨多台服务器和虚拟机，带来了全新的系统管理挑战。其中最核心的挑战就是如何实现弹性以及高可用，实现按需按量...

新零售：杭州数云信息技术有限公司

所属行业：新零售网站地址：数云信息技术有限公司公司介绍杭州数云信息技术有限公司成立于2011年，伴随着电子商务、大数据应用和零售企业互联网化的趋势快速发展，目前已成为国内领先的数据化营销软件产品和服务提供商。数云致力于为...

自媒体：易撰

所属行业：自媒体网站地址：易撰客户介绍长沙营智信息技术有限公司是专业的新媒体大数据服务商，其旗下知名品牌易撰，基于新媒体大数据挖掘技术及NLP算法分析，为各内容创客、广告主提供全面、科学、精准的大数据分析服务以及大数据架构...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

面临的业务挑战

数据来源上包含数据库数据、日志数据、对象数据以及已有数仓上的存量数据等。这些不同来源、不同格式的数据，各自又有不同的访问和分析方式，而大量传统企业基于关系数据库构建自己的业务系统，已经非常熟悉按SQL的方式去使用数据，这无疑...

离线同步日志分析

本文为您介绍如何查看离线同步任务执行过程中的日志详情。进入日志详情页您可以在运维中心或DataStudio界面查看任务运行日志。模块描述运维中心您可以进入周期实例、测试实例、补数据实例等页面，通过筛选条件过滤出需要查询的实例，...

离线同步任务调优

本文为您介绍影响数据同步速度的因素、如何通过调整同步任务的并发配置来实现同步速度最大化、作业的限速选项，以及数据同步过慢的场景。文档概述同步速度受同步任务本身配置、数据库、网络等多方面影响，详情请参见：数据同步速度的影响...

什么是DataWorks

阿里云上发展历程 2015年DataWorks正式上云，将多年沉淀的大数据建设方法论产品化输出，服务阿里云上客户，通过不断迭代的产品能力，DataWorks正在与各行各业的客户与合作伙伴一起，通过全链路数据治理，管得好数据、用得好数据，让数据从...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

产品概述

相比基于分布式存储的新型Cloud Native数据库，理论上 PolarDB-X 1.0 的扩展性没有上限，打消业务在快速发展的过程中针对数据库扩展性产生的后顾之忧与运维压力。持续可运维对于绝大部分应用而言，关系型数据库需要保证能够7 x 24小时稳定...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

低成本RDS历史库

背景信息在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量呈大幅增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。挑战：...

低成本历史库

在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量急剧增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。重要 2023年3月10日后...

发展历程

本文为您介绍了MaxCompute从诞生到成熟的发展历程。关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到...

全球数据库市场发展与机遇

数据库起源于上世纪70年代，在技术发展浪潮中历久弥新，已成为IT科技的核心技术之一，支撑着现代社会的经济活动和商业文明。长期以来，全球商业化数据库主要以Oracle、IBM、Microsoft、SAP传统四大厂商为主。随着新金融、新零售、新制造、...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品，可以实现互联网、电商网站的离线数据分析，且支持通过DataV大屏展示分析后的业务指标数据。概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标...

应用场景

可以将访问频度非常高的数据存储在云数据库 Memcache 版中，底层数据存储在 RDS 中。大型促销类业务大型促销秒杀系统，系统整体访问压力非常大。一般的数据库根本无法承载这样的读取压力，可选用云数据库 Memcache 版存储。带有计数器的...

适用场景

按应用类型选择 PolarDB-X 1.0 产品在高并发、分布式事务、复杂SQL优化、并行计算等方面都有比较好的用户沉淀和技术发展，适用于如下场景：对超高并发和大规模数据存储有较高要求的互联网在线事务类业务场景。传统企业级应用因业务发展导致...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

产品优势

数据安全中心DSC（Data Security Center）可扫描和识别海量数据，帮您实时获取数据的安全状态。本文介绍数据安全中心的产品优势。合规性使用数据安全中心产品，可以帮助企业满足等保2.0对“云计算环境下安全审计”及“个人信息保护”的...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

国内大数据时代发展历程

新品推荐