大数据思想时间-大数据思想时间文档介绍内容-阿里云

亿海蓝-航运大数据的可视化案例

数据抽取结果存储到Ganos on Lindorm中，Lindorm的低延迟、高性能、高吞吐查询能力保障业务能流畅显示。整体系统架构方案如下图所示：航运数据可视化分析系统架构图如下：业务价值通过阿里云产品的支持，缩短了业务的技术实现周期，降低了...

概述

DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您提供面向数据安全生命周期全过程的安全能力，同时在符合安全规范要求的前提下，提供各类安全诊断的最佳实践。其核心功能如下：数据权限管理安全中心为您提供精细化的数据权限...

快速体验

数据采集数据加工配置数据质量监控数据可视化展现目标人群开发工程师、数据分析师、产品运营等存在数仓数据获取与数据分析洞察人员。涉及产品本案例涉及以下产品：一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、...

用户价值

数据资源平台为用户提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

名词解释

背景信息时间序列数据库 TSDB：英文全称为 Time Series Database，提供高效存取时序数据和统计分析功能的数据管理系统。时序数据（Time Series Data）：基于稳定频率持续产生的一系列指标监测数据。例如，监测某城市的空气质量时，每秒...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

补数据任务概述

代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整的数据进行补全、修正。调度类型说明 Dataphin补数据任务支持两种调度...

补数据任务概述

代码中若使用调度参数，则该参数将根据补数据时选择的业务日期自动替换为具体值，结合业务代码将对应时间数据写入对应分区。帮助您对数据中缺失、错误、重复或不完整的数据进行补全、修正。调度类型说明 Dataphin补数据任务支持两种调度...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见功能概览。DataWorks SQL查询提供了...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

创建同步OSS

同步说明 1）目前DataHub支持将TUPLE和BLOB数据同步到OSS中 TUPLE:采用csv数据格式，每个Record中的column数据以逗号分隔，Record之间采用换行符' ' 分隔 BLOB:采用Append方式进行数据追加，如果用户需要拆分OSS数据，用户需要自己往...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

功能发布记录（2023年）

2023-12 功能名称功能描述发布时间发布地域使用客户相关文档数据开发（DataStudio）绑定数据源若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）...

单值查询数据

说明默认按照时间戳取模对齐，即"对齐时间戳=数据时间戳-（数据时间戳%interval）。支持基于日历时间间隔的降采样。要使用日历界限，您需要在时间单位 units 后添加一个 c。例如，1dc 代表从当日零点到次日零点之间的24小时。aggregator：...

多值数据查询

说明默认按照时间戳取模对齐，即“对齐时间戳=数据时间戳-（数据时间戳%interval）”。支持基于日历时间间隔的降采样。要使用日历界限，您需要在时间单位units后添加一个 c。例如，1dc 代表从当日零点到次日零点之间的 24 小时。...

上传数据

说明当数据量较大时解析时间会比较长，您可以先关闭弹窗，后台会继续导入数据。完成创建后，您可以在我的数据页面，查看创建后的空间数据。上传GeoJSON数据重要 GeoJSON数据文件格式为不带BOM的UTF-8编码格式。单击矢量页签右上角的 ...

上传数据

说明当数据量较大时解析时间会比较长，您可以先关闭弹窗，后台会继续导入数据。完成创建后，您可以在我的数据页面，查看创建后的空间数据。上传GeoJSON数据注意 GeoJSON数据文件格式为不带BOM的UTF-8编码格式。单击矢量页签右上角的 ...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台，通过数据源对接EMR Serverless StarRocks，可实现EMR Serverless StarRocks的数据集成、作业周期性调度，同时结合StarRocks引擎在数据分析和数据...

日志服务通过数据集成投递数据

日志结束时间数据消费的结束时间位点，为时间范围（左闭右开）的右边界，为 yyyyMMddHHmmss 格式的时间字符串（例如 20180111013010）。该参数可以和DataWorks的调度时间参数配合使用。批量条数一次读取的数据条数，默认为256。说明您...

通过DataWorks数据集成迁移日志数据至MaxCompute

日志开始时间数据消费的开始时间位点，为时间范围（左闭右开）的左边界，为 yyyyMMddHHmmss 格式的时间字符串（例如 20180111013000）。该参数可以和DataWorks的调度时间参数配合使用。日志结束时间数据消费的结束时间位点，为时间范围...

新建补数据任务

对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据。本文将为您介绍如何新建补数据任务。操作步骤请参见补数据任务页面入口，进入补数据任务页面。在补数据任务页面，...

新建补数据任务

对于经常补数据的节点，但补数据时间及补数据业务日期不确定的场景，您可以通过创建手动运行的补数据任务进行补数据。本文将为您介绍如何新建补数据任务。操作步骤在Dataphin首页，单击顶部菜单栏的研发。按照下图操作指引，进入新建补...

实时数据订阅概述

Pull模式：您可以使用开源的Kafka客户端直接订阅数据，服务端会暂时保存数据，您需要对保存的数据设置一个过期时间，如果超过这个时间数据会被删除。具体操作请参见通过Pull模式创建数据订阅通道。Push模式：云原生多模数据库 Lindorm ...

查看数据源校验记录

开始结束时间数据源校验的开始时间和结束时间。数据源类型数据源的存储类型。用途数据源用于处理任务的类型。操作单击图标或表名，可进入查看校验详情页面，详情请参见数据源校验记录详情。单击图标，可进入查看质量报告页面。在...

查询时间线最新数据点

请求路径和方法请求路径请求方法描述/api/query/last POST 获得时间线最新写入的数据点重要此端口完全兼容 OpenTSDB 协议。请求内容请求内容JSON格式名字类型是否必需描述默认值举例 queries Array 是子查询数组无见子查询...

从Amazon RDS for PostgreSQL全量迁移至阿里云

注意事项 DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源，可能会导致数据库的负载上升，在数据库性能较差、规格较低或业务量较大的情况下（例如源库有大量慢SQL、存在无主键表或目标库存在死锁等），可能会加重数据库压力，...

多值查询最新数据点

多值模型最新数据点查询（新建mlast）请求路径和方法请求路径请求方法描述/api/query/mlast POST 获得多值模型指标数据中fields 最新写入的数据点。请求内容名称类型是否必选描述默认值举例 queries Array 是子查询数组。无见子...

CREATE TABLE

RANGE_TIME_PARTITION_MAX_OVERLAP 如果写入的数据时间点是将来的时间，这个参数表示写入的数据时间点与当前时刻的最大时间间隔，单位为天。RANGE_TIME_PARTITION_FIELD_TIMEUNIT 表示业务指定的时间分区字段单位，默认单位为毫秒（ms）。...

低成本RDS历史库

背景信息在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量呈大幅增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。挑战：...

应用场景：低成本历史库

背景信息在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量急剧增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。挑战存储...

应用场景

为了降低数据库故障恢复时间，数据库备份DBS提供了表级数据恢复，准确匹配恢复需求。更多详情请参见库表级恢复。优势：时间短：选择库表级恢复时，数据库备份DBS只会读取单个表的数据进行恢复，极大缩短了恢复时间。备份灵活：支持同时...

数据导入方式介绍

为满足多样化的数据导入需求，云原生数据仓库AnalyticDB MySQL版提供了多种数据导入方式，包括：通过外表导入数据、使用DataWorks导入数据和利用JDBC通过程序导入数据等。本文介绍各导入方式的特性及适用场景，帮助您选择正确的数据导入...

低成本历史库

在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量急剧增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。重要 2023年3月10日后...

产品架构

整体架构如下：TSCore 是时序引擎中负责数据组织的核心部分，其整体思想与LSM结构相似，数据先写入Memchunk，然后Flush到磁盘，但由于时序数据天然的顺序写入特征，定向专用的时序文件TSFile的结构设计为以时间窗口进行切片，数据在物理和...

大数据思想时间

新品推荐