数据服务入门

操作流程 步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,需先将您的数据库或数据仓库添加为DataWorks数据源,以此作为数据服务API的数据来源。开发数据服务API时,数据服务将访问该数据源获取数据表的Schema信息,帮助您...

MySQL整库离线同步到OSS

并发数,同步任务速率高,但相对也会消耗更多的资源组槽位,并发数小,同步速率相对较低,相对消耗的资源组槽位也较少 离线任务是否开启限流 您可以通过限流控制同步速率,以保护读取端数据库,避免抽取速度过,给源库造成太的压力,...

离线同步并发和限流之间的关系

同步速率:数据同步速率和任务期望最大并发数是比较强相关的参数,两者结合在一起可以保护数据来源和数据去向端的读写压力,以避免数据同步任务对数据源带来较压力,影响数据源的稳定性。同步速率(不限流)是指按照用户配置的任务期望...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接...大数据实时化 数仓是大数据的基础,实时化的数仓能够让BI、报表、推荐(用户标签产出)等多种业务收益,大数据系统总体向实时化迈进。

开发Dataphin数据源并加速数据查询

数据来源 支持 MaxCompute 和 Hologres 两个数据来源。MaxCompute(默认):支持选择 逻辑表 和 物理表,计算空间只能选择绑定了MaxCompute计算源的项目。Hologres:仅支持选择 物理表,计算空间只能选择绑定了Hologres计算源的项目。说明 ...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

CREATE VIEW

CREATE VIEW 用于创建视图。...select_stmt:视图中的数据来源。示例 创建视图finished_orders_v1,视图数据来源为tpch Schema中的finished_orders表数据。CREATE VIEW tpch.finished_orders_v1 AS SELECT*FROM finished_orders;

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与各类大数据平台集成,完成数据的大规模离线分析。基于Lindorm的解决方案,用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合,使得您可以更加灵活地配置和管理EMR集群,从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS,您可以快速创建、管理和运维EMR集群,同时也能够更加高效地使用计算和...

数据分析整体趋势

大数据与数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

新建注册上挂指标

在 选择数据来源 页面,配置参数后,单击 下一步。区域 参数 描述 选择来源数据 来源表 选择注册上挂指标的数据来源。建议选择生产数据(即非Dev项目或数据板块产生的数据),以免更新至生产调度运维时,该对象在生产环境不存在导致操作...

聚合支付方案

阿里云从业务扩展性、数据流动性、服务高可用三方面入手,通过多款云数据库产品为利楚扫呗制定聚合支付方案,解决利楚扫呗在业务扩展期遇到的数据存储空间不足、读写性能下降以及大数据分析空缺等问题。业务痛点 武汉利楚商务服务有限公司...

敏感数据溯源

解决方案:您需要确认溯源数据的来源,确保溯源的数据为本租户名下的数据。原因三:被溯源的文件中不包含水印信息。解决方案:您需要检查目标文件是否开启 数据水印,DataWorks仅支持对开启 数据水印 功能之后所执行的数据访问操作进行溯源...

新建注册上挂指标

在 选择数据来源 页面,配置参数后,单击 下一步。区域 参数 描述 选择来源数据 来源表 选择注册上挂指标的数据来源。建议选择生产数据(即非Dev项目或数据板块产生的数据),以免更新至生产调度运维时,该对象在生产环境不存在导致操作...

常见问题

如何理解开源与云原生的大数据技术与产品?MaxCompute作为大数据平台,对业务数据是否有好的监控手段?MaxCompute的项目发挥什么作用?如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret?现有账号的AccessKey被禁用,创建一个新的...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

典型场景

基于湖构建数据平台,支持BI、挖掘等业务 对象存储OSS可以作为湖存储,DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖 实时数据湖:支持DB的CDC与消息数据(如Kafka)入湖,构建...

概述

如果使用自建开源大数据生态体系,例如Hive、Spark等,需要专门的大数据工程师来操作和运维,且操作流程也不像使用MySQL一样简单,成本极高。解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源(RDS、PolarDB for MySQL、MongoDB...

什么是云数据库HBase

云数据库HBase是低成本、高扩展、云智能的大数据NoSQL,兼容标准HBase访问协议,提供低成本存储、高扩展吞吐、智能数据处理等核心能力,是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

索引优化

大数据集场景下优先考虑稀疏索引:如果您的数据量非常地大,并且您的查询限定条件为<、、=、>=、>,需要从大数据量的表中取出少于50%的数据,那么使用稀疏索引(BRIN Index或者AOCS表的metascan)可以极大地减少无效数据的加载。...

功能简介

数据探索(Data Discovery)是一款面向业务人员的业务模型(智能数据与智能算子组装)编排、调试、运行及运营管理产品,旨在将“大数据”变成“人人都可用的大数据”。数据探索面向行业客户和业务人员,提供工具内容一体化的业务模型构建...

我的看板

本文介绍可视化应用中心下我的看板模块的数据来源和使用步骤。说明 可视化应用中心功能为7.0版本产品新增功能,请根据 可视化应用中心 环境进行操作。数据来源 在工作台中创建并发布的数据看板内容,会同步在此处展示,若数据看板仅编辑...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

数据质量教程概述

本教程使用的数据来源于某网站上的HTTP访问日志。基于这份网站日志,您可以统计并展现网站的浏览次数(PV)和独立访客(UV),并能够按照用户的终端类型(如Android、iPad、iPhone、PC等)和地域分别统计。在整体数据链路的处理过程中,为...

数据质量教程概述

本教程使用的数据来源于某网站上的HTTP访问日志。基于这份网站日志,您可以统计并展现网站的浏览次数(PV)和独立访客(UV),并能够按照用户的终端类型(如Android、iPad、iPhone、PC等)和地域分别统计。在整体数据链路的处理过程中,为...

应用场景

大数据场景 云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松与Spark、MaxCompute等大数据平台集成,完成数据的大规模离线分析。优势如下:低成本:高压缩比,数据冷热分离,...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

基本介绍

云数据库HBase增强版适用于在规模、吞吐、性能、可用性等方面有更高要求的企业级场景,面对大数据(无限扩展、高吞吐)、在线服务(低延时、高可用)、多功能查询的诉求,其可为用户提供无缝扩展、高吞吐、持续可用、毫秒级稳定响应、强弱...

概述

参见 数据源管理 章节,创建数据源,选择希望导入到数据湖的数据来源。参见 入湖模板 章节,创建数据湖模板,定期将数据源中的数据抽取到数据湖。参见 元数据管理 章节,定义数据湖的元数据库和表。控制台概览 控制台概览分为2个部分,左侧...

数据源管理

数据源管理是管理入湖数据来源的入口,支持RDS MySQL,Kafka作为数据湖的来源。您可以新建、编辑和删除数据源。重要 数据入湖功能已经停止更新,如果您有数据入湖需求请参考:数据入湖停止更新公告。创建数据源 连接属性配置。连接名称:请...

配置本地文件输入组件

导出sheet名 可选是否导出数据的来源sheet。导出内容为 {文件名}-{sheet名}。文件编码 选择文件编码的方式。系统支持UTF-8和GBK方式。新建输出字段 新建输出字段:单击 新建输出字段。根据页面提示,配置 来源序号 和 字段,选择字段类型。...

配置本地文件输入组件

导出sheet名 可选是否导出数据的来源sheet。导出内容为 {文件名}-{sheet名}。文件编码 选择文件编码的方式。系统支持UTF-8和GBK方式。新建输出字段 新建输出字段:单击 新建输出字段。根据页面提示,配置 来源序号 和 字段,选择字段类型。...

外部表概述

随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力,正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

基于原生DDL语句创建元表

数据源 选择创建元表的来源数据源。说明 Dataphin将自动根据您的DDL语句自动识别数据源类型,您可以在数据源下拉选项中,选择对应数据源。来源表 选择数据源后,在来源表下拉选项中选择对应的来源表。Connector Dataphin将根据代码自动识别...

基于原生DDL语句创建元表

数据源 选择创建元表的来源数据源。说明 Dataphin将自动根据您的DDL语句自动识别数据源类型,您可以在数据源下拉选项中,选择对应数据源。来源表 选择数据源后,在来源表下拉选项中选择对应的来源表。Connector Dataphin将根据代码自动识别...

新零售:杭州数云信息技术有限公司

所属行业:新零售 网站地址:数云信息技术有限公司 公司介绍 杭州数云信息技术有限公司成立于2011年,伴随着电子商务、大数据应用和零售企业互联网化的趋势快速发展,目前已成为国内领先的数据化营销软件产品和服务提供商。数云致力于为...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云原生大数据计算服务 MaxCompute 数据库备份 DBS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用