基于DataWorks的大数据一站式开发及数据治理
基于DataWorks的大数据一站式开发及数据治理
概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
步骤7 运行 flume agent 文档版本:20201020 22 基于 Dataworks的大数据一站式开发及数据治理 日志采集 执行以下命令后台运行 flume agent:nohup flume-ng agent-name a1-conf$FLUME_HOME/conf-conf-file$FLUME_HOME/conf/flume-conf.properties-Dflume.root.logger=INFO,console&2>&1&步骤8 查询 kafka中是否已有消息,...
来自: 最佳实践 相关产品:块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭
数据湖-在线学习场景数据分析
数据湖-在线学习场景数据分析
场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC
3.5.数据投递 本场景中日志数据流向为:在WebServer上通过flumeagent 同步数据到EMRkafa 集群,再通过EMRHadoop集群中的flume将消息同步到JindoFS上,JindoFS在前 面配置为cache模式,所以日志数据实际存放到了OSS中。文档版本:20200331 37数据湖-在线学习场景数据分析 应用场景 步骤1 首先在webserver上安装java#安装jdk ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce
基于k8s多集群隔离环境下的devops实现
基于k8s多集群隔离环境下的devops实现
场景描述 DevOps是一组过程、方法与系统 的统称,并通过工具实现自动化部署, 确保部署任务的可重复性、减少部署出 错的可能性。随着微服务、中台架构的 兴起,devops重要性日益显著。 本方案使用两个独立的k8s集群: 用户已有的k8s模拟测试,ack集群模 拟生产环境,保证环境的高度隔离,互 不影响。通过gitlab+Jenkins的黄金组 合,实现容器应用的自动化构建和持续 部署,提高迭代效率。 解决问题 1.微服务应用的CI/CD。 2.测试和生产环境的高度隔离。 3.自动化的测试与部署。 4.现有CI对接ACK。 产品列表 专有网络VPC 容器服务ACK 容器镜像服务ACR 弹性公网IP 负载均衡SLB
由于是在 PiggyMetrics下的子项目 Account Service直接修改,采用以下命令将修改 后的项目送到 gitlab:文档版本:20220121 32 基于 K8S多集群隔离环境下的 DevOps实现 项目源码准备 cd~/piggymetrics/account-service/目录地址按实际情况 git init git remote add origin ssh:/git@xxxx:xx/piggymetrics/account-service...
来自: 最佳实践 | 相关产品:专有网络 VPC,弹性公网IP,容器服务 ACK,容器镜像服务 ACR
自建Hadoop迁移到阿里云EMR
自建Hadoop迁移到阿里云EMR
场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
Kafka 的目的是通过 Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提 供实时的消息。Flume Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日 志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机 制以及许多故障转移和恢复机制,具有强大的功能和容错...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
自建Hadoop迁移MaxCompute
自建Hadoop迁移MaxCompute
场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
网络和交换机 类别 配置项 说明 专有网络 名称 客户 IDC-VPC IPv4网段 推荐网段 192.168.0.0/16 交换机 名称 vswitch-az-g 可用区 上海 可用区 G(可根据库存选其他可用区)IPv4网段 192.168.100.0/24 文档版本:20210723 6 自建Hadoop迁移MaxCompute 自建 Hadoop集群环境搭建 交换机 名称 vswitch-az-b 可用区 上海 可用区...
来自: 最佳实践 | 相关产品:云服务器ECS,DataWorks,大数据计算服务 MaxCompute,云数据库 HBase 版,数据总线,云速搭
云上高并发系统改造
云上高并发系统改造
场景描述 随着业务的发展,系统并发压力越来越大,如何 进行系统改造以满足高并发场景的业务需求成 为了一个技术难题。本实践抽象于客户的实际场 景,提供高并发下系统改造的理论指导和部分实 操演示。主要适用于以下场景: 1.系统并发压力大,需要进行系统应用改造。 2.数据层并发压力大,需进行分库分表改造。 3.数据库数据量巨大,亟待分库分表解决查询 和写入瓶颈的场景。 方案优势/解决问题 1.在水平扩展阶段,我们除了通过SLB做负载 均衡外,我们可以通过SLB下挂nginx的方 式,增加负载均衡侧的可扩展性 2.在数据库拆分阶段,在做好数据规划后,我 们借助DTS进行数据迁移,通过DRDS将 RDS MySQL的数据拆分到多个分库和分 表中。 产品列表 专用网络VPC 负载均衡SLB 云服务器ECS 数据库RDSMySQL 数据传输服务DTS PrivateZone 分布式关系型数据库DRDS
在应用层,还有微服务化、通过 MQ等消息中间件解耦、设计 缓存等很多方式本文并未探讨。应对业务的高并发需要读者做全面的系统评估、改进和优化。文档版本:20220506(发布日期)51 云上高并发系统改造 附录2 资源清单 附录 2 资源清单 网络资源规划 资源类别 配置项 配置明细 说明 区域 区域 华东 2(上海)本最佳实践全部...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,数据传输,云解析 PrivateZone,云原生分布式数据库PolarDB-X,云速搭CADT
游戏业务分区合服
游戏业务分区合服
概述 为了提高游戏玩家的体验,并提高留存率,增强付费率.除了游戏本身的内容趣味性外, 改善用户访问加速体验,并对游戏数据分区合服是很常见的业务运营场景. 本方案适用于: 1游戏业务运营,对多个分区数据库进行合并,增加付费用户积极性的需求. 2游戏业务加速,中心化部署的网络加速需求. 方案优势 1便捷数据迁移. 2内网安全传输 3加速远端用户访问质量体验 4快速应对上层业务运营的技术实现操作. 产品列表 网络产品:VPCSLBNAT网关CEN共享带宽包EIP全球加速GA 计算产品:ECS 数据库产品:RDSDTS 存储产品:OSS 云解析
DTS 提供了数据迁移、实时数据 Data 订阅及数据实时同步等多种数据传输能力,可实现 DTS Transmission 不停服数据迁移、数据异地灾备、异地多活(单元 Service 化)、跨境数据同步、实时数据仓库、查询报表分 流、缓存更新、异步消息通知等多种业务应用场景,助您构建高安全、可扩展、高可用的数据架构。阿里云关系型数据库...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,对象存储 OSS,数据传输,NAT网关,云企业网
音视频通信RTC
阿里云音视频通信RTC依托核心的音视频编解码、信道传输以及网络调度技术,构建覆盖全球的实时音视频通信网络。提供移动端、PC、Web等多端SDK,并兼容标准WebRTC浏览器接入网络,适用于互动娱乐、在线教育、视频会议等场景。
可将音视频通话内容旁路转至视频直播中心,观众可通过CDN方式观看直播.可将音视频通话画面同步到云端进行云端混流,并将混流后的频道内容进行录制保存.面向各类企业应用,提供多样的产品功能和灵活的接口配置助力客户快速搭建音视频通信场景,开启互动式新体验.丰富多样的业务功能和灵活的接口配置.2024年1月24日起,音...
来自: 云产品
智能视觉
智能视觉是一款面向线上图片和视频计算场景的AI计算产品。智能视觉(IntelligenceVision)为零算法基础的开发者和企业提供AI视觉计算能力,包括图像分类、物体检测、事件检测、视频检测、视频识别等能力,可以应用于家庭监控、明厨亮灶、智慧工地等各种场景,通过API支撑开发各类业务应用。
对象存储OSS.MQ产品生态丰富,多个子产品线联合打造金融级高可用消息服务以及对物联网的原生支持.消息队列 MQ.查看智能视觉产品的简介.了解智能视觉的使用流程.查看详细的智能视觉 OpenAPI.了解智能视觉的常见问题.可以在工地管理应用中,对未按规定佩戴安全帽、未穿反光衣等违规行为进行自动识别,达到异常行为自动告警的...
来自: 云产品
媒体处理MPS
阿里云媒体处理(ApsaraVideo for Media Processing,原MTS)是一种多媒体数据处理服务。它以经济、弹性和高可扩展的转换方法,将多媒体数据转码成适合在全平台播放的格式。并基于海量数据深度学习,对媒体的内容、文字、语音、场景多模态分析,实现智能审核、内容理解、智能编辑。
支持根据视频内容分析结果智能推荐视频质量最优的智能转码模版.智能视频模版分析.集成消息服务,及时掌握服务执行状态.集成消息队列和通知.对象存储OSS.消息服务MNS.推荐搭配使用.更稳定,更流畅的点播体验.丰富的视频功能,给用户较好的观看体验,助您快速构建自己的教学平台!满足教师分享课程视频的需求,实现对教育资源...
来自: 云产品
函数计算FC
阿里云函数计算(Function Compute)是一个事件驱动的全托管计算服务。通过函数计算,您无需管理服务器等基础设施,只需编写代码并上传。函数计算会为您准备好计算资源,以弹性、可靠的方式运行您的代码。更棒的是,您只需要为代码实际运行消耗的资源付费,代码未运行则不产生费用。
消息队列(MNS)触发器.编写函数对发布在主题上的消息进行实时处理.内容分发网络(CDN)触发器.编写函数对 CDN 事件(预热、刷新等)进行自定义处理.了解所有触发器支持列表.函数计算FC通过触发器与事件源进行关联,关联后的事件源,会在事件产生时以同步或异步的方式触发函数执行,并将变更事件作为入参传递给入口函数....
来自: 云产品
全局事务服务GTS
全局事务服务用于处理分布式环境下高性能事务一致性问题。可以与DRDS、RDS、MySQL、PostgreSQL等数据源,EDAS、Dubbo及其他RPC框架,MQ消息队列等中间件产品配合使用,轻松实现分布式数据库事务、多库事务、消息事务、服务链路级事务及各种组合。
推荐搭配使用.SOA&分布式事务.GTS与MQ打通,提供事务消息处理能力,可以保证业务链路完成时发送消息,任一阶段异常时回滚消息。开发简单,在客户端声明一个注解,用以界定事务边界,调用MQ的事务API发送消息。​.在宕机、网络故障等情况下,严格保证数据一致性.节省运维成本,避免了分布式场景下产生的数据异常;节省开发...
来自: 云产品
基于Flink+ClickHouse构建实时游戏数据分析
基于Flink+ClickHouse构建实时游戏数据分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
步骤6 确认消息送到消息队列 Kafka(实际消息条数大于 100,因为有系统启动的日志 也被收集到 kafka,这部分日志会在 Flink流处理时,进行 ETL过滤)。步骤7(可选)查看消息队列 Kafka中的 filebeat的消息格式。文档版本:20201224 44 基于 Flink+ClickHouse构建实时游戏数据分析 日志采集 日志模拟方式二:通过调用 ...
来自: 最佳实践 | 相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
云数据库ClickHouse
云数据库ClickHouse 是阿里云提供的分布式实时分析型列式数据库服务。具有高性能、开箱即用、企业特性支持。广泛应用于流量分析、广告营销分析、行为分析、人群划分、客户画像、敏捷BI、数据集市、网络监控、分布式服务和链路监控等业务场景。
消息队列Kafka版.推荐搭配使用.电商:用户圈选和实时精准营销.基于实时客户圈选的精准营销.基于大规模的多维度用户数据分析,分析广告投放条件命中的人群规模,评估广告投放成本。同时对投放对象进行人群画像,评估投放收精准度和目标收益.广告人群预估属于在线分析,亿级用户宽表数据分析秒级完成.云数据库MySQL.推荐搭配...
来自: 云产品
生活物联网平台
阿里云IoT针对消费级智能设备领域的物联网平台,为解决设备快速智能化中常遇到的设备连接、App控制、设备消息推送、语音控制、设备管理、数据统计等问题,提供一整套配置化方案,大幅减低“设备-云端-App”的开发成本。
提供锁专用的告警消息模板和宏定义,让App送的开门告警消息中带有人、钥匙、时间等关键信息.告警消息模板.云服务器 ECS.推荐搭配使用.智能门锁解决方案.提供插座、开关的标准面板,提供多种国际规格面板,支持天猫精灵、Amazon Alexa、Google Home等国内外主流音箱控制.为插座、开关等电工类设备提供丰富的App标准面板,...
来自: 云产品
超低延时直播 RTS
超低延时直播是一款超低延时、高并发、低卡顿的视频直播产品,它将延时从标准视频直播降低至毫秒级别,且提供更强的抗丢包能力,适用于对网络延时要求高、互动性强的直播场景。
流侧允许保留RTMP流,或使用RTS流.阿里云超低延时直播服务RTS(Real-time Streaming),实现直播延时迈入毫秒级大关。RTS源自阿里巴巴最佳实践,多年护航淘宝双11直播体验.超低延时直播.视频云场景资源包推荐.视频云场景资源包推荐,助力企业高效上云.<查看边缘云全部产品.超低延时直播(Real-time Streaming)是一...
来自: 云产品
物联网络管理平台Link WAN
阿里云提供网络管理服务,可快速组建LoRaWAN网络,解决讯号难以到达的地下室、无固定电源场景,满足公里级、低功耗与上万设备的网络需求。
消息队列 MQ.企业物联网平台.推荐搭配使用.表计数据采集.适合低功耗、低流量的智能生活设备使用,如智能灯泡、智能开关、人体红外(PIR)与呼叫按钮设备,可实现高穿透力、设备长待机、覆盖范围大等等的双向通讯能力.大量的物联网终端由于无法实现电源持续供电,只能通过电池供电,要求最高可以达到10年以上电池寿命,通信...
来自: 云产品
云监控
云监控(CloudMonitor)是阿里云提供的一款一站式、全链路、开箱即用的监控产品。涵盖云上云下统一的主机监控、百余款的云产品监控、覆盖全球的网络监控、面向应用和业务的日志监控和自定义监控,提供丰富的指标数据和强大开放的平台能力,帮助客户第一时间发现和定位问题构建完善的监控运维体系。
除了语音、短信、邮件、钉钉群外还可以送到指定的WebHook、消息队列、函数计算、日志服务中.丰富的报警通知方式.函数计算 FC.日志服务 SLS.推荐搭配使用.云上基础设施监控与报警.快速构建完善的云上基础设施监控与报警体系.云监控提供常用云服务的系统事件、状态变更事件等信息(例如ECS 服务器的状态变化事件、磁盘性能...
来自: 云产品
表格存储Tablestore
表格存储Tablestore是阿里云自研的面向海量结构化数据存储的Serverless分布式数据库,它可提供低成本、高性能的存储方案,同时也可提供稳定与极致的数据服务。
适用于海量账单、IM 消息、物联网、车联网、风控、推荐等场景中的结构化数据存储,提供海量数据低成本存储、毫秒级的在线数据查询和检索以及灵活的数据分析能力.表格存储 Tablestore.查看表格存储所有相关文档.了解表格存储OpenAPI 和 SDK下载.了解如何快速使用表格存储服务.表格存储提供的辅助工具.阿里云表格存储帮助 ...
来自: 云产品
弹性容器实例
阿里云弹性容器实例是阿里云弹性计算提供的敏捷安全的Serverless容器运行服务。您无需管理底层服务器,只需要提供打包好的镜像,即可运行容器,并仅为容器实际运行消耗的资源付费。
消息服务 MNS.对象存储 OSS.推荐搭配使用.通用:事件驱动容器引擎.无服务器容器基础设施.<查看全部产品.阿里云弹性容器实例(Elastic Container Instance)是 Serverless 和容器化的弹性计算服务。您无需管理底层 ECS 服务器,只需要提供打包好的镜像,即可运行容器,与阿里云容器服务无缝对接并仅为容器实际运行消耗的资源...
来自: 云产品
< 1 2 3 4 ... 6 >
共有6页 跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
消息服务 云消息队列 Kafka 版 云消息队列 RocketMQ 版 智能推荐 AIRec 表格存储 弹性公网IP

新品推荐

切换为移动版

新人特惠 爆款特惠 最新活动 免费试用