阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊

简介: 开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。

重磅:阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”

4月27日,第六届数字中国建设峰会在福建福州举办,阿里云首创并推动的智能数据湖方案因“引领业界技术上创新”入选本届峰会的“十大硬核科技",这也是历届峰会中首次有数据湖产品入选。阿里云在2019年推出了云原生智能数据湖方案,融合了E-MapReduce、DLF、OSS、Flink、PAI等产品,致力于帮助客户提升单位数据的智能化价值。

1683704807439-4d860e12-fb9d-4dd4-8b0f-9e2151086b97.jpg


阿里云智能数据湖打破过多项世界纪录。在CloudSort 100TB竞赛和 TPC-DS 10TB竞赛中,阿里云分别打破世界纪录,TCO成本远低于第二名,降低近100%。在中国信通院的专项评测中,拿下“云原生数据湖基础能力专项评测证书”满分评测,国内第一。

1683705127723-3e115338-eb87-4d1c-a65f-d35767876193.png

2020年至今有上万家客户在阿里云上构建数据湖,覆盖智能汽车、在线教育、互联网广告、新媒体、网络游戏等行业。例如基于智能数据湖方案,小鹏汽车实现了大批量自动驾驶采集数据快速入湖、处理、标注和存储高效对接智能算力,多种模型同步训练。



E-MapReduce&DLF产品新进展

1、支持控制台可视化管理YARN分区

适用客户:EMR全量用户


发布功能:EMR支持在控制台上通过可视化UI管理YARN分区,同时可以批量建立节点组与分区的映射,方便操作。您可以直接在节点组上配置分区属性,扩容和弹性伸缩后,EMR会自动为新增节点打上Node Label,无需重新配置新节点。


相关文档:https://help.aliyun.com/document_detail/613506.html


2、EMR Doctor智能运维系统

  • 集群日报计算部分增加任务长尾检测
  • 集群日报计算部分数据倾斜诊断到Stage更细粒度的分析
  • 集群日报计算部分任务明细增加作业IO和Shuffle信息
  • 集群日报存储部分优化内存使用和分析时间
  • 实时分析增加Spark任务异常分析


相关文档:https://help.aliyun.com/document_detail/442435.html



EMR产品活动

1、阿里云EMR Serverless StarRocks免费公测版发布

EMR Serverless StarRocks是由阿里云EMR全新推出的Serverless StarRocks服务,StarRocks是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。可广泛应用于BI报表分析、OLAP 报表、数据湖分析、实时数据接入及分析等场景。      


EMR Serverless StarRocks 相较于开源StarRocks产品特性包括:

  • 提供免运维,全托管的StarRocks实例管理服务,提升服务的稳定性,可运维性,降低您的运维成本。        
  • 提供可视化,高效率的实例管理,监控告警,配置管理能力。        
  • 专业的StarRocks Manager,为StarRocks管理提供便捷的,可视化的元数据管理,诊断与优化,以及用户管理和授权能力。  


阿里云 EMR Serverless StarRocks免费公测入口: https://help.aliyun.com/document_detail/608380.html


2、阿里云 × StarRocks 云上StarRocks极速湖仓—北京站

数据价值是一个老生常谈的话题,随着公司技术和业务的发展,数据的种类愈发繁多,数据分析的需求愈发复杂。当公司经营中产生的数据是海量的,同时数据类型和结构复杂且多元,传统的数据仓库就无法满足分析性能的需求,湖仓一体的技术架构应需而生。

为了能够满足更多用户对于极速湖仓分析的需求,StarRocks 2.5 版本进一步增强数据湖能力,在数据源生态、查询速度、使用体验上都做了大量优化。在物化视图构建、刷新机制优化上也取得了新的进展作为合作伙伴,阿里云积极参与社区建设,深度参与到 StarRocks 数据湖分析能力的打造中。


阿里云 EMR StarRocks 产品发布已过去近一年的时间,同时随着 StarRocks 3.0 RC01 版本的面世,双方携手共同举办线下 Meetup。4月19日(周三)下午,水滴筹、猿辅导、阿里云 EMR 团队和 StarRocks 社区的技术专家,针对开源 OLAP 技术架构、 StarRocks 产品硬核技术及 EMR StarRocks 实战经验等一系列超干货内容,为大家带来诚意满满的技术盛宴。

1683705441095-8dcc9f3c-335f-47c8-8829-107211f56b74.jpeg

视频回放:/live/251764



最佳技术实践

1、水滴筹基于阿里云 EMR StarRocks 实战分享

本篇文章由水滴筹大数据部门的数据开发工程师韩园园老师为大家带来水滴筹基于阿里云EMR StarRocks的实战经验分享。


文章详情:/article/1207836



钉钉扫码进群,欢迎咨询与交流前沿开源大数据

image.png


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
5天前
|
消息中间件 Cloud Native 开发者
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集 》
**阿里云开源沙龙PPT合集:北京站聚焦云原生技术** 探索云原生领域的深度与广度,[阿里云](/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.da096cf6t38G15)分享了北京开发者沙龙的精彩内容,涵盖微服务、消息队列等主题,助力开发者洞悉行业趋势。![image](https://ucc.alicdn.com/pic/developer-ecology/cok6a6su42rzm_67b12f6cad6e4b2786859b3a668b3351.png)
48 3
|
5天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
5天前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
35 4
大数据处理技术
|
5天前
|
关系型数据库 分布式数据库 数据库
开源之夏2024学生报名启动!阿里云PolarDB社区项目期待你的参与!
开源之夏2024学生报名启动!阿里云PolarDB社区带你变得更强!
开源之夏2024学生报名启动!阿里云PolarDB社区项目期待你的参与!
|
5天前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
71960 2
|
5天前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
5天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
5天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
5天前
|
Kubernetes Cloud Native 安全
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集》
? 阿里云开源开发者沙龙北京站精彩回顾!获取PPT合集,深入云原生安全与微服务实践:[北京站PPT](/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.4dc56cf6htj2uT) ? 图文并茂探讨微服务安全与K8s监控解决方案。不容错过的云原生学习资源!?
44 2
|
5天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。

相关产品

  • 开源大数据平台 E-MapReduce
  • http://www.vxiaotou.com