|
分布式计算 大数据 MaxCompute
|

阿里巴巴飞天大数据平台MaxCompute(原名ODPS)全套攻略(持续更新20200109)

10年老兵带你看尽MaxCompute大数据运算挑战与实践

131317 17
来自: 大数据计算 MaxCompute  版块
|
11天前
|
存储 自然语言处理 分布式计算
|

围绕 transformers 构建现代 NLP 开发环境

本文将从“样本处理”,“模型开发”,“实验管理”,“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计,并简单聊聊个人对“软件2.0”的看法。

71704 0
来自: 人工智能平台PAI  版块
|
存储 算法 大数据
|

每个人都应该知道的25个大数据术语

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。 让我们开始吧: 1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。

42488 3
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 监控
|

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。

40216 7
来自: 大数据计算 MaxCompute  版块
|
存储 运维 监控
|

盘古:阿里云飞天分布式存储系统设计深度解析

在10月19日的云栖社区在线培训上,来自盘古团队的吴洋分享了《盘古:飞天分布式存储系统实践》。他主要从以下三个方面进行了分享:盘古是什么?盘古是用来解决什么问题的?盘古是怎么解决问题的?他主要介绍了盘古的分布式系统架构和设计理念。

44323 8
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

odps是什么?

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

67371 3
来自: 大数据计算 MaxCompute  版块
|
消息中间件 存储 供应链
|

数据仓库介绍与实时数仓案例

1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

40134 9
来自: 实时计算 Flink  版块
|
分布式计算 MaxCompute
|

MaxCompute执行作业慢的原因排查

大家在平时开发过程中经常遇到作业(SQL、MR等)执行慢的原因,今天带大家一起学习自排查方法。 1、wait wait ,job querying 遇到这个提示,就是资源出现了排队,如果你是后付费用户,那就是整个后付费的共享池已经没有富余的资源了,要等前一个作业处理完。

24257 2
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 BI
|

阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

24278 2
来自: 大数据计算 MaxCompute  版块
|
运维 分布式计算 数据库
|

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

空格APP上线仅仅60天就获得1亿A轮融资,同时依靠阿里云只用了两个礼拜就实现了APP上线。空格技术合伙人刘博本次分享主要介绍了阿里云在空格内的应用经验包括服务端整体架构的搭建和搜索、推荐和数据平台业务场景下的实践探索。

19790 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 大数据
|

权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算

阿里巴巴需要研发世界级一流的流式计算引擎,实时处理海量数据,提供在线统计、学习和预测能力,不仅支持阿里巴巴自己的核心电商场景,同时也能通过阿里云向外部中小企业提供流式计算服务,输出实时计算能力,这就是我今天要分享的最新一代阿里巴巴实时计算引擎Blink。

22117 2
来自: 实时计算 Flink  版块
|
监控 数据可视化 数据挖掘
|

Kibana:数据分析的可视化利器

阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。

19431 2
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)

背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。

19304 2
来自: 人工智能平台PAI  版块

实时计算 Flink SQL 核心功能解密

Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品,但是到双11期间已经支撑了数千个作业,在双11期间,Blink 作业的处理峰值达到了5+亿每秒,而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。

18548 0
来自: 实时计算 Flink  版块
|
存储 SQL 运维
|

流计算StreamCompute

背景 每年的双十一除了“折扣”,全世界(特别是阿里人)都关注的另一个焦点是面向媒体直播的“实时大屏”(如下图所示)。包括总成交量在内的各项指标,通过数字维度展现了双十一狂欢节这一是买家,卖家及物流小二一起创造的奇迹! 双十一媒体直播大屏 这一大屏背后需要实时处理海量的庞大电商系统各个模块产生的

18142 0
来自: 实时计算 Flink  版块
|
分布式计算 关系型数据库 大数据
|

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

19979 0
来自: 大数据计算 MaxCompute  版块
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

16796 2
来自: 实时计算 Flink  版块
|
机器学习/深度学习 SQL 分布式计算
|

【玩转数据系列一】人口普查统计案例

玩转数据系列文章通过简单地案例搭建,介绍如何通过阿里云机器学习平台进行数据挖掘。

15498 0
来自: 人工智能平台PAI  版块
|
运维 流计算
|

阿里云实时计算产品案例&解决方案汇总

阿里云实时计算产品案例&解决方案汇总页

24310 1
来自: 实时计算 Flink  版块
|
流计算 Apache
|

接着!!Apache Flink 全领域干货合集(持续更新)

Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。

16034 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 大数据
|

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。

14563 0
|
分布式计算 大数据 MaxCompute
|

阿里云MaxCompute 2019-7月刊

7月MaxCompute最新资讯,技术好文,8月精彩活动预告,尽在7月刊。

11323 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 分布式计算
|

MaxCompute上如何处理非结构化数据

0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。 而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现

12864 0
来自: 大数据计算 MaxCompute  版块
|
存储 运维 监控
|

阿里云大数据计算平台的自动化、精细化运维之路

作者简介: ?   范伦挺   阿里巴巴 基础架构事业群-技术专家   花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput

11717 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 算法 搜索推荐
|

推荐引擎的离线算法和在线算法初探

这篇帖子,就以推荐引擎产品上的离线算法和在线算法给大家说明下,并且方便后续如果在产品使用中如果发现通用的计算规则不符合自己的场景的时候,需要做一些优化的时候,也能更好地指导怎么调。

10789 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 搜索推荐 算法
|

【玩转数据系列四】听说啤酒和尿布很配?本期教你用协同过滤做推荐

数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过理性的分析得到的。这时候我们需

13884 2
来自: 人工智能平台PAI  版块
|
存储 Java 分布式数据库
|

海量数据实时计算利器Tec

引子 在刚刚过去的2015年双11大促中,搜索事业部的实时计算和在线学习系统Pora经受住了前所未有的双11巨量用户行为消息的冲击,在流入实时消息量持续超过300w/s,甚至峰值飙升至501w/s的压力下始终保持了端到端秒级实时效果,助力相关的搜索和推荐实时业务取得了很好的效果。 Pora如何能

11629 0
来自: 智能搜索推荐  版块
|
11天前
|
机器学习/深度学习 并行计算 算法
|

Transformer 一起动手编码学原理

学习Transformer,快来跟着作者动手写一个。

9367 0
来自: 人工智能平台PAI  版块
|
分布式计算 Spark 大数据
|

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

预聚合是高性能分析中的常用技术,通过预先聚合降低纬度,从而在查询时大幅减少计算量,提升响应速度。本文介绍了 spark-alchemy 这个开源库中的 HyperLogLog 这一个高级功能,并且探讨它是如何解决大数据中数据聚合的问题。

10449 0
|
SQL 存储 关系型数据库
|

【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案

问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。

11005 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

数据库工程师快速上手MaxCompute进行ETL

案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。

10222 0
来自: 大数据计算 MaxCompute  版块
|
SQL 算法 安全
|

什么是阿里云数加大数据计算服务MaxCompute?

MaxCompute简介 大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

10791 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

11675 0
来自: 智能搜索推荐  版块
|
算法 大数据 测试技术
|

ComputeColStats UDF中 近似算法的介绍

一,前面的话 表和列的统计信息对CBO的结果有着极大地影响,能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的,更准确的统计信息往往需要更多的计算,我们能做的是在高效和准确之间找到更好的平衡。

9067 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

基于DNN+GBDT的Query类目预测融合模型

?用户搜索意图的理解在搜索排序体系下有着重要的作用。在搜索引擎中,分析用户的搜索Query和哪些文档类目的意图更相关,被称为Query的类目预测。本文通过集合Query的语义和行为等特征,计算得到与Query最相关的类目,并在线上得到了相关性的体验的提升。

14493 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 Spark
|

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。

8927 0
|
流计算 资源调度 消息中间件
|

Apache Flink 的迁移之路,2 年处理效果提升 5 倍

在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度,对于不同的任务只需要实现一个 changer 链即可,并且支持水平扩展,性能尚可,曾经可以满足业务需求。

9549 1
来自: 实时计算 Flink  版块
|
SQL 存储 缓存
|

EMR Spark Relational Cache的执行计划重写

作者:王道远,花名健身, 阿里巴巴计算平台EMR技术专家。 背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。

8980 0
|
SQL 人工智能 分布式计算
|

【教程】5分钟在PAI算法市场发布自定义算法

概述 在人工智能领域存在这样的现象,很多用户有人工智能的需求,但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺,但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。 今天PAI正式对外发布了“AI市场”以及“PAI自定义算法”两大功能,可以帮助用户5分钟将线下的spark算法或是pyspark算法发布成算法组件,并且支持组件发布到AI市场供更多用户使用。

9878 1
来自: 人工智能平台PAI  版块
|
SQL 数据库 HIVE
|

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述,包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

10508 0
来自: 大数据计算 MaxCompute  版块
|
SQL 存储 Apache
|

Drill官网文档翻译一 基本架构

(翻译自apache drill 官网) 架构总览 Apache drill是在大规模数据集场景下,可以低延迟地进行结构和半结构化/嵌套数据结构查询的一个分布式查询引擎。受到谷歌公司的Dremel的启发,Drill被设计出来以支持几千个节点和PB级别的数据规模下,支持交互响应级别的商务智

9101 0
来自: 智能搜索推荐  版块
|
分布式计算 大数据 Hadoop
|

HAS-插件式Kerberos认证框架

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerberos方式,HAS提出了一种新的认证方式, 通过与现有的认证和授权体系进行对接,使得在Hadoop/Spark在上面支持Kerberos以外的认证方式变成可能,并对最终用户简化和隐藏Kerberos的复杂性。

8396 0
|
大数据 存储 调度
|

阿里巴巴大数据技术关键进展及展望

2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并列举了几个典型案例。

11903 0
来自: 大数据计算 MaxCompute  版块
|
SQL 数据采集 分布式计算
|

MaxCompute计算长尾问题

长尾问题是分布式计算里最常见的问题之一,也是典型的疑难杂症。究其原因,是因为数据分布不均,导致各个节点的工作量不同,整个任务就需要等最慢的节点完成才能完成。本文希望就平时工作中遇到的一些典型的长尾问题的场景及其解法做一些分享。

9680 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关,但文本并不匹配的情况。为了解决语义匹配问题,出现很多LSA,LDA等语义模型。

10441 0
来自: 智能搜索推荐  版块
|
存储 数据采集 监控
|

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

8488 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 BI
|

【大数据学习】数据化运营并不难?关键是这些技术你get了么?!

1月15日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 ? > 培训的第一部分内容、数加的介绍及应用 除了介绍性内容之外,还是有「干货」的,这个干货就是MaxCompute 的实践。

7672 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

9128 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 分布式数据库
|

HBase写性能优化

本文介绍了三种HBase数据写入的方法(1种多线程,2种mapreduce),并介绍了各类性能调优的方法

8097 0
|
容器 Kubernetes 分布式计算
|

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

本次直播将讨论:以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。

6831 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
54084
内容
95
活动
437039
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务
  • http://www.vxiaotou.com