【大数据学习】数据化运营并不难?关键是这些技术你get了么?!

简介: 1月15日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。 ? > 培训的第一部分内容、数加的介绍及应用 除了介绍性内容之外,还是有「干货」的,这个干货就是MaxCompute 的实践。

免费开通大数据服务:https://www.aliyun.com/product/odps

1月15日在北京举行了首次阿里云大数据合作伙伴深度培训,我司获邀参加,我和两名研发的同学又一次来到了阿里巴巴望京园区。

?

2a9b92e211b09408f2691703a9bf66e56bbc9fa6

> 培训的第一部分内容、数加的介绍及应用

除了介绍性内容之外,还是有「干货」的,这个干货就是MaxCompute 的实践。MaxCompute原来叫做ODPS,www.aliyun.com/product/odps,是阿里整个大数据解决方案的基础。

a52d1a099484a7ad6b89dfb453810297d878ea35

上来,给我们讲了什么事数据分析,话说我们是来学习大数据的,干嘛还要研究数据分析?
因为:大数据不是用来吹的!?

a33989a0015370e36bc5cc9e43c6b672aef68100

通过数据分析能够获得的好处有很多,但最重要的是获得数据化运营的能力!
为啥要数据化运营?
因为:百度、阿里巴巴、腾讯、苹果、谷歌、亚马逊的运营一个比一个的数据化,一个赛一个的赚钱!

48dffbbd76ca17bd1fd5e723acc193b911392263

又开始讲数据仓库了,说这个干嘛,我们不是要数据化运营吗?没有数据咋运营,数据多了自然就需要仓库放呗!
数据仓库领域已经发展了30多年了,大数据不是在颠覆,而是继承和扩展了相关领域知识。
「大」数据和「小」数据的分析处理流程是基本一致的。

1ae2985552ebd4be825a4816e6fc110383fbcc14

你听说过星型模型么?那你听说过范式模型么?
反正,在数据分析应用场景下是不太关注数据重复的,通常采用星型模型组织数据;在线业务应用场景需要尽量避免数据的重复存储,通常采用范式模型进行数据存储。
星型模型就是通过把数据组织成维度和事实表的一种数据建模方式,数据通过星型模式组织更有利于理解和分析。
这种建模方式数据仓库已经用了三十年,大数据仓库还要继续用。

06de8d604e51449da9a9dfc7aa934f5d4f9c8333

什么是大数据?体量、数量、技术、潮流都不是重点!
这个话是阿里说的哈,不是我说的。

e3c862b4d7305f2799450ca8163fcdd27196fbba

数据大了,传统方式搞不定了,两个办法来解决:减治和分治。

4285f0a3c174fa338d6c92c6c0d015d6bcf7263d

目前有三种主要的大数据计算场景:离线计算、在线计算、流式计算。
MaxCompute 主打离线计算、在线计算有阿里云的ADS(分析型数据库)、流式计算阿里云有正在公测的StreamCompute。
其他的还有图计算和内存计算,阿里自己内部在用,目前还没有通过阿里云对外输出。

7dff85e9a2c85421b3f97992a3e83a7a316724ab

阿里云大数据的使用场景包括:
数据仓库:最大一坨的应用场景,最顶层是数据可视化、下面是BI报表和机器学习、开发用的是大数据开发平台(DateIDE)、基础是计算平台(其中最主要的是MaxCompute)。
数据可视化:数据可视化可以单独拿出来应用,只要你把数据给它,他就能给你变出“花”来。
智能算法:机器翻译、人脸识别、智能语音交互、印刷文字识别、电商图片分析、通用图片分析等算法你都可以通过API调用的方式来使用。
数据应用:通过把算法结合具体的应用场景,阿里推出了推荐引擎、规则引擎、移动定向营销、移动数据分析等数据应用。

2e3b72d1df9f6a72d762930ee39a2c003fddb39c

刚才那个图,换一种方式来表示。
阿里的人总是反复说:他们最关注的还是底层的计算引擎、数据加工和分析工具,上面的应用和解决方案主要还是得依靠合作伙伴来结合具体的应用场景进行创新。

54a355148c1819b661d54f1b825ed95f1d2befea

阿里云大数据的场景解决方案和大数据产品。

f153956b0e91ca3add8d2d9984908437d1668857

第一场景、经典的数据仓库和BI,「第一」是说最经典的、还是最常见、或是最重要的、还是最赚钱的?
这个场景,其实就是基于阿里云大数据平台在做传统BI。
开发人员借助于大数据开发平台(DateIDE)操作大数据计算服务(MaxCompute)完成数据分析任务、最终数据通过BI报表(QuickBI)呈现。

ec4f3c8ce6bce07eeb02bf9727b0da840ef3a4ac

场景二、只是稍微复杂了那么一点儿。
最主要的差别是引入了智能算法,通过对存储在对象存储(OSS)中的海量非结构化数据运用机器学习算法进行处理,形成结构化数据之后再导入大数据计算服务(MaxCompute),结合关系型数据库中导入的数据一起来做分析。
一种可能的场景是:在客服满意度调查分析中,对存储在OSS中的客户服务录音进行语音识别,形成文本,再对文本信息通过语义建模抽取关键信息后结合用户交易历史数据对客户服务的最终效果进行跟踪分析。

ab1bfee055de537e9595bdcc1edf7dfc0c1b919a

场景三、数据平台
除了自己的数据以外,还引入了第三方数据,打造数据生态。
阿里云方面的产品嘛,还是那些东西。?

e0e48d5a4aeaff526a53bfc1898bbf94f1b4343a

场景四:经典人工智能。
主要就是MaxCompute结合了阿里云提供的机器学习算法。?

c2663bf1874dfd639218dd118f41e22456a15375

应用场景一:个性化推荐
阿里是做电商起家的,对于产品推荐自然是行家。

d6f7f652f9afc153e90b242aa7cd87b4a17604d9

应用场景二:数据可视化
阿里帮你把数据可视化的框架搭起来了,你往里填数据就行了。

7a9d470224cc310183ea1f5a43eb166d695f0b92

应用场景三:智能语音
阿里自己的电话客户服务可以做到100%质检,指望人来听是不现实的,阿里都是用机器听的。
更牛的是,据说今年阿里双11的客户服务绝大部分都是机器做的,不过,你信么?

42846add8903924ed75dec08beafcac6a8622c10

开始讲干货了:MaxCompute
MaxCompute主打批处理,底层模型和Hadoop的MapReduce类似,据说阿里是用C++把Hadoop的MapReduce重新实现了,原来是基于Java的。

d7a377a2585f41384f253d4f5d0aaf78c8293ec7

MaxCompute的主要应用场景:
第一、最基本的就是数据仓库和BI,主要用SQL开发,结合少量UDF(用户自定义函数)。
第二、目前Graph在公测,是基于图计算模型的分布式应用,这个主要用在机器学习领域,当阿里提供的算法不够用时,可以自己DIY。
第三、支持机器学习和数据挖掘,阿里提供了很多成熟算法,这些算法的训练和分析数据主要是存储在MaxCompute上的。

dc3f7c51baad186dea3e2d58650cd53240d90814

图计算的主要用户应该是科学家。
机器学习和大数据统计是统计分析师们的最爱。
重点是MaxCompute SQL,对于计算机工程技术人员来说,日后主打的工具就是它了。
以下是MaxCompute SQL的介绍。?

5fe04cec5a2e4d1d112df448eb087846dc09adf7


MaxCompute 的主要概念:项目空间、表、分区。?

fbf28bfb2e0e4edee447c40a5925b7ebf41349d2

三种用户自定义函数:UDF、UDTF、UDAF。
目前的用户自定义函数都是用Java语言实现的,编译形成JAR包后上传到MaxCompute作为资源使用,可以在SQL中和内置函数一样调用。?

1ce30b6a5e327b93e1eaa15bea2c9d64895707c1

UDF的输入和输出是一对一的。?

53d48ce0d095314c1c66edbff71ee849fbffa5e4

UDTF的输入和输出是一对多的。

5fd5a95ee06c86ce2fb91d17bc8a58e9aeb9c191

UDAF的输入和输出是多对一的。?

62ef428732a31f98aec2d2e9eeb5ab8397dc2991

用户自定义函数的开发和使用过程。

73f5864fff734a6fd849db7af0b1690eb3570088


>第二部分、Date IDE

MaxCompute有一个命令行工具,还有一个图形化开发环境叫做Date IDE。

a96b8ed6ebba947faf9efa716fe1f58300df135b

Date IDE的功能不仅是一个开发环境,还包括调度管理和监控运维。
数据化运营是一个长期过程,一旦开始就意外着要进行不断的投入和运维。?

a21271c9e3cab061d96814e2f0fc3cddbdd2dbff

开了一个项目空间,看看有啥功能。

5df561085f509e91fadabd56ee60f6c143563427

数据的处理步骤通过节点来组织。

a364df1e0a6e4ec028c743f3e2f7bd9b9afa6e4d

可以对节点设置调度、依赖和监控,如果真的开始了数据化运营,如果哪一天没有数据输出就是一场灾难。

6973eea2d82e7194bc0f3112928bd9c650f81a84

>第三部分、一个案例:海量日志数据分析

把前面介绍的内容整体穿起来,放在一个应用场景下介绍。

25b22d8ac93e5f7452de2d34f14336dd2cafb91e

为啥要分析日志?

7217c22ddb04d1a34d2b8437daa68b93d11ba6ac

案例中用到的产品:MaxCompute、Date IDE、Quick BI。

a80430d01bec1082045b290eb72eeba68a61fb09

整体的流程:这个流程图是在Date IDE中通过拖拽形成的。

2cbb2b85b9994eae3b653b082f3ed3e9f3dc3b79

第一步,数据的采集。
MaxCompute支持各种导入数据的方式。?

b81ce93c76f6fbbf2e2ab82dc3b7ff1ce17277f1

第二步,数据的处理分析。
阿里自己通常会把数据分成三层来处理:
ODS层、为了避免影响在线业务的运行,通常不进行处理,先把数据直接导进来放在ODS层。
DW层、使用星型模型重新组织数据,分成维度表行和事实表。
RPT层、具体报表使用的数据,因为要进行在线的查询和访问,而MaxCompute不擅长在线访问,所以通常都会导回到RDS(关系型数据库)或ADS(分析型数据库)存储。

0632b7907f3c53d2bb43c45ac0b9812d210bd640

Quick BI 可以呈现出的效果,Quick BI支持各种数据源,除了支持阿里云提供的数据库服务外,还支持外部用户自建的各种数据库。

f536cd29a84ce7ce2b011ef242c62a07a77e0b09

>第四部分、流计算引擎

阿里StreamCompute还在公测,春节后估计就能上线。

b24a54e8718e802c5ca407ced68f19e3aff6f94c

离线计算(MaxCompute)和流计算(StreamCompute)的区别。
StreamCompute是MaxCompute的补充而不是替代。
流处理不擅长复杂的任务、流处理是事件触发的。

4802a0ae4baf28dd91d8fd5822eebe587e10c442

上面的日志处理案例也可以用流处理实现,需要用到DataHub服务。
DataHub 有些类似有Kafuka,是一个海量数据的订阅和消费服务。

2a0802cfa3303feb1ef1d218c3bc1872037d00aa

DataHub中的数据订阅是基于Topic的。

78b6a50ce43f7c6a22521ca89e64aac0ac33daf9

流数据应用场景,数据大屏。
网站的访问数据是实时变化的,看起来非常炫酷。
阿里双十一的实时大屏就是流数据结合数据大屏(DataV)实现的。

cb1402c85492ef12286cd94fa36e72c4d7735cb6

?



文章转载安欣 技术想要What

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5天前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
5天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
5天前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
35 4
大数据处理技术
|
5天前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
5天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
5天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用合集之可以在什么地方学习大数据计算MaxCompute?
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。
|
5天前
|
存储 大数据 数据管理
大数据技术是如何发展的?
大数据虽已发展多年,但仍面临将恰当信息在正确时间传递给合适人员的挑战。尽管技术进步,大部分企业员工仍难以获取所需信息。数据仓库、数据湖和数据结构等存储系统涌现,但集中数据并不实际,数据去中心化趋势明显。数据结构允许异构数据并促进治理,同时,云计算影响大数据战略,提供灵活实验空间。数据治理和隐私规则的遵守至关重要,流程成熟度聚焦于数据质量和共享。目前大数据正处于“幻灭低谷”,成功的关键在于数据治理和处理流程的改进。
|
5天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
5天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • http://www.vxiaotou.com