大数据与机器学习-博文-第3页-阿里云开发者社区

付空

|

算法搜索推荐流计算

|

博文

广告场景下的实时计算

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总广告场景的综述，[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816)：在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等其中涉及的主要实时处理环节：实时数据统计.

10913 0 0

来自：实时计算 Flink 版块

隐林

|

存储搜索推荐数据库

|

博文

细数阿里云服务器的十二种典型应用场景

文章转载：小白杨1990 如今，阿里云的产品可谓是多种多样，纷繁复杂。面对各种各样的技术和产品，ECS、RDS、OSS…等等一系列的东西，很容易让人找不到头绪，尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料，针对建站相关的内容为大家整理一些阿里云典型的应用场景

10450 1 2

来自：大数据计算 MaxCompute 版块

云花

|

分布式计算大数据 Java

|

博文

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

基于Tunnel SDK如何上传复杂类型数据到MaxCompute？首先介绍一下MaxCompute复杂数据类型：复杂数据类型 MaxCompute采用基于ODPS2.0的SQL引擎，丰富了对复杂数据类型类型的支持。

9304 0 0

来自：大数据计算 MaxCompute 版块

傲海

|

算法

|

博文

FM算法介绍

概述 FM (Factorization Machine) 算法可进行回归和二分类预测，它的特点是考虑了特征之间的相互作用，是一种非线性模型，目前FM算法是推荐领域被验证的效果较好的推荐方案之一，在诸多电商、广告、直播厂商的推荐领域有广泛应用。

11171 0 2

来自：人工智能平台PAI 版块

楚项

|

SQL 分布式计算数据库连接

|

博文

原来MaxCompute还能这么玩系列（2）—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

本文讲述了如何通过HiveServer2 Proxy来实现Hive生态工具与MaxCompute的互通

9579 0 1

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

消息中间件 Kafka 流计算

|

博文

如何正确使用 Flink Connector？

本文主要分享 Flink connector 相关内容，分为以下三个部分的内容：第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑，对社区反馈的问题进行答疑。

11074 0 1

来自：实时计算 Flink 版块

鱼跟猫

|

SQL Apache 流计算

|

博文

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

8297 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

机器学习/深度学习分布式计算算法

|

博文

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目：Mars，一个基于张量的统一分布式计算框架。我们已经在 Github 开源：https://github.com/mars-project/mars 。背景 Python Python 是一门相当古老的语言了，如今，在数据科学计算、机器学习、以及深度学习领域，Python 越来越受欢迎。

11713 0 2

来自：大数据计算 MaxCompute 版块

勿烦

|

SQL 数据库 HIVE

|

博文

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述，包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

10523 0 1

来自：大数据计算 MaxCompute 版块

jack_tang

|

运维搜索推荐调度

|

博文

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台，它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

19407 1 2

来自：智能搜索推荐版块

隐林

|

存储分布式计算 NoSQL

|

博文

MaxCompute访问TableStore(OTS) 数据（20170601更新）

MaxCompute作为阿里云大数据平台的核心计算组件，承担了集团内外大部分的分布式计算需求。

10313 0 2

来自：大数据计算 MaxCompute 版块

继盛

|

JSON 分布式计算 MaxCompute

|

博文

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作，它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，并且可以用 ml 模块来执行机器学习算法。

10900 0 1

来自：大数据计算 MaxCompute 版块

erin_726

|

分布式计算 Java MaxCompute

|

博文

flume java介绍

近期在做shark flume开发框架的测试，该框架是一个简单高效的面向数据的pipeline框架，采用flume java的思想，实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper，这里做一些总结，主要

8656 0 0

来自：大数据计算 MaxCompute 版块

eric-li

|

SQL 大数据数据处理

|

博文

使用Hive进行OSS数据处理的一个最佳实践

11088 2 9

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算关系型数据库 OLAP

|

博文

【大数据干货】数据进入阿里云数加-分析型数据库AnalyticDB（原ADS）的N种方法

数据进入AnalyticDB（原ADS）的N种方法 ? 分析型数据库（AnalyticDB）是阿里巴巴自主研发的海量数据实时高并发在线分析（Realtime OLAP）云计算服务，用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。想使用阿里云分析型数据，对于大多数人首先碰到的问

9658 0 1

来自：大数据计算 MaxCompute 版块

金竹

|

存储消息中间件算法

|

博文

Apache Flink 漫谈系列(04) - State

实际问题在流计算场景中，数据会源源不断的流入Apache Flink系统，每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算，那么每次触发计算是将历史上所有流入的数据重新新计算一次，还是每次计算都是在上一次计算结果之上进行增量计算呢？答案是肯定的，Apache Flink是基于上一次的计算结果进行增量计算的。

13603 1 12

来自：实时计算 Flink 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作，但是实际工作中可能确实有一些场景需要这样处理，怎么办呢？本文就各种场景下的的解决方法做一个说明。特别提醒大家，在工作中为避免误操作，尽量避免直接对数据进行直接的修改和删除，建议是创建一张新的表，把结果表进过加工后写入新的表

10667 0 5

来自：大数据计算 MaxCompute 版块

场景研读

|

监控算法大数据

|

博文

小硅片与大数据的结合 ——协鑫光伏的新制造之路

协鑫光伏坐落在环境优美的苏州工业园区，是全球领先的光伏材料制造商，硅片产品占国内流通硅片的70%，处于国内同行业龙头地位。本文将向读者介绍大数据是如何助力晶片制造，以减少成本，提高效率。

8207 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

大数据存储调度

|

博文

阿里巴巴大数据技术关键进展及展望

2019杭州云栖大会大数据技术专场，由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移，概览了核心技术的发展点，最后针对如何构建智能化大数据平台的相关工作进行了介绍，从引擎优化到 “自动驾驶”，并列举了几个典型案例。

11918 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

监控大数据索引

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

9413 0 0

来自：检索分析服务 Elasticsearch版版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11257 1 10

来自：大数据计算 MaxCompute 版块

zongyuanwu

|

分布式计算运维算法

|

博文

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大，为算法同学使用数据提供了更多的手段和玩法，能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的，他们需要将数据结合算法在线服务的方式应用到业务中去，才能真正产生价值。从搜索事业部的现状来看，算法的作用方式主要有两种，一种是嵌入引擎内.

10491 1 5

来自：智能搜索推荐版块

隐林

|

分布式计算测试技术 MaxCompute

|

博文

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。小编第一时间申请到了公测资格，下面就为大家做个简单演示，通过DataWorks注册MaxCompute Python UDF（字符串大小写转换），完成数据处理。

8895 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 流计算

|

博文

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛，大致可以分两类：DISTINCT去重和FIRST_VALUE主键去重，两者的区别是DISTINCT去重是对整行数据进行去重，比如tt里面数据可能会有重复，我们要去掉重复的数据；FIRST_VALUE是根据主键进行去重，可以看成是一种业务层面的去重，但是真实的业务场景使用也很普遍，比如一个用户有多次点击，业务上只需要取第一条。

10577 0 1

来自：实时计算 Flink 版块

晋恒

|

存储分布式计算大数据

|

博文

专访20年技术老兵云郎：16年峰回路，每一步都是更好的沉淀

从技术研发到产品经理，3次峰回路转，这条路，他走了16年一个懂技术的产品，更有底气和研发“叫板” 一个具备产品思维的技术，更明白未来的方向

7912 0 1

来自：大数据计算 MaxCompute 版块

jasonli4

|

存储消息中间件监控

|

博文

基于Flink的实时日志分析系统实践

10114 2 4

来自：实时计算 Flink 版块

上单

|

SQL 分布式计算 JavaScript

|

博文

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful，small is powerful

9208 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

人工智能分布式计算大数据

|

博文

阿里云MaxCompute香港开服引入更多人工智能

　9月18日，阿里云宣布大数据计算服务MaxCompute在香港正式开服。通过MaxCompute强大的计算能力，阿里云将为香港市场提供更多的人工智能产品，助力当地企业智能化升级。

7321 0 0

来自：大数据计算 MaxCompute 版块

jasonli4

|

消息中间件 SQL Kafka

|

博文

使用 Kafka 和 Flink 构建实时数据处理系统

引言在很多领域，如股市走向分析, 气象数据测控，网站用户行为分析等，由于数据产生快，实时性强，数据量大，所以很难统一采集并入库存储后再做处理，这便导致传统的数据处理架构不能满足需要。流计算的出现，就是为了更好地解决这类数据在处理过程中遇到的问题。

11995 0 0

来自：实时计算 Flink 版块

隐林

|

分布式计算安全 MaxCompute

|

博文

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似，MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台，MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面：1、访问可追溯；2、更细粒度的访问控制；3、跨租户访问控制。访问可追溯

8716 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

存储分布式计算资源调度

|

博文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop？ Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运算和存储。

9692 1 2

来自：大数据计算 MaxCompute 版块

runxiao

|

机器学习/深度学习自然语言处理搜索推荐

|

博文

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型，如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关，但文本并不匹配的情况。为了解决语义匹配问题，出现很多LSA，LDA等语义模型。

10490 0 1

来自：智能搜索推荐版块

祎休

|

分布式计算监控搜索推荐

|

博文

基于MaxCompute构建企业用户画像（用户标签的制作）

在数据化营销时代，数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值，也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值？在营销里面我们都谈精准营销，谈用户画像，那用户画像到底如何构建，用户的标签如何开发？本示例给与最简单的demo，那个大家清楚认识基于MaxCompute如何构建企业用户标签。

8716 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

存储数据采集监控

|

博文

“NASA”计划背后，阿里巴巴大数据系统架构概述

DT时代，人们比以往任何时候都收集到更多的数据。据IDC报告，预计到2020年，全球数据总量将超过40ZB(相当于40万亿GB)，这一数据量是2011年的22倍！正在“爆炸式”增长的数据，其潜在巨大价值有待发掘。

8508 0 0

来自：大数据计算 MaxCompute 版块

祎休

|

数据采集搜索推荐数据挖掘

|

博文

《云数据·大计算：海量日志数据分析与应用》Workshop-入口

阿里云MVP Meetup Workshop入口

7979 0 1

来自：大数据计算 MaxCompute 版块

继盛

|

SQL 分布式计算 MaxCompute

|

博文

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面，一个是直接使用，也就是在 MaxCompute SQL 中使用；一个是间接的方式，也就是 PyODPS DataFrame，这种方式你不需要直接写 Python UDF，而是写普通的 Python 函数或者类。

9134 0 1

来自：大数据计算 MaxCompute 版块

鸿初

|

SQL 大数据 HIVE

|

博文

hive在E-MapReduce集群的实践（二）集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

7524 0 0

来自：开源大数据平台 E-MapReduce 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

8893 0 1

来自：大数据计算 MaxCompute 版块

继盛

|

分布式计算 Shell MaxCompute

|

博文

PyODPS 安装常见问题解决

9959 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度测试技术 Apache

|

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

9453 0 1

来自：开源大数据平台 E-MapReduce 版块

寒沙牧

|

SQL 分布式计算算法

|

博文

Spark中的资源调度

本文对Spark的资源调度的进行了介绍，涉及到4个维度的调度，包括SparkApplication/pool/TaskSetManager/Task。

7633 0 0

来自：开源大数据平台 E-MapReduce 版块

祎休

|

SQL 分布式计算大数据

|

博文

阿里云大学精品课程：深入理解阿里云数加大数据开发套件Data IDE-基本知识

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute（原ODPS）开发入门指南——数据开发工具篇》，那么基于Data IDE进行数据开发想必也遇到一些不少的困惑，就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享，也欢迎拍砖。

7477 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算缓存监控

|

博文

深入了解 Flink 网络栈（二）：监控、指标和处理背压

在之前的文章中，我们从高级抽象到底层细节各个层面全面介绍了 Flink 网络栈的工作机制。作为这一系列的第二篇文章，本文将在第一篇的基础上更进一步，主要探讨如何监视与网络相关的指标，从而识别背压等因素带来的影响，或找出吞吐量和延迟的瓶颈所在。

8392 0 0

来自：实时计算 Flink 版块

金融豆豆

|

分布式计算大数据 BI

|

博文

阿里云大数据实验室：MaxCompute使用体验

阿里云大数据实验室时阿里云开发的一站式大数据教学实践和科研创新平台，提供创业创新大赛平台，为各行业用户提供简单易用的大数据真实环境，让数据价值触手可及。在阿里云大数据实验室中集成了MaxCompute。

7491 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

运维算法大数据

|

博文

【阿里云MVP第五期】安畅网络韩军辉：ELK在数据中心流量分析中的应用

本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度，分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。

7060 0 0

来自：检索分析服务 Elasticsearch版版块

付空

|

运维流计算

|

博文

运维场景下的实时计算应用

案例与解决方案汇总页：阿里云实时计算产品案例&解决方案汇总运维场景主要有下面几个需求：整体系统运行指标计算与可视化，可参考：数据仓库介绍与实时数仓案例问题排查与全链路DEBUG，可参考：【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题、【阿里内部应用】基于Bli.

6858 0 0

来自：实时计算 Flink 版块

寒沙牧

|

分布式计算 Hadoop 数据安全/隐私保护

|

博文

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6625 0 0

来自：开源大数据平台 E-MapReduce 版块

传学

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute的分区配置和使用

详细介绍MaxCompute里的分区的用法

8525 0 0

来自：大数据计算 MaxCompute 版块

工程师甲

|

存储关系型数据库数据库

|

博文

时序数据库场景下的Elasticsearch（一）：技术特点简介

本文介绍了时间序列数据的特点和主流的技术分类，以及Elasticsearch在时序数据库场景下的技术特点。

10895 2 2

来自：检索分析服务 Elasticsearch版版块

傲海

|

机器学习/深度学习算法框架/工具网络可视化

|

博文

PAI实现的深度学习网络可视化编辑功能-FastNeuralNetwork

在深度学习领域流传着这样一句话，“一张好的表示图，胜过一千个公式” 本文会介绍如何通过PAI-DSW中的FastNerualNetwork功能实现深度学习网络的可视化编辑。神经网络最早诞生于生物领域，用来模仿生物大脑复杂的神经元构成，后来人类为了探索大脑是如何思考，通过一层一层的数学公式来模拟大脑分析事物的过程。

6814 0 0

来自：人工智能平台PAI 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

广告场景下的实时计算

细数阿里云服务器的十二种典型应用场景

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

FM算法介绍

原来MaxCompute还能这么玩系列（2）—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

如何正确使用 Flink Connector？

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

Mars——基于张量的统一分布式计算框架

SQL优化器原理 - 查询优化器综述

Ha3搜索引擎简介

MaxCompute访问TableStore(OTS) 数据（20170601更新）

PyODPS开发中的最佳实践

flume java介绍

使用Hive进行OSS数据处理的一个最佳实践

【大数据干货】数据进入阿里云数加-分析型数据库AnalyticDB（原ADS）的N种方法

Apache Flink 漫谈系列(04) - State

如何用SQL对MaxCompute数据进行修改和删除

小硅片与大数据的结合 ——协鑫光伏的新制造之路

阿里巴巴大数据技术关键进展及展望

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

【大数据技巧】MaxCompute中实现IP地址归属地转换

DII—算法服务利器

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

专访20年技术老兵云郎：16年峰回路，每一步都是更好的沉淀

基于Flink的实时日志分析系统实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

阿里云MaxCompute香港开服 引入更多人工智能

使用 Kafka 和 Flink 构建实时数据处理系统

MaxCompute数据安全机制

阿里巴巴飞天大数据架构体系与Hadoop生态系统

深度语义模型以及在淘宝搜索中的应用

基于MaxCompute构建企业用户画像（用户标签的制作）

“NASA”计划背后，阿里巴巴大数据系统架构概述

《云数据·大计算：海量日志数据分析与应用》Workshop-入口

PyODPS 中使用 Python UDF

hive在E-MapReduce集群的实践（二）集群hive参数优化

MaxCompute 学习计划(二)

PyODPS 安装常见问题解决

YARN中的CPU资源隔离-CGroups

Spark中的资源调度

阿里云大学精品课程：深入理解阿里云数加大数据开发套件Data IDE-基本知识

深入了解 Flink 网络栈（二）：监控、指标和处理背压

阿里云大数据实验室：MaxCompute使用体验

【阿里云MVP第五期】安畅网络韩军辉：ELK在数据中心流量分析中的应用

运维场景下的实时计算应用

E-MapReduce集群中HDFS服务集成Kerberos

MaxCompute的分区配置和使用

时序数据库场景下的Elasticsearch（一）：技术特点简介

PAI实现的深度学习网络可视化编辑功能-FastNeuralNetwork

大数据与机器学习

活跃用户

相关产品

阿里云MaxCompute香港开服引入更多人工智能