|
算法 搜索推荐 流计算
|

广告场景下的实时计算

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 广告场景的综述,[计算广告与流处理技术综述](https://yq.aliyun.com/articles/691816): 在线流量反作弊、在线计费、在线反馈、在线索引、在线广告链接检测等 其中涉及的主要实时处理环节: 实时数据统计.

10913 0
来自: 实时计算 Flink  版块
|
存储 搜索推荐 数据库
|

细数阿里云服务器的十二种典型应用场景

文章转载:小白杨1990 如今,阿里云的产品可谓是多种多样,纷繁复杂。面对各种各样的技术和产品,ECS、RDS、OSS…等等一系列的东西,很容易让人找不到头绪,尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料,针对建站相关的内容为大家整理一些阿里云典型的应用场景

10450 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Java
|

如何使用Tunnel SDK上传/下载MaxCompute复杂类型数据

基于Tunnel SDK如何上传复杂类型数据到MaxCompute?首先介绍一下MaxCompute复杂数据类型: 复杂数据类型 MaxCompute采用基于ODPS2.0的SQL引擎,丰富了对复杂数据类型类型的支持。

9304 0
来自: 大数据计算 MaxCompute  版块
|
算法
|

FM算法介绍

概述 FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。

11171 0
来自: 人工智能平台PAI  版块
|
SQL 分布式计算 数据库连接
|

原来MaxCompute还能这么玩系列(2)—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

本文讲述了如何通过HiveServer2 Proxy来实现Hive生态工具与MaxCompute的互通

9579 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 Kafka 流计算
|

如何正确使用 Flink Connector?

本文主要分享 Flink connector 相关内容,分为以下三个部分的内容:第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑,对社区反馈的问题进行答疑。

11074 0
来自: 实时计算 Flink  版块
|
SQL Apache 流计算
|

【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。

8297 0
|
机器学习/深度学习 分布式计算 算法
|

Mars——基于张量的统一分布式计算框架

很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。 背景 Python Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。

11713 0
来自: 大数据计算 MaxCompute  版块
|
SQL 数据库 HIVE
|

SQL优化器原理 - 查询优化器综述

本文主要是对数据库查询优化器的一个综述,包括查询优化器分类、查询优化器执行过程和CBO框架Calcite。

10523 0
来自: 大数据计算 MaxCompute  版块
|
运维 搜索推荐 调度
|

Ha3搜索引擎简介

Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。

19407 1
来自: 智能搜索推荐  版块
|
存储 分布式计算 NoSQL
|

MaxCompute访问TableStore(OTS) 数据(20170601更新)

MaxCompute作为阿里云大数据平台的核心计算组件,承担了集团内外大部分的分布式计算需求。

10313 0
来自: 大数据计算 MaxCompute  版块
|
JSON 分布式计算 MaxCompute
|

PyODPS开发中的最佳实践

PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。

10900 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Java MaxCompute
|

flume java介绍

近期在做shark flume开发框架的测试,该框架是一个简单高效的面向数据的pipeline框架,采用flume java的思想,实现了一套flume java on MaxCompute的library。为了更好的了解shark自己也去阅读了flume java的paper,这里做一些总结,主要

8656 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 关系型数据库 OLAP
|

【大数据干货】数据进入阿里云数加-分析型数据库AnalyticDB(原ADS)的N种方法

数据进入AnalyticDB(原ADS)的N种方法 ? 分析型数据库(AnalyticDB)是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。 想使用阿里云分析型数据,对于大多数人首先碰到的问

9658 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 算法
|

Apache Flink 漫谈系列(04) - State

实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

13603 1
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作,但是实际工作中可能确实有一些场景需要这样处理,怎么办呢?本文就各种场景下的的解决方法做一个说明。 特别提醒大家,在工作中为避免误操作,尽量避免直接对数据进行直接的修改和删除,建议是创建一张新的表,把结果表进过加工后写入新的表

10667 0
来自: 大数据计算 MaxCompute  版块
|
监控 算法 大数据
|

小硅片与大数据的结合 ——协鑫光伏的新制造之路

协鑫光伏坐落在环境优美的苏州工业园区,是全球领先的光伏材料制造商,硅片产品占国内流通硅片的70%,处于国内同行业龙头地位。本文将向读者介绍大数据是如何助力晶片制造,以减少成本,提高效率。

8207 0
来自: 大数据计算 MaxCompute  版块
|
大数据 存储 调度
|

阿里巴巴大数据技术关键进展及展望

2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并列举了几个典型案例。

11918 0
来自: 大数据计算 MaxCompute  版块
|
监控 大数据 索引
|

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

9413 0
|
分布式计算 大数据 MaxCompute
|

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11257 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 运维 算法
|

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.

10491 1
来自: 智能搜索推荐  版块
|
分布式计算 测试技术 MaxCompute
|

北京云栖大会MaxCompute又出大招,Python UDF抢先体验!

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。 小编第一时间申请到了公测资格,下面就为大家做个简单演示,通过DataWorks注册MaxCompute Python UDF(字符串大小写转换),完成数据处理。

8895 0
来自: 大数据计算 MaxCompute  版块

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

去重逻辑在业务处理中使用广泛,大致可以分两类:DISTINCT去重和FIRST_VALUE主键去重,两者的区别是DISTINCT去重是对整行数据进行去重,比如tt里面数据可能会有重复,我们要去掉重复的数据;FIRST_VALUE是根据主键进行去重,可以看成是一种业务层面的去重,但是真实的业务场景使用也很普遍,比如一个用户有多次点击,业务上只需要取第一条。

10577 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

专访20年技术老兵云郎:16年峰回路,每一步都是更好的沉淀

从技术研发到产品经理,3次峰回路转,这条路,他走了16年 一个懂技术的产品,更有底气和研发“叫板” 一个具备产品思维的技术,更明白未来的方向

7912 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 监控
|

基于Flink的实时日志分析系统实践

10114 2
来自: 实时计算 Flink  版块
|
SQL 分布式计算 JavaScript
|

阿里云大数据利器Maxcompute-使用mapjoin优化查询

small is beautiful,small is powerful

9208 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 分布式计算 大数据
|

阿里云MaxCompute香港开服 引入更多人工智能

 9月18日,阿里云宣布大数据计算服务MaxCompute在香港正式开服。通过MaxCompute强大的计算能力,阿里云将为香港市场提供更多的人工智能产品,助力当地企业智能化升级。

7321 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 SQL Kafka
|

使用 Kafka 和 Flink 构建实时数据处理系统

引言 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。

11995 0
来自: 实时计算 Flink  版块
|
分布式计算 安全 MaxCompute
|

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似,MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台,MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面:1、访问可追溯;2、更细粒度的访问控制;3、跨租户访问控制。访问可追溯

8716 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 资源调度
|

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop? Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。

9692 1
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关,但文本并不匹配的情况。为了解决语义匹配问题,出现很多LSA,LDA等语义模型。

10490 0
来自: 智能搜索推荐  版块
|
分布式计算 监控 搜索推荐
|

基于MaxCompute构建企业用户画像(用户标签的制作)

在数据化营销时代,数据的价值越发显得更为珍贵。那如何让自己的数据发挥价值,也就是说如何让公司沉睡的数据能够驱动业务发展给公司带来商业价值?在营销里面我们都谈精准营销,谈用户画像,那用户画像到底如何构建,用户的标签如何开发?本示例给与最简单的demo,那个大家清楚认识基于MaxCompute如何构建企业用户标签。

8716 0
来自: 大数据计算 MaxCompute  版块
|
存储 数据采集 监控
|

“NASA”计划背后,阿里巴巴大数据系统架构概述

DT时代,人们比以往任何时候都收集到更多的数据。据IDC报告,预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在“爆炸式”增长的数据,其潜在巨大价值有待发掘。

8508 0
来自: 大数据计算 MaxCompute  版块
|
数据采集 搜索推荐 数据挖掘
|

《云数据·大计算:海量日志数据分析与应用》Workshop-入口

阿里云MVP Meetup Workshop入口

7979 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

PyODPS 中使用 Python UDF

PyODPS 中使用 Python UDF 包含两方面,一个是直接使用,也就是在 MaxCompute SQL 中使用;一个是间接的方式,也就是 PyODPS DataFrame,这种方式你不需要直接写 Python UDF,而是写普通的 Python 函数或者类。

9134 0
来自: 大数据计算 MaxCompute  版块
|
SQL 大数据 HIVE
|

hive在E-MapReduce集群的实践(二)集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.

7524 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute 学习计划(二)

学习MaxCompute SQL和UDF的checklist

8893 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

PyODPS 安装常见问题解决

9959 0
来自: 大数据计算 MaxCompute  版块
|
资源调度 测试技术 Apache
|

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理的总CPU进行控制。

9453 0
|
SQL 分布式计算 算法
|

Spark中的资源调度

本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。

7633 0
|
SQL 分布式计算 大数据
|

阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识

基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。

7477 0
来自: 大数据计算 MaxCompute  版块
|
流计算 缓存 监控
|

深入了解 Flink 网络栈(二):监控、指标和处理背压

在之前的文章中,我们从高级抽象到底层细节各个层面全面介绍了 Flink 网络栈的工作机制。作为这一系列的第二篇文章,本文将在第一篇的基础上更进一步,主要探讨如何监视与网络相关的指标,从而识别背压等因素带来的影响,或找出吞吐量和延迟的瓶颈所在。

8392 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 BI
|

阿里云大数据实验室:MaxCompute使用体验

阿里云大数据实验室时阿里云开发的一站式大数据教学实践和科研创新平台,提供创业创新大赛平台,为各行业用户提供简单易用的大数据真实环境,让数据价值触手可及。在阿里云大数据实验室中集成了MaxCompute。

7491 0
来自: 大数据计算 MaxCompute  版块
|
运维 算法 大数据
|

【阿里云MVP第五期】安畅网络韩军辉:ELK在数据中心流量分析中的应用

本文节选自阿里云MVP第五期嘉宾上海安畅运维专家韩军辉分享话题《ELK在运维工作中应用两三事》。从实际应用的角度,分享了ELK在混合云数据中心场景下流量收集、分析、存储、展现、告警中的实践。

7060 0
|
运维 流计算
|

运维场景下的实时计算应用

案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 运维场景主要有下面几个需求: 整体系统运行指标计算与可视化,可参考:数据仓库介绍与实时数仓案例 问题排查与全链路DEBUG,可参考:【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题、【阿里内部应用】基于Bli.

6858 0
来自: 实时计算 Flink  版块
|
分布式计算 Hadoop 数据安全/隐私保护
|

E-MapReduce集群中HDFS服务集成Kerberos

本文介绍在E-MapReduce集群中HDFS服务集成Kerberos。

6625 0
|
SQL 分布式计算 MaxCompute
|

MaxCompute的分区配置和使用

详细介绍MaxCompute里的分区的用法

8525 0
来自: 大数据计算 MaxCompute  版块
|
存储 关系型数据库 数据库
|

时序数据库场景下的Elasticsearch(一):技术特点简介

本文介绍了时间序列数据的特点和主流的技术分类,以及Elasticsearch在时序数据库场景下的技术特点。

10895 2
|
机器学习/深度学习 算法框架/工具 网络可视化
|

PAI实现的深度学习网络可视化编辑功能-FastNeuralNetwork

在深度学习领域流传着这样一句话,“一张好的表示图,胜过一千个公式” 本文会介绍如何通过PAI-DSW中的FastNerualNetwork功能实现深度学习网络的可视化编辑。 神经网络最早诞生于生物领域,用来模仿生物大脑复杂的神经元构成,后来人类为了探索大脑是如何思考,通过一层一层的数学公式来模拟大脑分析事物的过程。

6814 0
来自: 人工智能平台PAI  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

222
今日
55194
内容
95
活动
437100
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务
  • http://www.vxiaotou.com