【玩转数据系列八】机器学习算法的离线调度实现-广告CTR预测

2016-09-26 10504

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 整套实验使用了阿里云机器学习进行数据挖掘工作，通过大数据开发套件进行调度和推送。具体的业务场景是：通过历史数据在阿里云机器学习平台上面训练模型，通过大数据开发进行调度，每天凌晨对于每天的广告投放CTR预测，甄选出符合标准的广告推送出去。

机器学习实验部署和调度

产品地址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

（因为模板功能限制，本实验需要用户自行上传分区表数据。）

（本文数据为虚构，仅供实验。本实验拟在介绍阿里云机器学习与大数据开发调度的配合。）

一、背景

本文实现的场景是广告的CTR预测。广告CTR预测是广告行业的典型应用，通过历史数据训练预测模型，对于每天的增量数据进行预测，找出广告的CTR符合标准的样本进行投放。
整套实验使用了阿里云机器学习进行数据挖掘工作，通过大数据开发套件进行调度和推送。具体的业务场景是：通过历史数据在阿里云机器学习平台上面训练模型，通过大数据开发进行调度，每天凌晨对于每天的广告投放CTR预测，甄选出符合标准的广告推送出去。

二、数据集介绍

具体字段如下：

字段名	含义	类型	描述
id	ID	string	广告的唯一标识
age	年龄	double	广告投放人群的年龄
sex	性别	double	广告投放人群的性别，1是男，0是女
duration	时长	double	广告在界面的停留时长，以秒为单位
place	位置	double	广告投放位置，0~4，按照投放位置从上到下的顺序排列
ctr	广告CTR	double	广告点击量除以展现量，这里面大于0.03是1，其它是0
dt	partition	string	年月日格式yyyyMMdd

数据截图：

数据是通过random算法随机生成，所以本次实验不针对结果进行评估，主要介绍实验搭建以及和大数据开发套件的调度使用。数据包含20160919、20160920的历史数据，需要针对20160921的数据预测。使用的是MaxCompute的分区表。

三、机器学习平台

实验可以通过实验模板处创建。找到带有【机器学习离线调度实现】字样的实验，从模板创建。

首先，实验流程图：

实验可以大致分为四个模块，数据源导入（ad），数据预处理（归一化），模型训练（逻辑回归二分类），预测（预测）。

数据源导入

ad-2是训练数据源。
ad-1是预测源，
通过配置分区表的partition dt=@@{yyyyMMdd}，确定预测数据是每日的增量数据。（分区使用详情见：https://help.aliyun.com/document_detail/30281.html?spm=5176.doc30276.6.126.3kX7OU）