按照如上的分析步骤:
首先是提出了问题,有了需求。
第二步分析问题,提出方案,个人觉得这一步非常重要,数据分析本身就是一个假设检验的过程,如果这一步不能很好的假设,后续的检验也就无从谈起。主要需要思考下从哪些方面来分析这个问题。
想到的主要从三个方面:(PS:这里对于一些常规的属性比如:性别、年龄、地区分布了这些基本,老大早已心中有数,就不再看了)
1.用户的关注度(是否预约,是否浏览过产品站) 。
2.用户的消费能力(历史消费金额、历史购机数量、本年度购机金额、本年度购机数量、最近一次购机时间及金额等)。
3.当前使用机型(购买时间、存储容量、颜色、尺寸等等主要看换机的迫切程度)。
第三步准备数据:
创建分析表,搜集数据 这一步基本是最花时间的,这时候就是考量你的数据平台、数据仓库的时候了,仓库集成的好,平台易用的话时间应该不用太长。
CREATE TABLE xx_user_analyze (
user_id BIGINT (20) DEFAULT NULL,
is_reserve SMALLINT (6) NOT NULL DEFAULT '0',
is_view SMALLINT (6) NOT NULL DEFAULT '0',
view_cnt INT (11) NOT NULL DEFAULT '0',
amt DOUBLE NOT NULL DEFAULT '0',
mb_amt DOUBLE NOT NULL DEFAULT '0',
mb_cnt INT (11) NOT NULL DEFAULT '0',
xx_mb_cnt INT (11) NOT NULL DEFAULT '0',
xx_mb_amt DOUBLE NOT NULL DEFAULT '0',
amt_2016 DOUBLE NOT NULL DEFAULT '0',
mb_amt_2016 DOUBLE NOT NULL DEFAULT '0',
mb_cnt_2016 INT (11) NOT NULL DEFAULT '0',
xx_mb_cnt_2016 INT (11) NOT NULL DEFAULT '0',
xx_mb_amt_2016 DOUBLE NOT NULL DEFAULT '0',
first_pur_time datetime DEFAULT NULL,
last_pur_time datetime DEFAULT NULL,
last_pur_time_seg DECIMAL (10, 2) DEFAULT NULL,
user_level INT (11) NOT NULL DEFAULT '0',
use_model INT (11) NOT NULL DEFAULT '0',
KEY IDX_USER_ID (user_id)
) ENGINE = INNODB DEFAULT CHARSET = utf8;
咔咔咔,一通hive、mysql操作处理,数据基本收集完成。
第四步数据分析:我是把数据导入到superset/caravel进行分析的(这个工具个人有篇文章介绍过,非常不错的一个数据探查、数据分析工具再次推荐下),其实用excel也非常好,只是对excel的有些处理不是很擅长。
第五步就是图表呈现,报告的表达了,最后我们得到的一个结论就是复购周期越近的用户越最容易再次复购。
本文作者:网友 来源:chinaunix
CIO之家 www.ciozj.com 微信公众号:imciow