优秀的数据分析师
有数据逻辑,结构化思维,商业认知能⼒,这是成为⼀个优秀数据分析师的必备技能。简单来说,就是对运营,数据,⼯具这三种能⼒的综合运⽤。
好的数据分析⾸先要有结构化的思维,也就是我们俗称的⾦字塔思维。思维导图是必备的⼯具;之后再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。分析也是有框架和⽅的,主要围绕三个要点展开:1)⼀个业务没有指标,则不能增长和分析;2)好的指标应该是⽐率或⽐例;3)好的分析应该对⽐或关联。1)逻辑性和统计学
聚类和分类的区别?举例(不要背定义,要听到候选⼈⾃⼰的理解)评估回归模型的指标?为什么?举例
时间序列的预测,原理是什么?如何评估预测的准确性?相关和因果有什么区别和联系?举例
数据统计、数据分析和数据挖掘的区别和联系?举例2)数据分析思路类
你认为数据分析如何体现价值?你是怎么做的?
看到⽇活下跌,你会如何分析?先做什么、再做什么,告诉我你的思路和缘由注册类指标和活跃类指标,你会看哪个?为什么?你的报表体系怎么建设的?为什么这么建设?3)数据分析技能类
你理解的指标是什么?组成部分?业务意义?⽤途?举例
什么是指标体系?如何建⽴的?如何应⽤的?(结合候选⼈简历中的实际项⽬)指标、维度和度量的区别和联系?(由区分度、有难度,60%的⼈讲不清楚)“过去3年⼴州地区A产品的⽉活增长率“,⼏个指标⼏个维度?下钻分析,“下钻”的是什么?交叉分析,“交叉”的是什么?举例什么是线性?线性回归模型适⽤哪些场景?为什么?你如何管理指标的⼝径?如何让⼝径达成统⼀和共识?4)数据敏感性类
这个部分我会给候选⼈⼀个⾮常简单的题⽬,见下图。其中,要求⾄少说出3条所看出的事实。
假设是iPhone X在不同城市,不同时间的销售量
信息极其有限,但是确实考察了数据敏感度、数据分析的思路、分析能⼒以及基础的统计学知识。有的候选⼈只能看出3条,有的看出10条。
说的再多,简历再好,也不如这个题⽬10分钟考察的结果,⾼下⽴判。5)其他好玩的问题
数据分析这么枯燥,你为什么想做呢?说出3点你怎么看待数据分析?说出3点
⽣活中有⽆⽤过数据分析的技能解决过问题的?举例
给你两周时间,写⼀份陌⽣⾏业的分析报告,你会怎么做?流量反映在指标上,是什么指标?为什么?
常⽤检验⽅法与⽐较
1)两样本均值:t检验(样本量少)、u检验(样本量⼤) 2)多样本均值:F检验(⽅差齐性检验)、⽅差分析
3)两样本事件发⽣频数是否关联:卡⽅检验、秩和检验(有序多组多分类)、⼆项分布检验 4)序列⾃相关:DW检验、ADF检验 5)⾯板数据检验:F检验、H检验 6)相关性分析、回归分析这些算么?
不⽤任何公开参考资料,估算今年新⽣⼉出⽣数量
1)采⽤两层模型(⼈群画像*⼈群转化):新⽣⼉出⽣数=Σ各年龄层育龄⼥性数量*各年龄层⽣育⽐率
2)从数字到数字:如果有前⼏年新⽣⼉出⽣数量数据,建⽴时间序列模型(需要考虑到⼆胎放开的突变事件)进⾏预测
3)找先兆指标,如婴⼉类⽤品的新增活跃⽤户数量X表⽰新⽣⼉家庭⽤户。Xn/新⽣⼉n为该年新⽣⼉家庭⽤户的转化率,如X2007/新⽣⼉2007位为2007年新⽣⼉家庭⽤户的
转化率。该转化率会随平台发展⽽发展,可以根据往年数量推出今年的⼤致转化率,并根据今年新增新⽣⼉家庭⽤户数量推出今年估计的新⽣⼉数量。
过拟合的解决办法 1)增加数据 2)正则项 3)early stopping 4)控制模型复杂度:
a. dropout(我觉得类似于subfeature) b. 剪枝、控制树深 c. 增⼤分割平⾯间隔 5)bagging
6)subsampe & subfeature 7)特征选择、特征降维
8)数据增强(加包含噪声的数据) 9)ensemblesvm,讲⼀下原理
1)⼀种分类⽅法,找到⼀个分类的超平⾯,将正负例分离,并让分类间隔尽可能⼤ 2)过程:
a. 线性svm:损失函数如下
b. 对偶学习问题
c. 核函数:为了实现⾮线性分类,可以将样本映射到⾼维平⾯,然后⽤超平⾯分割。为了减少⾼维平⾯计算内积的操作,可以⽤⼀些“偷吃步”的⽅法同时进⾏⾼维映射和内积计算,就是核函数。包括多项式核函数、⾼斯核函数和sigmoid核函数 d. soft kernel
(参考林轩⽥《机器学习技法》,SVM这部分的推导讲得很清楚;或者参考https://blog.csdn.net/abcjennifer/article/details/7849812/) 3)优点:
a. 容易抓住特征和⽬标之间的⾮线性关系 b. 避免陷⼊局部解,泛化能⼒强
c. 可以解决⼩样本⾼维问题(如⽂本分类) d. 分类时只⽤到了⽀持向量,泛化能⼒强 4)缺点:
a. 训练时的计算复杂度⾼ b. 核函数选择没有通⽤⽅案 c. 对缺失数据敏感梯度下降和极⼤似然 1)梯度下降:
a. 是解决优化问题的⼀种⽅法,较适合于凸函数的优化,可以找到极值(极⼩值和极⼤值)
b. 对于某个参数,计算损失函数对该参数的偏导,该偏导即为下降⽅向。然后参数沿着该⽅向更新⼀个步长(学习率)
c. 迭代直到满⾜迭代次数或者参数不再变化
d. 包括梯度下降、随机梯度下降、mini-batch梯度下降 e. 只⽤到了⼀阶导信息,⽤⽜顿法可以引⼊⼆阶导数信息 f. 梯度下降有效性的证明:⽤泰勒展开看
(参考:https://www.zhihu.com/question/24258023 @杨涛 的回答) 2)极⼤似然估计:
a. 思想:事件概率A与⼀个参数θ有关,我们观察到⼀系列事件,那么此时θ的取值应该是能使P(A|θ)最⼤的那个值。 b. 过程:
(1)写出似然函数
(2)我们求解的⽬标是使似然函数最⼤
(3)因为是乘法问题,⼀般log化变成加法问题求解。即对要求的参数θ求偏导,令其为0
11. 特征选择的⽅法
1)过滤:计算特征与标签之间的卡⽅、互信息、相关系数(只能识别线性关系),过滤掉取值较低的特征。或者使⽤树模型建模,通过树模型的importance进⾏选择(包括包外样本检验平均不纯度、特征使⽤次数等⽅法)
2)包裹:认为特征间的交叉也包含重要信息,因此计算特征⼦集的效果 3)嵌⼊法:L1正则化可以将不重要的特征降到0、树模型抽取特征 4)降维:PCA、LDA等
12. GBDT和xgboost,bagging和boosting 12.1 GBDT
1)⾸先介绍Adaboost Tree,是⼀种boosting的树集成⽅法。基本思路是依次训练多棵树,每棵树训练时对分错的样本进⾏加权。树模型中对样本的加权实际是对样本采样⼏率的加权,在进⾏有放回抽样时,分错的样本更有可能被抽到
2)GBDT是Adaboost Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是⼀个数值,分类误差就是真实值减去叶节点的输出值,得到残差。GBDT要做的就是使⽤梯度下降的⽅法减少分类误差值
在GBDT的迭代中,假设我们前⼀轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的⽬标是找到⼀个CART回归树模型的弱学习器ht(x),让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最⼩。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更⼩。
GBDT的思想可以⽤⼀个通俗的例⼦解释,假如有个⼈30岁,我们⾸先⽤20岁去拟合,发现损失有10岁,这时我们⽤6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们⽤3岁拟合剩下的差距,差距就只有⼀岁了。如果我们的迭代轮数还没有完,可以继续迭代下⾯,每⼀轮迭代,拟合的岁数误差都会减⼩。(参考:https://www.cnblogs.com/pinard/p/6140514.html) 3)得到多棵树后,根据每颗树的分类误差进⾏加权投票 12.2 xgboost
xgb也是⼀种梯度提升树,是gbdt⾼效实现,差异是:
1)gbdt优化时只⽤到了⼀阶导数信息,xgb对代价函数做了⼆阶泰勒展开。(为什么使⽤⼆阶泰勒展开?我这⾥认为是使精度更⾼收敛速度更快,参考李宏毅的《机器学习》课程,对损失函数使⽤泰勒⼀次展开是梯度下降,⽽进⾏更多次展开能有更⾼的精度。但感觉还不完全正确,⽐如为什么不三次四次,⽐如引进⼆次导会不会带来计算开销的增加,欢迎⼤家讨论指正。)
2)xgb加⼊了正则项
3)xgb运⾏完⼀次迭代后,会对叶⼦节点的权重乘上shrinkage(缩减)系数,削弱当前树的影响,让后⾯有更⼤的学习空间 4)⽀持列抽样等特性
5)⽀持并⾏:决策树中对特征值进⾏排序以选择分割点是耗时操作,xgb训练之前就先对数据进⾏排序,保存为block结构,后续迭代中重复⽤该结构,⼤⼤减少计算量。同时各个特征增益的计算也可以开多线程进⾏
6)寻找最佳分割点时,实现了⼀种近似贪⼼法,同时优化了对稀疏数据、缺失值的处理,提⾼了算法效率 7)剪枝:GBDT遇到负损失时回停⽌,是贪⼼算法。xgb会到指定最⼤深度,然后再剪枝 12.3 bagging
1)是⼀种⾃举聚合的⽅法,随机有放回地从样本内抽样构造分类器,然后多个分类器投票得到最终结果 2)可以降低⽅差,⽤于减少过拟合 3)常见的随机森林是bagging⽅法的应⽤ 4)是并⾏的
5)最终投票⼀般是⼀个分类器⼀票 12.4 boosting
1)是⼀种将弱分类器组合起来形成强分类器的框架,串⾏结构,后⼀个分类器根据前⼀个分类器得到的信息进⾏重新训练,不断推进得到更好的模型 2)常见的boost⽅法有:
a. Adaboost:对每⼀次分类错误的样本进⾏加权,让下⼀个分类器更关⼼这些分错的样本
b. gbdt:每⼀个分类器都是cart树,输出的是分为正类的score。真实值减去score得到残差,下⼀棵树对残差进⾏训练。通过这种⽅法不断缩⼩对真实值差距 3)可以降低偏差,提⾼模型的表达能⼒,减少⽋拟合 4)常见的有Adaboost和GBDT等 5)是串⾏的
6)⼀般是按照每个分类器的分类正确率进⾏加权投票
数据库三范式
⼀般来说的数据库三范式都是指的关系型数据库,范式指的就是规范的意思,三范式指的就是利⽤关系型数据库进⾏建表时候普遍需要遵循的三个规范(即1NF,2NF,3NF);
1NF:建表时要保证列的原⼦性(即不可分割性);
2NF:第⼆范式(2NF)是在第⼀范式(1NF)的基础上建⽴起来的,即满⾜第⼆范式(2NF)必须先满⾜第⼀范式(1NF)。第⼆范式(2NF)要求数据库表中的每个实例或记录必须可以被唯⼀地区分。
3NF:第三范式(3NF)是第⼆范式(2NF)的⼀个⼦集,即满⾜第三范式(3NF)必须满⾜第⼆范式(2NF)。简⽽⾔之,第三范式(3NF)要求⼀个关系中不包含已在其它关系已包含的⾮主关键字信息。
增量表和全量表优缺点
1. 全量表:每天的所有的最新状态的数据,
2. 增量表:每天的新增数据,增量数据是上次导出之后的新数据。
3. 拉链表:维护历史状态,以及最新状态数据的⼀种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了⼀部分不变的记录⽽已,通过拉链表可以很⽅便的还原出拉链时点的客户记录。4. 流⽔表: 对于表的每⼀个修改都会记录,可以⽤于反映实际记录的变更。
拉链表通常是对账户信息的历史变动进⾏处理保留的结果,流⽔表是每天的交易形成的历史;流⽔表⽤于统计业务相关情况,拉链表⽤于统计账户及客户的情况数据仓库之拉链表(原理、设计以及在Hive中的实现)
内部表和外部表区别
未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:
内部表数据由Hive⾃⾝管理,外部表数据由HDFS管理;
内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由⾃⼰制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse⽂件夹下以外部表的表名创建⼀个⽂件夹,并将属于这个表的数据存放在这⾥);
删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的⽂件并不会被删除;
对内部表的修改会将修改直接同步给元数据,⽽对外部表的表结构和分区进⾏修改,则需要修复(MSCK REPAIR TABLE table_name;)
数据倾斜了怎么办1:什么是数据倾斜?
前⾯提到分布式计算,是⼀个集群共同承担计算任务,理想状态下,每个计算节点应该承担相近数据量的计算任务,然⽽实际情况通常不会这么理想,数据分配严重不均就会产⽣数据倾斜。我们先来给数据倾斜下个明确点的定义。
数据倾斜,指的是并⾏处理的过程中,某些分区或节点处理的数据,显著⾼于其他分区或节点,导致这部分的数据处理任务⽐其他任务要⼤很多,从⽽成为这个阶段执⾏最慢的部分,进⽽成为整个作业执⾏的瓶颈,甚⾄直接导致作业失败。
举个实际发⽣的例⼦说明下,⼀个spark作业,其中有个stage是由200个partition组成,在实际执⾏中,有198个partition在10秒内就完成了,但是有两个partition执⾏了3分钟都没有完成,并且在执⾏5分钟后失败了。这便是典型的数据倾斜场景,通过观察SparkUI发现这两个partition要处理的数据是其他partition的30多倍,属于⽐较严重的数据倾斜。2:数据倾斜的危害
知道了什么是数据倾斜,那么它到底有什么危害,让⼤家这么痛恨它的同时,⼜很畏惧它呢。数据倾斜主要有三点危害:
危害⼀:任务长时间挂起,资源利⽤率下降
计算作业通常是分阶段进⾏的,阶段与阶段之间通常存在数据上的依赖关系,也就是说后⼀阶段需要等前⼀阶段执⾏完才能开始。
举个例⼦,Stage1在Stage0之后执⾏,假如Stage1依赖Stage0产⽣的数据结果,那么Stage1必须等待Stage0执⾏完成后才能开始,如果这时Stage0因为数据倾斜问题,导致任务执⾏时长过长,或者直接挂起,那么Stage1将⼀直处于等待状态,整个作业也就⼀直挂起。这个时候,资源被这个作业占据,但是却只有极少数task在执⾏,造成计算资源的严重浪费,利⽤率下降。
危害⼆:由引发内存溢出,导致任务失败
数据发⽣倾斜时,可能导致⼤量数据集中在少数⼏个节点上,在计算执⾏中由于要处理的数据超出了单个节点的能⼒范围,最终导致内存被撑爆,报OOM异常,直接导致任务失败。
危害三:作业执⾏时间超出预期,导致后续依赖数据结果的作业出错
有时候作业与作业之间,并没有构建强依赖关系,⽽是通过执⾏时间的前后时间差来调度,当前置作业未在预期时间范围内完成执⾏,那么当后续作业启动时便⽆法读取到其所需要的最新数据,从⽽导致连续出错。
可以看出,数据倾斜问题,就像是⼀个隐藏的杀⼿,潜伏在数据处理与分析的过程中,只要⼀出⼿,⾮死即伤。那么它⼜是如何产⽣的呢?想要解决它,我们就要先了解它。3:为什么会产⽣数据倾斜?3.1:读⼊数据的时候就是倾斜的
读⼊数据是计算任务的开始,但是往往这个阶段就可能已经开始出现问题了。
对于⼀些本⾝就可能倾斜的数据源,在读⼊阶段就可能出现个别partition执⾏时长过长或直接失败,如读取id分布跨度较⼤的mysql数据、partition分配不均的kafka数据或不可分割的压缩⽂件。
这些场景下,数据在读取阶段或者读取后的第⼀个计算阶段,就会容易执⾏过慢或报错。3.2:shuffle产⽣倾斜
在shuffle阶段造成倾斜,在实际的⼯作中更加常见,⽐如特定key值数量过多,导致join发⽣时,⼤量数据涌向⼀个节点,导致数据严重倾斜,个别节点的读写压⼒是其他节点的好⼏倍,容易引发OOM错误。3.3:过滤导致倾斜
有些场景下,数据原本是均衡的,但是由于进⾏了⼀系列的数据剔除操作,可能在过滤掉⼤量数据后,造成数据的倾斜。
例如,⼤部分节点都被过滤掉了很多数据,只剩下少量数据,但是个别节点的数据被过滤掉的很少,保留着⼤部分的数据。这种情况下,⼀般不会OOM,但是倾斜的数据可能会随着计算逐渐累积,最终引发问题。4:怎么预防或解决数据倾斜问题?4.1.尽量保证数据源是均衡的
程序读⼊的数据源通常是上个阶段其他作业产⽣的,那么我们在上个阶段作业⽣成数据时,就要注意这个问题,尽量不要给下游作业埋坑。如果所有作业都注意到并谨慎处理了这个问题,那么出现读⼊时倾斜的可能性会⼤⼤降低。
这个有个⼩建议,在程序输出写⽂件时,尽量不要⽤coalesce,⽽是⽤repartition,这样写出的数据,各⽂件⼤⼩往往是均衡的。4.2.对⼤数据集做过滤,结束后做repartition
对⽐较⼤的数据集做完过滤后,如果过滤掉了绝⼤部分数据,在进⾏下⼀步操作前,最好可以做⼀次repartition,让数据重回均匀分布的状态,否则失衡的数据集,在进⾏后续计算时,可能会逐渐累积倾斜的状态,容易产⽣错误。4.3.对⼩表进⾏⼴播
如果两个数据量差异较⼤的表做join时,发⽣数据倾斜的常见解决⽅法,是将⼩表⼴播到每个节点去,这样就可以实现map端join,从⽽省掉shuffle,避免了⼤量数据在个别节点上的汇聚,执⾏效率也⼤⼤提升。4.4.编码时要注意,不要⼈为造成倾斜
在写代码时,也要多加注意不要使⽤容易出问题的算⼦,如上⽂提到的coalesce。
另外,也要注意不要⼈为造成倾斜,如作者⼀次在帮别⼈排查倾斜问题时发现,他在代码中使⽤开窗函数,其中写到over (partition by 1),这样就把所有数据分配到⼀个分区内,⼈为造成了倾斜。4.5.join前优化
个别场景下,两个表join,某些特殊key值可能很多,很容易产⽣数据倾斜,这时可以根据实际计算进⾏join前优化。
如计算是先join后根据key聚合,那可以改为先根据key聚合然后再join。⼜如,需求是join后做distinct操作,在不影响结果的前提下,可以改为先distinct,然后再join。这些措施都是可以有效避免重复key过多导致join时倾斜。4.6.具体问题具体分析
某些具体问题或者解决⽅案,不具备普遍性,但是也可以作为⼀种思路参考。
例如,读⼊mysql数据时倾斜,这通常是由于mysql的id分布严重不均,中间存在跨度很⼤的区间造成的。解决⽅法有两种,⼀是加⼤读取时的分区数,将倾斜的区间划分开;另⼀种是,先把id取出来进⾏等宽切割,确保每个区段的id数量⼀致,之后再对各区间进⾏数据读取。
游戏数据分析的流程(1) ⽅
这个阶段决定如何进⾏数据埋点,如何设计分析指标,如何采集,组织数据
有两点需要重点关注:业务需求(埋点,如何进⾏埋点及数据分析可见《移动游戏运营数据指标⽩⽪书》)及指标体系(AARRR模型,BI系统)(2) 数据加⼯主要解决:
业务理解(充分理解需求和标准定义)
技术开发(程序⽅,在客户端植⼊统计分析SDK,或在服务端完成数据的采集)(3) 统计分析
是BI的⼀个⽅⾯,还包括决策⽀持系统(DSS),查询和报告,在线分析处理(OLAP),预测和数据挖掘。(4) 提炼演绎
游戏数据分析模块:流量分析,留存分析,充值分析,等级分析,关卡分析,消费分析,设备分析,转化分析
游戏数据采集标准接⼝设计:⽤户账户(定义账户类型,姓名,级别,性别,年龄,区服),充值信息(充值请求,成功或失败),消费购买(如道具,VIP等),关卡任务(任务,关卡或副本情况),成长体系,个性分析(5) 建议⽅案
利⽤分析结果在于获取⽤户和经营⽤户两个⽅⾯
⽐如⼀款游戏,如果⼀个活跃⽤户连续3天不进⼊游戏,则从游戏中流失的概率就增加10%,此时我们就需要精准定义这⼀⼈群,进⾏⽬标⽤户的营销和召回计划。采⽤什么样的召回⽅式可采⽤AB测⼆ 游戏数据分析师的定位分为玩家,分析师,策划
书⽬推荐:《数据分析:企业的贤内助》(1)玩家-游戏⽤户:
基本的体验要素有:注册模块,加载模块,输⼊法调⽤,⽹络连通性,⽂字情感,弹窗能⼒,推送能⼒,按钮UI设计,触摸设计,流畅性设计,这些可以基于数据追踪来完成数据采集和分析。产品体验分析的⽬的不是获取新⽤户,⽽是影响已经进⾏游戏的⽤户,吸引⼆次打开或登陆游戏。(2)分析师:
客观运⽤数据进⾏理论分析,提供决策和解决⽅案。分析师能⼒分为:A专业的数据解读,需要关注的顶层⽬标和分析需求:
成功的游戏由游戏⼈⽓,游戏收益组成。如⽤户规模(活跃⽤户,新增⽤户,流失⽤户,⽤户⾏为分析,⽤户规模分析),收益能⼒(付费⽤户分析,付费转化效果,收⼊能⼒分析,ARPU分析,付费潜⼒挖掘),营销效果(渠道(留存⽤户分析,玩家价值分析),投放(转化率分析))B 数据分析探索
可以分为两⽅⾯:⼀是可以探索源⾃对数据本⾝特征和分布的探索,此点更多的是数据本⾝层⾯的和摸索。⼆是基于⼀定的业务场景,进⾏⼀些具有前瞻性的数据分析。⽐如对于公会核⼼成员与普通成员游戏时间的分析,了解社交关系是否会影响游戏流失及活跃度。C 理论知识的学习
漏⽃模型。⽐如⼀个⽀付操作只需4步就能完成,但在设计时需要5步,多了⼀步⽀付流程,就多了⼀步⽤户的转化流失。主要探索2点:
A 问题分析的思路及⽅法
B 跨领域知识的运⽤实践:⽐如贝叶斯理论在产品⽣命周期的管理,⽤户⽣命周期的管理,游戏⽤户CRM系统的建⽴等。(3)策划-游戏设计者数据策划需要:理解游戏的核⼼玩法游戏体验设计原则游戏类型设计原则游戏消费设计原则游戏等级关卡设计制定业务指标体系设计问题解决⽅案数据进⾏版本规划竞品游戏学习调研
电商数据分析
先说电商,也就是电商运营,不管是淘宝、拼多多、京东,还是其他电商平台,底层的运营逻辑都是相同的。⽆⾮就是市场及竞争分析、店铺运营规划、爆品打造、社群淘客、seo搜索优化与竞价付费推⼴等
数据分析,则是融⼊在具体的业务中,主要是提升这些指标——点击率、点击量、收藏加购率、页⾯访问深度、转化率、销售额等。电商运营主要包括8个模块:单品分析、店铺运营规划、竞争分析、市场分析、客户分析、活动策划、直通车、淘宝客,熟悉各项核⼼指标1. 单品分析:测图测款,打造爆款,爆款的⽣命周期管理等
2. 店铺运营规划:全年,半年,季度,⽉度,每周的运营计划和报表等3. 竞争分析:谁是竞争对⼿?竞争对⼿做了什么?怎么超过他?等4. 市场分析:整体市场情况,细分蓝海市场,找潜⼒产品等5. 客户分析:⽤户画像,⽤户调研,crm会员体系管理等6. 活动策划:关联营销、财务成本核算、活动效果评估等7. 直通车:标题优化,投⼊产出⽐,降ppc等
8. 淘宝客:不亏本的情况下做销量,维系和开发优质淘客等
⼴告营销数据分析
归因模型分类
根据模型采⽤的算法,可以将归因模型分为两类:1. 启发式归因
顾名思义,启发式归因主要起启发作⽤,是⼀种快速分析⽅法。它使⽤简单的算法,计算各个触点、渠道对转化的贡献度。2. 算法归因
利⽤统计或者机器学习⽅法分析各个触点对最终转化的影响程度。与启发式归因相⽐,它更加客观,不受到使⽤者偏好的影响。常见的算法有logistics回归、⽣存模型、probabilistic模型、markov模型等。
Google Ads 提供了多种归因模型:
最终点击:将转化功劳全部归于客户最后点击的那个⼴告及相应关键字。
使⽤“最终点击”模型时,您可能会注意到,近期时间段的“转化次数(当前模型)”列与“转化次数”列中报告的数据之间略有时滞。这种时滞最终会⾃动纠正。⾸次点击:将转化功劳全部归于客户⾸次点击的那个⼴告及相应的关键字。线性:将促成转化的功劳平均分配给转化路径上的所有点击。
时间衰减:点击越接近转化发⽣时间,分配的功劳就越多。点击每相隔七天,所分配的功劳就会相差⼀半。换⾔之,转化发⽣ 8 天前的点击所获功劳是转化发⽣ 1 天前的点击所获功劳的⼀半。
根据位置:为客户⾸次点击的⼴告及相应关键字以及最后点击的⼴告及相应关键字分别分配 40% 的功劳,将其余 20% 的功劳平均分配给转化路径上的其他点击。以数据为依据:根据转化操作的历史数据来分配转化功劳。(仅供数据充⾜的帐号使⽤)
⾦融数据分析
银⾏三⼤业务类型,即资产业务,负债业务,中间业务(⾮表内业务),其中创新业务暂时没有提及。
风控包含了两类⼯作,即风险管理和内部控制,但在不同类型的企业中,风控的管理及控制的领域⽅向也会有所不同。
账龄分析(Vintage Analysis):⽤以分析账户成熟期、变化规律等。滚动率分析(Roll Rate Analysis):⽤以定义账户好坏程度。
迁移率分析(Flow Rate Analysis):⽤以分析不同逾期状态之间的转化率。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务