Python数据分析与数据化运营 第2版
(副标题):无 ;
(作者): 宋天龙 ;
内容简介:
4.10.1 自动化数据挖掘与机器学习概述
要降低算法应用的难度和门槛,我们需要一种可以自动化工作的方法,这种方法可以称之为自动数据挖掘或机器学习。其基本思路是:由机器遍历指定算法类内的所有算法,然后针对每个算法中的每个参数设置一定的值域,通过交叉检验的方法检测每个模型在每组参数值下的结果,直到穷尽所有的组合并选择出最优模型的最优参数组合。因此,这本质上是一种“穷举”法,只是利用了机器能够快速运算的能力来实现快速经验迭代和验证。
这种自动化学习的方法只需要操作人员设置数据对象并输入确定数据工作方向(例如回归、分类等),然后其他的内容可交给机器去完成,可操作性非常高。但另一方面,它带来的弊端是可能需要大量时间(例如小时甚至天级别)才能产生最优结果,因此这不是一种适合快速学习(尤其是实时计算)和应用的方法。
耗时是自动化学习的关键,我们可以这样来分析下这种耗时是如何产生的。假如我们要做一个分类学习,可选模型有10个,每个模型下可配置的参数有10,每个参数可配置的值域有10,此时产生的笛卡尔积已经达到1000,即我们要运行1000次才能穷举所有的模型方案。需要注意的是,这仅仅是每个模型方案运行一次,我们在优化过程中还需要通过交叉检验来得到最优解,假设交叉检验的次数设置为5,那么我们需要运行5000次。试想一下,假如每次我们运行1个模型方案并检验1次需要1分钟,那么运行完所有的方案以及检验则需要5000分钟(83小时≈3.47天)。这还只是在理想的情况下,如果我们的数据集很多,例如有上亿条记录,那么1分钟可能还不足以检验1次算法方案。
尽管如此,我们可以通过这种方法在小数据集上先做测试(没错,很多时候,我们不会一下子把所有数据集都放到模型中,而是先做算法和思路检验),然后基于小数据的最优方案做微调并快速进入正式实施、部署和上线阶段。另外,对于数据分析师而言,通常我们自身运算
目录预览:
Python数据分析与数据化运营 第2版
第1章 Python和数据化运营
1.1 用Python做数据化运营
1.1.1 Python是什么
1.1.2 数据化运营是什么
1.1.3 Python用于数据化运营
1.2 数据化运营所需的Python相关工具和组件
1.2.1 Python程序
1.2.2 Python交互环境Jupyter
1.2.3 Python第三方库
1.2.4 数据库和客户端
1.2.5 SSH远程客户端
1.3 内容延伸:Python的OCR和tensorflow
1.3.2 机器学习框架:TensorFlow
1.4 第1个用Python实现的数据化运营分析实例、销售预测
1.4.2 案例过程
1.4.3 案例小结
1.5 本章小结
第2章 数据化运营的数据来源
2.1 数据化运营的数据来源类型
........