增强型分析:AI驱动的数据分析、业务决策与案例实践

admin 2022年11月13日 168次浏览

增强型分析:AI驱动的数据分析、业务决策与案例实践

(副标题):无 ;

(作者): 彭鸿涛 张宗耀 聂磊 ;

内容简介:

​ 2.3.1 衍生指标概述
所谓衍生指标(Derived Field)是指利用给定数据集中的字段,通过一些计算而加工产生一些新的指标。创建衍生指标是数据分析过程中最具创意的部分之一,是数据分析者必须具备的基本技能之一。衍生指标将人们的见解融入建模的过程中,使得模型的结论充分体现了业务、市场的重要特征。精心挑选的衍生指标能增强模型的可理解性和解释能力。
一般来说,对数据和变量进行加工和转换的主要目的是统一变量的数据尺度,使变量尽可能为正态分布,使变量之间的非线性关系转换为线性关系,使变量便于用简单自然的方式表示,帮助理解数据的特征,等等。不同的变换方法试图达到不同的目的,不同的模型对数据和变量的要求不同。譬如大多数多元统计方法要求变量的尺度一致,要求因变量服从正态分布。变量的变换一定要根据模型和业务的需要合理地进行。
衍生指标的创建主要体现了数据挖掘者对业务和目标的理解程度,体现了其解决问题的能力、对数据的敏感度和经验等。所以,衍生指标的创建在更多的时候是针对分析目标将既有指标进行加工。比如,银行的数据仓库针对每月的数据都进行了汇总,但是如何知道客户近期的活跃程度呢?一个简单的衍生指标就是“最近6个月平均每月的交易次数”,这就是一个很好的指标。这个指标的加工方式就是读取最近6个月的每月交易次数(很可能每个月都会对应于一张表),然后求一个平均值即可。
在进行数据分析的过程中,可以采用一个做法:将各个字段的数据都看作不断“说话”的部件。当面对很多部件时,就好比处在了一个嘈杂的环境中,数据分析者应当用一个平和的心态,通过查看数据分布、查看与目标变量的相关关系、加工衍生字段等方式,认真挑选这些字段。笔者一直认为,不论字段的数据质量到底如何,它们都是在不断地向我们“诉说”着什么,有些在诉说客户的价值,有些在诉说客户的行为,而数据分析者需要善于倾听和选择。笔者非常认可《数据挖掘技术

目录预览:

​ 增强型分析:AI驱动的数据分析、业务决策与案例实践
第1章 数据科学家的成长之路
1.1 算法与数据科学家
1.1.1 数据科学、人工智能、机器学习等
1.1.2 室内活动还是室外活动
1.2 数据科学家不断成长的几个阶段
1.2.1 算法——如何构建数据分析模型
1.2.2 用法——如何回头看模型
1.2.3 业务——如何产生更大价值
1.2.4 战略——如何更广
1.3 数据科学家的工作模式与组织结构
1.3.1 数据驱动还是业务驱动
1.3.2 数据科学家团队的组织结构
1.4 数据科学家的工作方法要点
第2章 大数据探索及预处理
2.1 大数据探索
2.1.1 数值类型
2.1.2 连续型数据的探索
2.1.3 分类型数据的探索
2.1.4 示例:数据探索
........


[EPUB下载]