最近看了head first系列,重读了《深入浅出数据分析》,发现这是一本很好的书,在思维上开阔的不错,通过案例培养数据思维,把思路讲的很清楚,现总结笔记如下:
一、数据分析引言:分解数据
1、确定——分解——评估——决策
重在如何将一个大问题分解成若干易行的小问题,将手头的资料汇总为有用的格式。
2、心智模型:你对外界的假设和你确信的观点。心智模型决定你的观察结果。统计模型取决于心智模型。心智模型应当包括你不了解的因素。也就是说你以为这个世界是什么样子的,你就会看到什么样子的世界,不能以偏概全。
3、从原始数据中获得信息,从而深入挖掘数据。
二、实验:检验你的理论
客户调查比较法:这个案例中运用了对比分析法、平均分析法、交叉分析法。观察研究法:被研究的人自行决定自己属于哪个群体的一种研究方法。混杂因素:研究对象的个人差异,他们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。控制组(对照组):一组体现现状的处理对象,未经过任何新的处理。有比较就要有对照,就要有控制组和实验组。
实验是检验真理的唯一标准。
三、最优化:寻找最大值
约束条件:需要考虑的因素,c决策变量:可以控制的因素,x目标函数:p任何最优化问题都有一些约束条件和一个目标函数可行区域:约束条件范围内的区域“一切模型都是错误的,但其中一些是有用的”详细的假设条件,以帮助优化模型。
四、数据图形化
散点图:散点图是探索性数据分析的工具,X轴自变量,Y轴因变量。可以用R创建散点图
五、假设检验:假设并非如此
变量之间正相关/负相关假设检验的核心是证伪。只需要剔除无法证实的假设
六、贝叶斯统计
条件概率:以一件事情发生为前提的另一件事发生的概率。
P(+|L):表示在患流感的前提下,试验结果为阳性的概率。
基础概率:又叫事前概率。贝叶斯规则:
PL+=P(+|L)P+L+P(+|-L)
七、主观概率:信念数字化
主观概率:用一个数字形式的概率表示自己对某事的确认程度。是对分歧内容和分歧大小的一种精确规范。标准偏差:分析点与数据集平均值的差距。Excel里计算标准差的公式是STDEV
八、启发法:凭人类的天性作分析
启发法:一种解决问题的方法,可能会得出正确的答案,但不保证得出最优化的答案。快省树:描述启发法的图形。快:完成这个过程费时不多;省:不需要大量认知资源。
九、直方图
直方图:显示数据点在数值范围内的分布情况