8种最差的预测建模技术,你认同吗?

管理员账号

2017-06-14

小编说:现代数据的特点通常是更加的非结构化、更大规模,需要合并来自各种源的不完全兼容的数据集。然而一些传统统计学应用于现代数据时经常被滥用并导致错误结论。以下罗列了8种最差的预测建模技术以及仍被使用的原因。本文选自《数据天才:数据科学家修炼之道》。

以下技术大多数已经发展了较长时间(在过去10年中),其中大部分缺点已经得到弥补,因此更新后的技术已经远不同于其原始版本,性能也大为提高。但通常情况下,这些有弊端的技术仍然被广泛使用。

1.线性回归 依靠一般标准、异方差性和其他假设,不能捕获高度非线性的混沌模式。它倾向于过度拟合、参数难以解读,并且在独立变量高度相关时非常不稳定。修正方法包括减少变量、进行变量变换,以及使用约束回归(例如,岭回归或Lasso回归)。

2.传统决策树 大而不稳定,无法解读,而且容易过度拟合。修正方法包括使用多个小决策树,而不是使用一个大决策树。

3.线性判别分析法 用于监督聚类。这是一个很差的技术,因为它假定簇没有重叠并且被超平面完全分开。在实践中从来没有这样的情况。应改用密度估计技术。

4.K-均值聚类 倾向于产生环形簇,不容易处理不符合高斯混合分布的数据点。

5.神经网络 不容易解读,不稳定,容易过度拟合。

6.最大似然估计 要求你的数据符合预先规定的概率分布。 它不是数据驱动的,很多时候预先指定的高斯分布和你的数据很不适合。

7.高维密度估计 常受到维度的影响。修正方法之一是使用非参数核密度估计与自适应的带宽。

8.朴素贝叶斯 用于如欺诈检测、垃圾邮件检测和评分。它们假定变量是独立的,但如果不是,就会惨遭失败。在进行欺诈检测和垃圾邮件检测时,变量(有时被称为规则)是高度相关的。修正方法之一是将变量分为独立的变量簇,每个簇包含高度相关的变量。然后将朴素贝叶斯应用于簇,或者使用数据减少技术。不好的文本挖掘技术(例如,垃圾邮件检测中的基本“单词”规则)和朴素贝叶斯结合会产生非常可怕的结果,带来很多误报和漏报。

这些不好的模型仍然被广泛使用的原因如下。

○ 很多大学课程使用过时的教材,因此很多学生没有接触过更好的数据科学技术。

人们使用黑箱统计软件,不知道其局限性和缺点,或者不会正确调整参数和优化各种节点,或者不了解该软件实际生成什么结果。

○ 政府强制监管行业(制药业和银行业——见银行的Basel III规定)为统计合规而使用30年前的SAS程序。例如,虽然SAS有更好的评分方法可用于信用评分,却被当局武断地拒绝使用。提交给FDA的临床试验分析也是一样,SAS是强制使用的合规软件,使FDA可以从制药公司复制分析和结果。

○ 现代数据集比当初开发这些技术时使用的数据集复杂得多,也极不相同。简而言之,这些技术不是为现代数据集开发的。

○ 没有完美的适用于所有数据集的统计技术,但有很多差的技术。

○ 此外,由于不良的交叉验证高估了未来数据的预期提升值、实际的准确度,或训练集之外的真实投资回报率,从而使差的模型也能达标通过。良好的交叉验证包括以下方面。

○ 将训练集拆分成多个子集(测试和控制子集)。

○ 在控制集中放入不同类型的客户和比测试集更新的数据。

○ 检查控制集中预测值的质量。

○ 计算个别错误(错误定义为,比如真实值减去预测值)的置信区间,以确保错误足够小而且波动不大(在所有控制集上有小方差)。

读者评论

相关专题

相关博文

  • 伪数据科学家 VS 真数据科学家

    伪数据科学家 VS 真数据科学家

    管理员账号 2017-06-07

    小编说:如今数据科学书籍、认证和文凭,如雨后春笋般层出不穷。但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了“数据科学”这个新瓶里。本文选自《数据天才:数据科学家修炼之道》。 R语言编程跟伪数据科学...

    管理员账号 2017-06-07
    1132 0 0 0