技术方案全自动氮吹仪即树的生长过程是不断

全自动氮吹仪即树的生长过程是不断

发布时间：2016-11-17 分类：技术方案浏览量：256

ＣＨＡＩＤ、ＣＡＲＴ、Ｑｕｅｓｔ和Ｃ５．０。建立决策树的过程，全自动氮吹仪即树的生长过程是不断的把数据进行分组的过程，每次分组对应一个问题，也对应着一个节点。每次分组都要求所分得的组之间的“差异”最大。各种决策树１０．１数据挖掘及其应用３４９算法之间的主要区别就是对这个“差异”衡量方式的区别。这样的分组过程也可称为数据的 “纯化”。比如图１０．１所示的例子，就包含两个类别———低风险和高风险。如果经过一次分组后，就使每个组中的数据都属于同一个类别，则这样高效的分组方法显然就是我们所追求的。当然实际中应用的决策树可能不会像如图１０．１所示那样简单。如果利用历史数据建立了一个包含几百个属性、输出的类有十几种的决策树，这样的一棵树对人来说可能太复杂了，但无论它有多复杂，每一条从根节点到叶子节点的路径所描述的含义仍然是可以理解的。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。然而这种明确性也可能会给人带来误导。比如，决策树中的每个决策节点都是非常明确毫不含糊的表达了一种数据分组策略，但在实际生活中这种明确可能会带来一些麻烦，凭什么说年收入

为￥４０００１的人就具有较小的信用风险，而年收入为￥４００００的人就具有较大的信用风险呢？在数据挖掘中应用决策树的优点是需要的计算资源较少，而且可以很容易地处理包含很多预测变量的情况。在建立决策树时，为了使得到的决策树所蕴含的规则具有普遍意义，必须避免对决策树的过度训练，同时还要减少训练的时间。决策树很擅长处理非数值型数据，这与神经网络只能处理数值型数据比起来，就免去了很多数据预处理工作。甚至有些决策树算法是专门为处理非数值型数据而设计，因此当采用此种方法建立决策树同时又要处理数值型数据时，反而要做把数值型数据映射到非数值型数据的预处理。３．回归分析回归分析是通过具有已知值的变量来预测其他变量的值。在最简单的情况下，回归采用的是像线性回归这样的标准统计技术，这种技术就是最小二乘法。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票价格、产品合格率

等，很难找到简单有效的方法来预测，因为要描述这些事件的变化所需的变量往往以上百计，且这些变量本身又都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题，如逻辑回归、多项数回归、对数回归、泊松回归等。４．遗传算法遗传算法简称ＧＡ（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ），在本质上是一种不依赖具体问题的直接搜索方法。是一种基于进化理论，并采用自然选择、遗传交叉（或结合）及遗传变异等设计方法的优化技术。遗传算法把问题的解表示成“染色体”，在算法中也即是以二进制编码的串。在执行遗传算法之前，给出一群“染色体”，也即是假设解。然后，把这些假设解置于问题的“环境”中，并按适者生存的原则，从中选择出较适应环境的“染色体”进行复制，再通过交叉、变异过程３５０第十章数据挖掘与Ａｇｅｎｔ技术产生更适应环境的新一代“染色体”群。这样，一代一代地进化，最后就会收敛

全自动氮吹仪即树的生长过程是不断

那艾仪器-经典内容回顾

相关文章推荐