目录
分类是比聚类更加高级的一项认知活动,比如瓦力是一个机器人,而非“瓦力和威震天属于同一个组别”这样模糊的聚类。
5.1 对分类的需求
博客的文章需要分类,饭店的菜单也需要分类,学术体系有严格的分类,在《智能Web算法》里,称一个分类为一个本体。本体由三个方面构成:概念、实例和属性。
5.2 分类器的概述
根据参考结构分类
所有的分类器可被划分为两大类——二分类和多分类。
二分类
通过回答“是”“否”来进行分类,比如,你是男性吗?
多分类
今天的股票价格是?跌了、涨了、不变(或者非离散的±数值)。
根据使用的技术分类
可以分为统计算法与结构算法。
5.2.1 结构分类算法
基于规则的结构分类算法
由生成规则(if then)与决策树(DT)算法构成。《智能Web算法》使用JBoss提供的面向对象的Rete实现。优点是简单易用、计算高效;缺点是不能处理连续变量,除非离散化。
基于距离的算法
通过数据点之间的距离进行分类,可进一步分为:
函数式分类器
用函数来对数据进行近似,类似回归。(然后通过回归方程的不同而分类?)
最近邻算法
尝试为每一个数据点寻找离它最近的类别。
神经网络算法
通过有计算能力的节点构造人工神经网络。
5.2.2 统计分类算法
通过将数据点与分类的隶属程度回归为0-1之间,再结合二值分类(决策树)进行分类。
5.2.3 分类器的生命周期
有三个阶段:
-
训练——用已经分类的数据样本训练分类器,记录得出的参数值。
-
测试——用上面的“标准答案”回过头测试分类器,将分类误差控制在可接受的范围。
-
生产——投入使用。