放牧代码和思想
专注自然语言处理、机器学习算法

对分类的需求和分类器的概述

目录

分类是比聚类更加高级的一项认知活动,比如瓦力是一个机器人,而非“瓦力和威震天属于同一个组别”这样模糊的聚类。

5.1 对分类的需求

博客的文章需要分类,饭店的菜单也需要分类,学术体系有严格的分类,在《智能Web算法》里,称一个分类为一个本体。本体由三个方面构成:概念、实例和属性。

5.2 分类器的概述

根据参考结构分类

所有的分类器可被划分为两大类——二分类和多分类。

二分类

通过回答“是”“否”来进行分类,比如,你是男性吗?

多分类

今天的股票价格是?跌了、涨了、不变(或者非离散的±数值)。

根据使用的技术分类

可以分为统计算法与结构算法。

5.2.1 结构分类算法

基于规则的结构分类算法

由生成规则(if then)与决策树(DT)算法构成。《智能Web算法》使用JBoss提供的面向对象的Rete实现。优点是简单易用、计算高效;缺点是不能处理连续变量,除非离散化。

基于距离的算法

通过数据点之间的距离进行分类,可进一步分为:

函数式分类器

用函数来对数据进行近似,类似回归。(然后通过回归方程的不同而分类?)

最近邻算法

尝试为每一个数据点寻找离它最近的类别。

神经网络算法

通过有计算能力的节点构造人工神经网络。

5.2.2 统计分类算法

通过将数据点与分类的隶属程度回归为0-1之间,再结合二值分类(决策树)进行分类。

5.2.3 分类器的生命周期

有三个阶段:

  1. 训练——用已经分类的数据样本训练分类器,记录得出的参数值。

  2. 测试——用上面的“标准答案”回过头测试分类器,将分类误差控制在可接受的范围。

  3. 生产——投入使用。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 对分类的需求和分类器的概述

分享到:更多 ()

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机