信息检索中 分类/聚类的概念是什么?有什么关系?有什么区别?

如题所述

信息的分类(classification)是信息处理的重要组成部分。事实上,它是人们对信息最自然而然的处理。信息分类将信息或数据有序地聚合在一起,有助于人们对事物的全面和深入了解。根据处理对象的不同,信息分类可以分为结构化数据分类和文本数据分类两种。

聚类(clustering)是一种特殊的分类,与分类分析法不同,聚类分析是在预先不知道欲划定类的情况下(如,没有预定的分类表、没有预定的类目),根据信息相似度原则进行信息集聚的一种方法。聚类的目的是根据最大化类内的相似性、最小化类问的相似性这一原则合理的划分数据集合,并用显式或隐式的方法描述不同的类别。

聚类与分类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。

分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。

参考资料:
苏新宁等著. 数据挖掘理论与技术. 科学技术文献出版社, 2003

王英杰等编著. 多维动态地学信息可视化. 科学出版社, 2003.

另外你还可以参考:

梁静国编著. 决策支持系统与决策知识发现. 哈尔滨工程大学出版社, 2007.

http://bbs.matwav.com/viewthread.php?tid=376038
http://www.blogjava.net/Jack2007/archive/2008/04/17/193651.html
温馨提示:答案为网友推荐,仅供参考
相似回答