向量空间数字模型(VectorSpaceModel):对文档进行简单说明,在忽略特征项正中间的基本资料后,一个文本就可以用一个特征空间向量来说明,也就是特征项室内空间设计中的一个点;而一个文本集可以描述成一个引流方法引流矩阵,也就是特征项室内空间设计中的一些点的融合。
•相似度(Similarity):相似度Sim(D1,D2)用于考量2个文档D1和D2正中间的具体内容相关水准。当文档被描述为文档室内空间设计的空间向量,就可以利用欧式距离,内积间隔或余弦距离等空间向量相互之间的间隔计算方式来说明文档间的相似度。
在这其中特征挑选是文本说明的关键,方式包括:文档頻率法(DF),风琴包生产厂家信息增益法和互信息法这种。
在做特征挑选之前,一般还必须进行数据预处理的工作上,要对先往网页页面网页页面隔音降噪。除此之外办公桌收纳在实际的分类中,除了利用文档的内容特征之外,很有可能还会继续坚持应用实际使用中所特有的特征,比如在网页页面网页页面分类中,很有可能使用url的特征,html的结构特征和标志特征等信息。分类的关键全过程是这般的:定义分类体系管理,将事前分类过的文档作为训练集,文具批发从训练集中获得分类数字模型。目前分类蚁群算法重要分下面这类:
在这其中比较普遍的是:svm算法(SVM)方式,质朴贝叶斯(NB)方式,神经元网络(NN)方式,K相邻(KNN)方式,决策树算法(DecisionTree)方式等。