向量空间实体模型(VectorSpaceModel):对文档开展简单化表明,在忽视特征项中间的基本信息后,一个文字就可以用一个特征空间向量来表明,也就是特征项室内空间中的一个点;而一个文字集能够表述成一个引流矩阵,也就是特征项室内空间中的一些点的结合。
•相似性(Similarity):相似性Sim(D1,D2)用以衡量2个文档D1和D2中间的主要内容有关水平。当文档被表述为文档室内空间的空间向量,就可以利用欧式距离,内积间距或余弦距离等空间向量相互间的间距计算方法来表明文档间的相似性。
在其中特征选择是文字表明的重要,方式包含:文档頻率法(DF),风琴包厂家信息增益法和互信息法这些。
在做特征选择以前,一般还需要开展数据预处理的工作中,要对先向网页页面减噪。此外在具体的分类中,除开利用文档的內容特征以外,很有可能还会继续使用具体运用中所独有的特征,例如在网页页面分类中,很有可能使用url的特征,html的构造特征和标识特征等信息内容。
分类的主要过程是如此的:界定分类管理体系,将事先分类过的文档做为训练集,文具批发从训炼集中化得到分类实体模型,随后用练习得到出的分类实体模型对其他文档多方面分类。文档全自动分类是学术界科学研究很多年,文件分类技术性上较为完善的一个行业。现阶段分类优化算法关键分下边这种:
在其中较为常见的是:svm算法(SVM)方式,朴素贝叶斯(NB)方式,神经元网络(NN)方式,K邻近(KNN)方式,决策树算法(DecisionTree)方式等。