网址优化知识汇总

总之,TF-以色列国防军听起来很优雅,事实上,很容易理解。它实际上是两个计算值tf*df的乘积,它用来衡量一个单词库中单词在每个文档中的重要性。让我们分别看看这两个值。TF和IDF.TFTF是术语频率的缩写,即关键字出现的频率,具体而言,术语在同义词库中的单词出现在当前文章中的频率。因此,我们可以编写公式:其中:tf(i,j):文档i.n(i,j)中关键字j的出现频率:关键字j出现在文档i中的次数。例如,文章中总共有100个单词,其中”机器学习”显示10次,然后他的TF为10、100、0。1。以此方式,似乎可以使用TF来评估关键字的重要性(出现频率越高,越重要)。实际上,简单地使用TF来评估关键字的重要性忽略了常见单词的干扰。常见的词语指的是在大量文章中使用的那些词,但不能反映文章的性质,如:因为,所以,等等,这些词体现在英语文章中,以及,等等。这些单词往往具有高的TF,所以使用TF来检查单词的键是不够的。在这里我们将介绍以色列国防军,以帮助我们解决这个问题。:逆向文档频率,英文名称为”抗文件频率”。首先,文档频率是什么,文档频率df是整个库字典中一个单词的频率,以一个示例:100篇文章的文件集,总共10篇文章包含单词”机器学习”,然后它的文档频率为10或100或0.1,抗-文档频率df是该值的倒数,即10。因此,获得了以下公式:(i)的反文档频率:词i、语料库中的文件总数、属于d(j)中的单词i的文档总数、词i中出现的文档总数,以防止分母变为0。因此,该TF*以色列国防军可以用来评估一个单词的重要性。让我们看看以色列国防军如何消除常见字的干扰。假设100个文档中有10000个单词,如果您研究了500个单词文章,”机器学习”将出现20次,”以及”20次,然后它们的TF为20、500、0。04让我们看一看以色列国防军的100篇文章,其中的每一个都显示为”并且,”,因此它的国防军是Log1=0,他的TF*以色列国防军=0。机器学习中有10篇文章,所以它的国防军是log10=1,他的TF*国防军=0.04>0,明显的”机器学习”比”以及”更重要。综上所述,该算法是简单的,实际上它在搜索引擎优化、文本分类等方面得到了广泛的应用,在访谈过程中经常被用作信息论知识的储备。·结束。本文章来源于《卫报》,版权属于原始作者,转载请与原作者联系,谢谢!


网络促销颜六网(http://51biaoshi.com),提供微信操作、迷你程序开发、微信促销、SEO、SEM、口碑营销、广告和其他服务。促进对飞镖和狮子的搜索,保证效果。

本文来源:故事seo 本文链接:http://www.seogushi.cn/seozs/1186.html