网址优化知识汇总

最后,我使用tf-df算法站点标题来编写合适的优化。今天,我们将讨论另一个相关问题。在某些情况下,除了查找关键字之外,我们还想找到与原始文章类似的其他文章。例如,谷歌新闻也在主要新闻下提供了一些类似的新闻。为了找到类似的文章,必须使用类似于最后一次的余弦,我使用TF-以色列国防军算法站点标题来编写适当的优化。今天,我们将讨论另一个相关问题。在某些情况下,除了查找关键字之外,我们还想找到与原始文章类似的其他文章。例如,在主要新闻下,”谷歌新闻”也提供了一些类似的新闻。为了找到类似的文章,需要”余弦相似性”。在这里,我将举一个例子说明什么是”余弦相似性”。为了简单起见,我们先从句子开始。我喜欢看电视。我不喜欢看电影。我不喜欢看电视,我不喜欢看电影。我如何计算上述两个句子的相似度?基本的观点是,如果两个句子的单词更相似,那么它们应该是更多的。因此,可以根据词频来计算相似度。第一步,分词。句子A:我/我喜欢/看/电影,不喜欢/看电视/电视。句子B:I/I/I不喜欢/观看/电影,和/不喜欢/观看/电视。步骤2,列出所有单词。我也是,看,电视,电影,也不。第三,计算词频。句子A:我喜欢2,见2,电视1,电影1,不是1,也是0。句子B:我喜欢2,见2,电视1,电影1,不是2,和1。以及写所述字频率向量的第四步骤。句子A:[1,2,1,1,1,0]句B:[1,2,2,1,1,1]在这里,问题是如何计算两个向量之间的相似度。我们可以想象它们在一个空间中的两个线段,这两个线段都来自原点([0,0,…]…)…].]..]从视点,指向不同的方向。在两个线段之间形成包括的角度。如果夹角为0度,则表示方向相同,线段重合;如果夹角为90度,则表示形成直角,方向完全不同,如果夹角为180度,则表示方向相反。因此,我们可以通过所包含的角度的大小来判断向量的相似度。夹角越小,表示越多。以二维空间为例,上述A和B是两个向量,我们希望计算它们的夹角。余弦定理告诉我们可以使用以下公式来获得:假设向量是[x1,y1],而b向量是[x2,y2],可以将余弦定律重写为以下形式:数学家已经证明,该计算余弦的方法对于n维向量也是真实的。假设A和B是两个N维向量,A是[A1,A2,…]…(a),b是[b1,b2,…bn],A和B之间的夹角余弦等于:使用这个公式,我们可以得到句子A和句子B之间夹角的余弦。余弦值越接近1,角度越接近0度,也就是说,这两个矢量越多,这就被称为”余弦相似性”。因此,上述句子A和句子B非常相似,事实上,它们的夹角约为20.3度。结果,我们有一个”查找类似的文章”的算法:(1)使用TF-以色列国防军算法找到两个文章的关键词;(2)每个文章取出多个关键词(例如,20个),合并到一个集合中,计算该集合中每个文章的词频(可使用相对词频,以避免文章长度的差异);(3)生成这两个向量的各自的字频率向量;以及(4)计算两个向量的余弦相似性,并且值越高,表示的越相似。”余弦相似性”是非常有用的算法,只要其用于计算两个向量之间的相似度,则可以使用该算法。

本文来源:故事seo 本文链接:http://www.seogushi.cn/seozs/1492.html