[搜索引擎优化算法]介绍TF-IDF算法及其应用在自动提取关键词

来源:未知 浏览 411次 时间 2021-04-15 15:12

3。找到类似的文章TF-idF算法的应用:

让我们学习另一个相关的问题。有时候除了寻找关键词我们也希望找到其他文章网站基础优化我们也希望找到其他文章类似于原文。例如“谷歌新闻”还提供了多个类似的新闻在主要新闻。

为了找到类似的文章您需要使用“余弦曾”。下面我给一个例子来说明什么是“余弦相似性”。

为了简单起见我们呢?年代开始的句子:

句子:我喜欢看电视我呢?喜欢看电影

句子B:我?喜欢看电视我也?喜欢看电影

我如何计算上述两个?句子有多相似?

基本思想是:如果单词用于这两个句子更相似其内容应该更相似。因此我们可以从词频并计算它们之间的相似度。

第一步分词。

句子:我/喜欢/ /看电视不要/喜欢/看电影。

句子B:我/不/喜欢/ /看电视也不/不/喜欢/看电影。

第二步是所有单词列表。

我喜欢看电视电影不也。

第三步是计算词频。

句子:我1、2表2电视电影也不是10。

句子我12表2电视电影1、2号1。

第四步是写词频向量。

句子:[1、2、2、1110]

句子B: [1、2、2、1 1 2 1]

在这一点上问题变成了如何计算这两个向量的相似性。

我们可以把它们作为两个线段在空间都从原点([00…])和指向不同的方向。形成一个夹角之间的两个线段。如果该夹角为0度这意味着线段的方向是相同的和重叠;如果夹角是90度这意味着他们形成一个正确的角度和方向是完全不同的;如果夹角是180度这意味着方向正好相反。因此我们可以判断向量的相似度夹角的大小。角度越小越相似。

把一个二维空间作为一个例子a和b在上面的图是两个向量我们需要计算角?。余弦定理告诉我们它可以得到以下公式:

假设向量a (x1 y1)和b (x2 y2)然后余弦定理可以改写成如下形式:

数学家已经证明这个余弦计算方法也有效n维向量。假设A和B两个n维向量一个是[A1 A2…)、B (B1 B2…Bn)那么角的余弦值吗?A和B之间等于:

使用这个公式我们可以得到句子和句子之间的夹角的余弦值b

余弦值越接近于1越接近角是0度也就是说两个向量越相似。这就是所谓的“余弦相似性”。因此上面的句子和句子非常相似事实上他们的角是20.3度。

由此我们有一个算法寻找相似的文章:

(1)使用TF-IDF算法找到两篇文章的关键词;

(2)取出每一篇文章分别几个关键词(比如20)为一组每一篇文章的词频计算在这组词(为了避免文章长度的差异可以使用相对词频);

(3)生成两篇文章各自的词频向量;

(4)计算两个向量的余弦相似度值越大越相似。

“余弦相似度”是一个非常有用的算法只要是计算两个向量的相似性可以使用它。

标签: 梁平网站优化百度快速排名收费标海量关键词百度快速排名