第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

解说TF-IDF算法在SEO优化中的应用

时间:2014-04-26 09:57来源:济南网站建设公司 作者我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
TF-idf算法其实是一种用户资讯检索与资讯探勘的常用加权技术,常常被SEOER们应用到,而很多人或许不太知道,其实最直观的了解就是“网站关键词密度”。

  TF-idf算法其实是一种用户资讯检索与资讯探勘的常用加权技术,常常被SEOER们应用到,而很多人或许不太知道,其实最直观的了解就是“网站关键词密度”。

  直接切入主题,TF-idf算法到底是如何计算的:

  公式:

  TF:词频

  IDF:逆文本频率指数

  TF-IDF=TF*IDF

  我们举例说明,TF词频的意思,是指一个词出现在页面中的次数,如果一篇文章的总词语数是200,而“网站优化”这个词出现了4次,那么这个词频TF=4/200,也就是0.02。

  而IDF也就是很文件频率,指这个词在多少页面出现过计数为N,文件总数计数为M,那么IDF=lg(M/N)。假设“网站优化”在2000个页面出现,总文件数为1亿,那么文件频率IDF=lg(100000000/2000)=4.69897,那么计算最后的TF-IDF=0.02*4.69897=0.0939794。

  这只是一个判断一个页面的相关度的问题,而在SEO网站优化中,并不只是判断TF-IDF的值加分,我们需要一个识别度高的词来为页面加分。例如:搜索引擎收录一万亿个页面,应该说每个页面都会有“的、是、中、地、得”等等词,这些高频词也叫噪音词或停止词,搜索引擎会去除这些词,所以这些词的加分权重其实应该是0。计算公式:TF-IDF=log(1万亿/一万亿)=log1=0。

  其实在搜索引擎检索中,计算权重的时候,会根据每个词分词来计算,例如:“SEO网站优化的技巧”这个词。

  假设:SEO页面检索数位2000万,网站优化的检索数为1000万,技巧的检索数为50000万

  搜索引擎索引总数假设为100亿。

  SEO在这个网站中页面(页面总词数400)出现8次,网站优化出现10次,技巧出现16次。

  那么各自的词频

  TF(SEO)=8/400=0.02,

  TF(网站优化)=10/400=0.025

  TF(技巧)=20/400=0.04

  TF(的)=上面已近提到,的属于高频停止词,权重为0。

  那么搜索“SEO网站优化的技巧”这个页面的相关度为:TF(总)=0.02+0.025+0.05=0.095。

  而IDF(SEO)=LOG(10000000000/20000000)=2.69897

  IDF(网站优化)= LOG(10000000000/10000000)=3

  IDF(技巧)=log(10000000000/100000000)=1.69897

  这么算下来之后,每个词为搜索“SEO网站优化的技巧”为页面的权重和相关度贡献的值分别为:

  Tf-idf(seo)=0.02*2.69897=0.0539794

  Tf-dif(网站优化)=0.025*3=0.075

  Tf-idf(技巧)=0.04*1.69897=0.0679588

  由此可以看出,虽然技巧出现的频率更高,但识别度没有SEO和网站优化高,所以为页面的权重贡献度并不是太大。

  一个词的预测能力也就是识别度越高,那么这个词的权重越大,反之则越小,看到“网站优化“可能你就已经基本了解这个页面要讲什么,但是看到技巧,你可能还不是太明白页面的主题。

  当然这支持搜索引擎的算法的一个点,我们还要结合标签来实现权重的提升,例如H标签,而主关键词周边的词也会加分,这里周边是指在一个标签内的例如:SEO网站优化的技巧主要是一些搜索引擎优化思路的介绍

  Design by

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕