第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

关于百度搜索引擎对原创文章识别机制之己见

时间:2013-08-20 10:21来源:首推网 作者:跌名 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
百度官方搜索运营团队一再重申“原创”,只有对用户有用的内容才能得到百度给予排名的推荐,将优质内容展示给用户。作为百度搜索展示的内容供应商,我们所有站长

  百度官方搜索运营团队一再重申“原创”,只有对用户有用的内容才能得到百度给予排名的推荐,将优质内容展示给用户。作为百度搜索展示的内容供应商,我们所有站长必须为其百度用户输送新鲜血液,以“为用户创造价值”为己任,这才是站长朋友们发展的方向与动力,同时是为百度搜索引擎提供新的源泉,继而成就百度搜索引入了流量间接也成就了自己,为此百度搜索为整个原生态系统平衡启用了原创星火计划,以打击采集类网站。首批对象是受邀的新闻源网站,作为我们中小站长而言看到了一丝希望,百度正努力改善原创文章识别机制,识别中还存在有很多不足之处,快速反应及识别原创面临着很大的挑战,整个网络中数以千万计的文章暂时无法做到百分百精确,百度官方也积极表示原创是生态问题,需要长期改善,让我们拭目以待。下面就谈下编者通过最近运营的首推网站长文章类资讯站点及之前运行的一系列个人博客、企业营销网站所观察到的一些相关数据进行了分析总结,现将我对百度目前对原创文章识别机制的一些观点(请注意,只是我个人观点)分享给大家,希望能为新站站长带来一点帮助。

  参考因素一、首次爬取确认时间

网站日志图

  图片说明:上面是18日的访问日志,红框内1是百度蜘蛛来访IP段220.181.108.171,2是来访问的时间2013-8-18 04:09:08,3是爬取的相关路径根目录下的/seo/350.html。

  百度蜘蛛首次爬行网站原创文章的URL路径时间(如图1),百度蜘蛛来访问时间是2013-8-18 04:09:08此时蜘蛛爬取了路径为/seo/350.html这篇文章,并将爬取的文章内空发送回网页分析系统,至于何时放出这就要看你网站的权重及可信度,此时百度网页分析系统将文章进行初次筛选并存入到网页爬取数据总库,同时记录下爬取时间、类似文章对比排序编号、文章title标签等信息等,以便以后对类似信息对行对比筛选归类,这里可以作为是考察属于首次原创信息的基本因素之一,因为蜘蛛对各个网站的爬取时间不一,有些低权重站可能发一篇文章要几天后或更久才会被蜘蛛所爬取,在此期间或被其它高权重站所转载或又没有保留作者版权,而易被误认为是转载方,对原创作者不公平也无法维持原创生态发展,转载方却冒充原创坐享其成,百度绝不允许这种事情发生,并将严力打击这种行为;

关于百度搜索引擎对原创文章识别机制之己见

  图片说明:百度蜘蛛爬取时间2013-08-19 00:07:55,在此篇文章发布后20分钟左右被爬取。

  作者支招:新站或权重低的网站,在网站上发布了一篇原创文章时,多预备一篇文章在权重高的网站进行发布,并保留自己网站上的原创文章URL路径,当这篇文章被百度爬取时会顺着网页内容上的网址去爬取原创的URL网址,不一定非要留锚文本,只要百度能识到是网址,且是在百度索引库中未存在的网址都会在短期内都去爬一次。站长朋友们就可利用这点来引导蜘蛛对原创URL路径的爬取,虽然不一定是放出来,只要搜索引擎爬取了至会认定你这篇文章的原创因素会大一点,如有可查看网页日志的朋友查询日志便可知晓百度蜘蛛是否来爬取过(如图2),只要保持每天更新一篇原创文章,百度蜘蛛会百常喜欢来的,就本文而言发布刚好在20分钟左右就被百度爬取回去,此时在被其它网站转载也无防,给百度的第一印象,本篇文章是本站的原创性较大。

  参考因素二、链接的指向关系

链接指向识别

  图片说明:链接指向,语义结构及内链等

  百度在爬取网页内容时,根据内容关键词、语义、图片等信息分析进行综合计算后与所在目录标签、网站关键词类型、内链结构关系等进行技术分析对比,判断出文章原创价值系数(如图2),各种内链指向对应关系以同种色彩表示,与其它文章建设内应关系;内容语义与标签都是同个类目,文章关键词,描述等以搜索优化为主,符合网站主题,那么本文章对于我的网站首推网而言,百度判定文章原创系数到少为中等,首推网符合原创本篇文章的对应要求。通过链接指向判断基本可确定为原创信息的基本因素之二。

  作者支招:原创文章需做好网站的内链,将关键词指向到对应类似的文章,并且原创的文章必须符合自己网站的主题,图片方面必须通过自己的网站上传,可得到自己网站的路径信息,并加注ALT标签,如若在其它权重高的网站发布能图文类的信息,图片最好采用远程URL路径加图(即图片URL路径为原创网站的),有些人转载文章图方便直接复制过去,图片路径仍保留原网站的,这点百度系统足以判断文章系转载。

  参考因素三、文章特征关键词

  首先我要说下百度为每个网站所建立特征信息编码,一般百度收录到一个新的网站后都会建立属于该网站独一无二的特征编码,以备对文章原性质进行识别判断。文章特征关键词也称内容特定关键词,类似于人的特征信息,如相貌,言行举止等,若作为文章来讲,比如说作者署名、编辑名及特定的名称,如作者的网站“首推网”,这个就可做为网站独有的特征关键词,百度首先经过词库判断选出文章的特征词一个或多个然后通过数据对比分析库判定文章的特征词在当前网站中所使用的频率,文章中的特征词与当前网站对比,计算出该文章的特定词与网站特征库对比获取的概率高,将会列入作为原创基本因素之三的特征。

  作者支招:在原创文章中尽量合理地穿插自己网站的名称、作者名称或网站所常用且较为独特的词语(可参考本篇文章,关键是合理,能让阅读顺畅,切不可盲目乱加,否则适得其反)。

  参考因素四、转发的轨迹

  转发的轨迹就不用我多说了吧,我只说下百度判断原理,之前我们说过,百度每收取一个页面都会将页面中所有的网址或属于具有网址特征如后缀为.com、.cn的域名等等,都将会纳入到链接选取系统进行分析获取转发的轨迹次数,文章版权所留的网址或所标名的来源网址在百度所爬取的信息中存在最多的,且指向的是同一个网页URL来源,那么百度基本可以确定其文章的归属。这就是百度作为原创文章考虑的第四个因素。但现在的个别站长动机不纯,将文章转载过去后去除头尾,甚至打乱段落排序进行二次原创,俗称伪原创,在以前还可以,但现在的百度完全可以识别,进行二次加工实属多余,百度官方明确表示将加大力度打击该类文章和全部用软件采集类的文章,鼓励原创,还明确指出转载文章需保持文章的完整性,也至于不影响用户的正常阅读,降低用户体验。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕