第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

洪波:搜索抓取应遵守规则 违反协议将致大乱

时间:2012-09-03 10:54来源:网络 作者:yangyang 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
对于近日奇虎360综合搜索被爆出无视国际通行的Roberts协议,抓取百度、Google等搜索引擎内容,导致众多网站出于安全和隐私考虑不允许搜索引擎抓取的内网信息被泄

  对于近日奇虎360综合搜索被爆出无视国际通行的Roberts协议,抓取百度、Google等搜索引擎内容,导致众多网站出于安全和隐私考虑不允许搜索引擎抓取的内网信息被泄露一事,资深互联网观察家洪波指出,做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争,这种行为不能从法律和政府监管上及时制止,将引发行业大乱。

  搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。而搜索引擎则会按照Robots协议给与自己的权限来进行抓取。Robots协议已经成为所有搜索引擎必须遵守的国际惯例。这就好比一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处遛达。

  因此,当两周前新上线的360综合搜索无视Robots协议,直接抓取未经授权的信息数据时,其做法遭到了业内人士的普遍质疑。

  据了解,百度网站的Robots协议中并未授权360搜索爬虫抓取,但是360搜索无视这种设置,擅自实施抓取行为。考虑到很多内容源网站禁止搜索引擎抓取的网页中大多涉及存放在服务器上的后台数据库、用户稳私、密码等信息。这意味着,360无视内容源网站robots.txt协议中的设定,将导致存放在服务器上的不该被搜索到的隐私信息被搜索到,甚至直接在搜索结果中展示出来。

  对于被指责违反robots协议,由于事实俱在,周鸿祎已然无法否认,但他同时反驳表示百度在robots协议中禁止360爬虫,是不正当竞争。对此洪波表示,robots协议赋予网站禁止任何搜索爬虫的权利,这跟不正当竞争毫无关系。360无视行业默认规则,才是真正的不正当竞争。

  “做搜索就要遵守搜索行业公认的游戏规则,无视规则,肆意违反规则才是真正的不正当竞争。”在洪波看来,百度并没有禁止所有爬虫抓取问答、知道和贴吧的内容,百度只是禁止了不规矩的、存在潜在安全风险的爬虫,这恰是保护市场秩序,保护用户隐私的合理举措。他指出,2008年淘宝也曾禁止百度爬虫,而百度则严格遵守robots协议,停止抓取淘宝网内容,并没有以淘宝不正当竞争为借口违反robots协议。

  360一直自诩这是用创新的方式做搜索,洪波的一句话表示了他的观点:“一个连基本游戏规则都不遵守的搜索引擎,怎么好意思给自己贴上‘创新’的标签。也许在周鸿祎的字典里,无视规则等于创新。”洪波表示,这样的行为不及时从法律和政府监管上制止,那360今天违规抓取的是百度内容,明天就可以随便抓取含有大量隐私的人人网的社区信息,其他网站和搜索引擎都可以效仿,被京东屏蔽的一淘还可以抓取竞争对手的的商品信息。以此类推,整个互联网行业将大乱。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕