(速途网专栏 作者:蒋平中)今天,我写下合理屏蔽搜索引擎目的是为了提高站长网站的稳定与健康发展。如今,搜索引擎实在是太过泛滥了,比如:百度、Google、搜狗、Yahoo、微软、奇虎、有道、SOSO等等,这么多搜索引擎真正能提供网站流量的少之有少。有的搜索引擎天天来爬取网站,却未能提供1个IP,对于提供不到20个IP/日的搜索引擎希望大家弃之,当然网站越大越需要屏蔽,因为服务器耗不起这么多蜘蛛每天在线榨取我们宝贵的网站数据。
搜搜(SOSO)的机器人是:Sosospider,请广大站长不要相信这个机器人了,它从来不拿搜索协议当回事。我们拒绝恶劣的搜索引擎,请站长一起联合起来屏蔽它,还自己服务器和网站一片纯净的天空。
2008年,soso早已是成为被人发觉的恶虫了。据说SOSO是为了早日摆脱google而大量的抓取网站资料,可是你这样抓也要考虑人家是否受得了呀,搞得人家都当机了,你抓了有个P用啊…
有人曾经反应过,自己的网站屏未提交于SOSO和其它的搜索引擎,却意外地被SOSO给收录了。有网友说道:昨日,写了一个测试程序用来记录IP,并没有链接,只有自己知道,主机目录也未公开,但spider还是爬了上去。那时我的QQ在线,据推测QQ是否在收集用户访问的网址以便扩大搜索范围?那这样是否涉及隐私?
到soso的网站看了一下,看到下述的回答:
4.sosospider访问给我的网站造成很大负载怎么办?
sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
5.我可以拒绝sosospider访问我的站点么?
sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。
实际上,第一、发邮件向他们反馈,SOSO并不会回复与解决,有用户曾尝试过发邮件给SOSO,但迟迟未得到回复与帮助;第二、至于robots协议更是一个纯粹的谎言,做了robots禁止后该蜘蛛还是频频抓取文件,却从来没访问过robots文件,这证明它根本就没鸟过robots协议。第三、SOSO给出了屏蔽的英文网站案例,实在是太可笑了。作为一个国内搜索引擎却提供国外网站作为案例,并且这个网站的URL目前已经跳转首页,即用户无法通过SOSO的帮助屏蔽它。
屏蔽SOSO、搜狗、有道、MSN搜索引擎Robots.txt文件:
User-agent: sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: *
实际上,使用Robots.txt屏蔽不掉SOSO,最终解决办法:
一、有防火墙的在访问规则中设置“124.115.”的IP全部过滤了;
二、用IIS的在目录安全里设置“一组计算机”的过滤124.115.0.0,子网掩码为正常的255.255.255.0
其它蜘蛛精的IP段:
MSN蜘蛛精IP:207.46.13.*
百度蜘蛛精:220.181.108.*
谷歌蜘蛛精:203.208.60.*
Yahoo蜘蛛精:110.75.174.*
搜狗蜘蛛精:220.181.*.*来源速途网)