认识搜索引擎:第五部分经典搜索案例语法篇

第二部分:语法篇

问题
搜索关键词
原理分析
◆李岚准备去大连实德集团应聘,想先了解一下实德集团的情况,可是网上关于实德的资讯有很多是与实德足球队有关的,这可不是李岚想了解的。哪种搜索方法比较好? [实德 -足球] “-”的作用是为了去除无关的搜索结果(一般来说,-号前要有一空格),提高搜索结果相关性。要找“实德”的企业信息,仅输入“实德”会找到一大堆实德足球队的信息,而这些是李岚不想看到的,所以可以采用“-”,输入〖实德 -足球〗来搜索,就不会再有体育新闻来麻烦你了。比较一些搜索结果,很明显吧。  (陆元婕)

 

◆查阅天龙八部具体是哪八部。

[天龙八部 阿修罗]

[天龙八部 佛教 -金庸]

如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。
1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部 阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。
2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部 佛教 -金庸”的查询结果为1,120项,可以迅速找到需要的资料。 (donquix)

◆刘德华同志的胸围是多少。 [刘德华 胸围 身高 -阿泰]

首先声明,这是某个MM要我做的搜索,我把它作为搜索案例而已,没其他的意思。非常直接的搜索是,“刘德华 胸围”,但事实上,这么搜索出来的结果,尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻,无法快速得到所需要的资料。可以想到的是,需要的资料应该包含在刘德华的全面介绍性文字中,除了胸围,应该还包括他的身高,体重,生日等一系列相关信息。OK,这样就可以进一步的增加其他约束性关键词以缩小搜索范围。
搜索:“刘德华 胸围 身高”,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办,把这部小说去掉,“刘德华 胸围 身高 -阿泰”,OK,结果出来了,华仔胸围84cm。说明一下,为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。
(donquix)

◆对网址的查询,比如我就想查含有“pass.html”的网址,你有好办法吗? [ allinurl:"pass.html" OR "pass.htm" ]
(限Google)

这里用到三个语法,allinurl的意思是要求所有内容都要出现在url中,用半角双引号的意思是要求pass.htm必须连在一起,不要分开的。用OR的意思,是因为网页可能以htm结尾,也可能是以html结尾。三种语法合起来的含义就是:要求找出网页url中含有"pass.html"或"pass.htm" 的网页。
(搜索引擎9238)

◆想知道产品"塑封机"的售价 [塑封机 元 | 价格 | 报价| 万 | 千]
[塑封机 元 OR 价格 OR 报价 OR 万 OR 千]
"|"等同于“OR”,是各大主流搜索引擎通用的“或”检索语法。
◆想搜索石狮中口里含着的哪个圆球,是怎样放近去的。请问用怎样关键字? [石狮 球 |石球 |圆球 动 |滚动 雕塑 |雕刻 口] 或[石狮 口含 球]
 
不熟悉某些东东的标准名称,就用OR(|)来搜索多个可能名称。 (搜索引擎9238)
◆寻找一些类似"destiny's child"的歌曲列表

["destiny's child" playlist +filetype:txt]
(限google)

If you're looking for information on songs, but keep running head-on into WinAmp play lists, use the modification -filetype:txt to get rid of them. Or, say you WANT to see what people are putting on the playlists. You want to see what people who listen to Destiny's Child also listen to. You could use this query
◆刘明看到一篇转载自赛迪网的介绍Excel函数的文章,感觉挺有帮助,想看看赛迪网中还有没有类似的文章,他该如何使用搜索引擎搜索呢? [Excel函数 site:www.ccidnet.com] (陆元婕)
◆我很想并急于需要在网上找一些快餐菜肴的彩色照片资料,因为我近日要在意大利开一家快餐店,能否满足请回应!!!谢谢!!! [快餐] 限Google图像搜索 Google图像搜索有网站类聚,如果一个网站上有多张同类图片,则只显示一张,点击该图下链接可查看该网站全部符合检索要求的图片。利用这个功能,在Google搜索"快餐"后,点击这样的链接,可以看到该网站上的多张图片。  (搜索引擎9238)
◆有一天,接到一个美国来的电话,他说他要找盈科数据中心的电话,我说那简单,你上它的网站www.1stchina.net,肯定有。他说就是因为那个网站上不去,所以想找个电话号码问一下。我试了几下,果然那网站上不去,人家的国际长途还吊着呢,怎么办 [电话 site:1stchina.net]

我们知道,baidu和google都有网站的备份网页快照,它们的动态摘要显示的是关键词附近的部分,所以我用了[电话 site:1stchina.net]这个搜索,那个网站内“电话”两个字的旁边应该有电话号码的。得到的搜索结果是:
1stChina.net 盈科数据中心
... 业务联系电话: 86(021)34140274、34140621、64750394、64821514 24
小时技术支持: 86 (021)64511294、64838921 传真:64833510. ...
www.1stchina.net/ - 28k - 网页快照 - 类似网页

当场搞定!
所以活用site:可以搜索死链接网站、已关闭网站内的信息。  (搜索引擎9238)

◆ 我想下载几幅小猪的卡通图片,做FLASH动画,请问哪里能下载卡通图片--小猪 [pig filetype:gif]
限google image
google的图像搜索,因为是spider自动抓的,所以资料很丰富,而且可以使用各种高级搜索语法比如限定搜索某些格式的文件象gif。
(狗狗和猪猪)
◆看到新闻:专为总书记培育的植物 朝鲜举行"金正日花"花展,有网友想了解,"金正日花"什么样? [金正日花]
限google image

google的图像因为是自动spider的,所以非常丰富,一般不了解的动植物或人或其它有图的东西,只要输入名称,就可能找到图片。
(搜索引擎9238)

 

◆想知道google收录了多少asp网页 [filetype:asp -fkdls](限google) “filetype:asp -fkdls”的意思是:搜索所有asp格式的网页,并且减去所有含关键词fkdls的网页。因为没有网页含有关键词fkdls,所以理论上会列出所有的asp格式的网页。要搜索Google收录了其它多少格式的网页,也可以用这种搜索方法。比如,用“filetype:pdf -fkdls”并且限制在简体中文搜索,可以知道Google收录简体中文的pdf网页3万多页。  (搜索引擎9238)
◆想找些php的bbs来作参考 [filetype:php inurl:bbs -fdasfas]
(限google)
(搜索引擎9238)
◆我要写个合同,想先找几份合同来参考参考。 [filetype:doc 甲方 乙方 合同]
限google
合同中一般都有“甲方”、“乙方”、“合同”,而如果把文件格式限制在word文档中,则基本能保证搜到的都是合同文档。
(搜索引擎9238)
◆ 带 "-" 号的字符串怎么查?我要在google上查 "abc-efg" , 我希望只查正好匹配的,一般我用双引号括起来。但是如果字符串中?quot;-"的话,结果就会乱。请问如何查询。

[abc-efg]

限baidu

google中查带"-"的关键词用不着加双引号,google默认带连线的字词为词组,但不支持查询连线关键词,只当做几个在一起的独立字词组成的词组,能不能查到合适的结果视你的具体关键词而定。例如:搜"bjc-80"效果不错(因为含有bjc和80的词组本来就都是bjc-80),但搜"windows-2000"就不忍卒睹。解决方案:用百度(www.baidu.com)。百度支持带连线关键词,搜"bjc-80"和"windows-2000"都行
(搜索引擎9238)
◆怎么查带"-"的域名?象:www-web.com,直接查[www-web.com] ,什么也查不到。如果加双引号,能查出3,390个,但是都不是我想查的。

["www-web.+com"]

限google

这跟连线无关,这是停用词com和域名格式引起的现象,因为com才需要双引号的,短连线符号不需要双引号的。google也不是什么也查不到,而是一种人机界面的优化。
(搜索引擎9238)
◆寻找库尔斯克潜艇的俄文名称 [库尔斯克 inurl:ru]
(限google)
ru结尾的多为俄国网站,俄国这么大的国家又是有传统关系的邻国,多半有中文网站的,俄国的中文网站在提到中文"库尔斯克"的同时,也有机会提到俄文的库尔斯克.另外,超链分析可以把中文库尔斯克引向俄国的最著名库尔斯克网站,那也就能得到库尔斯克的标准名称.网上搜索,有很多时候是在寻找某些标准名称, 有了标准名称后,现代搜索引擎很容易给出最相关的资料。  (搜索引擎9238)
◆最近听朋友说有个流氓兔的Flash作品很流行,想上网找来看看 [ filetype:swf 流氓兔]限google
[流氓兔 flash]
[流氓兔]限百度flash搜索

搜索这个Flash动画有很多种方式,直接搜索[流氓兔]当然也可以找到,最多准备多翻几页。我们知道,对搜索引擎的精确限制越多,就越容易命中。对于这个题,如果我们加上Flash、filetype:swf、下载等,大都可以在前几条命中。尤其使用"filetype:swf ",可以指定只检索SWF格式的flash文件,效果很好。  (搜索大赛)
百度提供有专业的flash搜索引擎,http://flash.baidu.com,只要直接输入关键词流氓兔,就能找到满意而且大量的流氓兔flash,这是最好的搜索flash方法。

◆某个网站(新浪北京)访问不了了,只好去看它所有网页的网页快照

[site:sina.com.cn -fkdfdfs]

[.sina.com.cn](限baidu)

 
◆想看某个大网站下某个频道或子栏目下的网页快照 [site:ccidnet.com inurl:multimedia -dfasd]
(限google)
以上语法可列出赛迪网互动学校频道下多媒体栏目的所有网页如果赛迪网当机了,而你想看其中某个频道下的具体内容,则可以用inurl加上该频道的特征url来限制搜索某个频道.
(搜索引擎9238)
◆只想搜索赛迪网互动学校频道内关于搜索引擎的资料 [ site:ccidnet.com inurl:school 搜索引擎] (搜索引擎9238)
◆如何搜索“Who am I?”

[+who am +i]

["who am i"]

[who am i](baidu没有停用词,可直接搜索)

如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。在Google中,如果用“who am i ?”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。 “+who am +i”,或者加上半角双引号搜"who am i",则双引号内的文字被自动当做必搜词组。
注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
(donquix)

◆搜索“和会”,搜出来一大堆“展览和会议”“吉祥物和会歌”“商务中心和会务”“被物化和会过期的”“亚太经和会议”。它们文字中都有“和会”,但不是我要找的“巴黎和会”“中东和会”。该怎么搜? [和会 -和会议 -防御和会 -和会歌 -和会务 -物化和会 -和会员 -和会计 -音乐和会] 搜索结果不理想,有很多原因,其中一种是中文搜索引擎特有的,叫分词(或切词)。这是中文本身特点导致的固有缺陷。 在这里,我不谈分词原理,想了解更多的自己去搜。我只想教你一点小技巧,帮你摆平这个搜索中常见的挫折。
方法很简单:减去错误分词的衍生词。
比如搜“和会”,你可以改用以下这个关键词来搜索:
  [和会 -和会议 -防御和会 -和会歌 -和会务 -物化和会 -和会员 -和会计 -音乐和会]
  这个关键词的意义是:要求网页中含有“和会”,但不含有跟“和会”连在一起的那些错误分词的网页。
这是个示范,一般情况下不用减那么多,减去几个曝光率高的就行了。
需要被减去的,“和会”旁边的字或词,选择原则是:
  1、本应连在一起的,如会议、会员、会计本应连在一起的,那么就选择和会议、和会员、和会计。
  2、独立的常见词组,如防御、物化、音乐。

◆某个字不会写,想查到那个不认识的字。

[ "大批拥 * "]["不忍 * 睹"] 限google

关于通配符*,Google确实不象northernlight和altavista一样支持用于代表部分字母的“*”,但是Google支持用于代表部分word的“*”。其语法是双引号内,两个文字间加几个*号,就是要求中间有几个任何文字。例如:
+ 搜"唐**德",中间两个*,搜出来的多是“唐吉诃德”的内容。
+ 搜"唐***德",中间3个*,搜出来的是“唐·吉诃德”、“唐古拉风/德乾旺姆”、“唐家璇与德国副总理”等中间有3个字的内容。
+ 搜"唐***德",搜出来的是中间有4个字的内容:
 唐家璇向马德尔转达
 号 唐, 建 元 武 德
 唐王升殿,孝德
另有一次,我写信客套时,想不出"望××为感"应该写望什么。后来用["望**为感"]一搜索,就搜出来一长串:望关照为感 望帮助为感 望批准为感 望秘而不宣为感 望回复为感 望批复为感 望复为感 望回答为感
(搜索引擎9238)
◆搜索新浪文教频道中关于鲁迅的信息。 [鲁迅 site:edu.sina.com.cn]

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及“www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。
(donquix)

◆某些语法不能与关键词联检,极大的增加了检索的麻烦
举例:用google的link命令可以查到设有nature链接的所有页面,但不能联合password对检索到的页面进行二次检索。

[password link:www.abc.com]

(限altavista)

link:语法并不显示指向该网页的“所有”url,只显示搜索引擎数据库中的一小部分。
搜索引擎altavista能支持link:语法和关键词混检。而且altavista的link:语法列出的条目比例比Google多。所以,此类检索需求,建议使用altavista搜索。altavista需要通过代理服务器访问,没有代理服务器的可以到qbsearch.com单选altavista搜索,但只能看第一页搜索结果。
[password link:www.abc.com]的含义,是在指向www.abc.com的网页中进行关键词“password”的搜索。
(搜索引擎9238)

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮