欢迎光临
我们一直在努力

搜索引擎蜘蛛是如何在庞大的网络数据上结网的?

搭建一个网站,每个人都希望自己的相关排名关键词在搜索引擎上能够靠前,那么,在设计之初,必须考虑搜索引擎网络爬虫的工作原理。关于搜索引擎网络爬虫的具体细节,可能就涉及到商业机密问题,呵呵~~小欧也是知之甚少,但我们不妨可以从其一般工作原理中获得几点启示。
网络蜘蛛爬虫是沿着从网页文本中提取出来的链接爬行的,任何一个网站都应含有足够相关的链接,以便爬虫能够发现该站点所有的网页。更具体的讲,爬虫很可能从网站的首页开始爬行,因此,网站首页上的链接应该包含该站的所有网页链接。另外,这些链接还必须是包含在网页的HTML中,而且必须是标准的HTML(比如,使用锚点标签),因为网络蜘蛛爬虫至少目前不可能识别其他格式的链接,包括JAVA或JavaScript格式。
许多网站从未被任何搜索引擎发现过,站长们要想把自己的网站品牌打出去,至少应该学着怎么让搜索引擎的“蜘蛛爬虫”发现。某些搜索引擎有URL提交功能,即允许设计者们将其网站的URL提交到爬行列表中,所有的主流搜索引擎都有这一功能;有些搜索引擎虽没有此功能,但如果已经被索引过的网站中有指向未被索引到的网站的链接,那么顺着链接,爬虫也能爬取该网站。因此,对于新网站而言,应该确保至少有一个已经被主流搜索引擎索引到的网站链接到该网站。比如:我们的老大Google。
一个网页中的文本内容对搜索引擎来说,比对用户更为重要。有些网页中的文本内容与链接主题毫无关联,为什么?就是这些网站里有些内容不愿被搜索引擎索引到,所以,他们在设计时专门提防着搜索引擎。此时请注意,我们需要区分“爬行”和“索引”这两个概念。爬行一个网站是指沿着链接访问该站点上所有的页面,且一般会为这些网页保存一个复本。索引则是爬行的下一个阶段,即将网页文本存人到一个特殊的“倒排文档”数据库中,利用“倒排文档”数据库,可以快速搜索到与用户所查询关键词相匹配的页面。标准搜索引擎一般只索引网页文本,而忽略图片和其他多媒体信息。因此,讨论搜索时就应该区分文本和图片。
用户在访问网站的时候,从图片中获得的信息比从文本中获得的信息更直观。譬如:一个来自知名公司的图标放在页面中显眼的位置,就足以说明该网页是该公司的。相反,搜索引擎则是忽略所有图片的,至少在从网页中提取信息时是这样的。如果一个网页上都是手机的图片,但其文本中却没有一个“手机”字样,或是全打上一些不相关的文字;比如:什么短信群发,什么长途话费等等等等。那么,搜索引擎不知道这个页面是关于手机的。说明了什么?这就说明,网站在设计之初需要确保页面中含有与该站点主题相关联的文字性内容描述。
除此之外,还有一个办法,那就是我们手动来帮助搜索引擎判断该页面是关于手机的。我们的老大Google首先提出了这样的方法:如果有其他页面链接到含有手机图片的页面,且锚文本中也提到手机,这便证明该图片页面是和手机是有关联的。另外,有一些精细的方法,如潜在语义分析,可以根据主题同义词,或其他与主题相关的词来猜测一个网页的主题。例如,如果一个页面中含有“移动电话”,或其他与手机相关的词(如“手机卡”和“手机号码”);那么,这便足以说明该页面是和手机相关的。
然而,可悲的是,网页设计者们不能依赖这些先进的搜索引擎技术,因此,除了他们站点的关键页面中含有一些与主题相关的文本信息,可以吸引访问者外。其他的的一无所有。

赞(0) 打赏
未经允许不得转载:优友网 » 搜索引擎蜘蛛是如何在庞大的网络数据上结网的?
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大前端WP主题 更专业 更方便

联系我们联系我们

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏