优友酷站21:腾讯围脖-百度说baidusays

在腾讯微博上面,robin主持了一个“百度说”http://t.qq.com/baidusays,里面有很多关于百度官方透露的一些实质性的消息和百度优化方面的一些技巧,整理一下,给大家看看,最好是每一条都看。

我是 Robin ,希望主持的这个“百度说”,能给大家有所帮助。

网站改版首先要考虑的如何保证老用户不流失,保证用户在访问他以前收藏的旧url时,能引导用户到新网站上对应的内容。我们推荐的做法是将旧url 301永久重定向到内容对应的新url,这样搜索引擎会把旧网页积累下来的权值完整的转移到新网页上。

淘客现在很泛滥,内容已经是高度重复,很多的类似网站将不会获得竞争优势。一般来说,内容高度重复的情况下,往往拼的是站点权重。搜索引擎的站点权重现在计算的都是各种途径的投票,不仅仅只有超链。百度通过一个叫做Baiduspider的程序抓取互联网上的网页,经过处理后建入索引中,目前Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理。不少网站管理员反映百度对301重定向支持不彻底,新旧网页信息转换慢,这是事实。但是,请大家相信,百度在努力解决这个问题。

如果必须使用Flash等制作网页,建议制作一个供搜索引擎收录的文字版,并在首页使用文本链接指向文字版。如果百度竞价广告不继续投放,那该网站网页在百度中的自然排名是否有消极影响?回答见这里:http://tieba.baidu.com/club/9374916/p/5319324

百度的产品一直占据了很好的排名,真的优化的好?还是对自己做了特殊处理?具体回答见这里:http://tieba.baidu.com/club/9374916/p/5535955

已经强调过很多次了,百度site语法的结果数不准。而且这种不准的幅度甚至不是稳定的,可能今天比较接近真实值,明天就发生大波动了。site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。

百度说:不要使用frame和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。

重要的网页不要使用https协议,如果非用不可,尽量将首页和重要页面做个http版,方面百度收录。网页title是网页上主要内容的概括,搜索引擎可以通过网页标题迅速的判断网页的主题。每个网页的内容都是不同的,每个网页都应该有独一无二的title。

用户在百度网页搜索中搜索到你的网页时,title会做为最重要的内容显示在摘要中,一个主题明确的title会帮助用户更方便地从搜索结果中判断你网页上内容是否符合他需要。

通常网页标题可以这样描述

首页:网站名称 或者 网站名称_提供服务介绍or产品介绍

频道页:频道名称_网站名称

文章页:文章title_频道名称_网站名称

网页标题要主题明确,包含这个网页中最重要的内容;简明精练,不罗列与网页内容不相关的信息。网站改版,如果是内容发生根本性变化,则理论上会被视为一个全新网站,旧有超链失效。以前有商家在淘宝上用低价物品炒皇冠,炒成后再换其他高价值商品卖。这显然是一个漏洞。过期超链无效,本质上也是如此,这是合乎一般逻辑的。

有不少站长反映百度只收录不带www的URL,不收录带www的。或者两个都收录,即使从domain.com做了301转向到www.domain. c om也如此。搜索时,两个版本还可能同时出现在一个结果页面上。这应该是系统缺陷问题,不合逻辑。我们会反馈给相关工程师追查。

网页抓取和建立索引是不等同的。这些网页会经过一些必要的chk过程之后才会被建入索引。

百度对海外站点没有歧视。但百度从国内爬出去的蜘蛛,会严格遵守国家的政策和法令,所以国内普通用户访问受限的内容,百度蜘蛛一样会搞不定。任何对站点价值分析有贡献的要素,都有可能被搜索引擎使用。并且这些要素的使用方式,也不是一成不变的。至于具体有哪些要素已经被使用以及如何使用,这个无法详述。一个普通用户,如果用你的关键词去搜,怎样的结果是合理的?如果你不喜欢的结果,恰是用户所喜欢的,那么除非版权问题之类,否则很难得到解决;如果你不喜欢的结果,也是普通用户所不喜欢的,那么这是一个会被百度关注的问题。其实百度没啥神秘的,用这个逻辑可以解决一堆的猜想。

搜索引擎的技术思路都是一样的,找好内容的特征,把它们排上来,找不好内容的特征,把它们降下去。

现在网站被黑的问题,百度网页搜索工程师们也很头痛,平均每天会有几百个网站出现这种情况。我们正准备尝试着给域名的注册信箱发信通知,提醒一下站长,不知道有没有效果。我们也曾想在搜索结果里提示安全,也找过几家专业做安全的公司,但准确率和召回都很有问题。网站因作弊而被惩罚,百度会监控这些网站,修正了作弊内容,或者网站的质量指标达到某种层次,会降低惩罚力度,直至完全放开。也就是说,完全解除惩罚的消极结果还是有一个逐渐时间累积和行为改善的过程。如果网站改邪归正,百度会完全放开。

百度搜索框提示功能将向广大站长全面开放啦!!该功能的有效使用将帮助站长提升服务质量和用户黏性,进而获得更大的利益回报与成长空间。了解详情:http://tieba.baidu.com/club/9374916/p/5535955

百度暂时还没支持通过robots提交Sitemap。一般情况下,spider能处理大多数网站的数据抓取和更新,而无须借助sitemap。

Robots 掉的网页,如果互联网上其他网页链接并描述了这个网页的内容,我们会把这些描述信息建入索引,但 Robots 掉网页我们不会抓取,网页内容也不会收录。当你网站上的内容对用户有用时,用户会推荐给别人,推荐的形式可能多种多样:IM软件上推荐给自己的朋友、在论坛里发帖推荐、写博客介绍等。这些推荐,都会被搜索引擎用来判断网页/网站价值的高低。

不把 Meta Description 当做权值计算的因素,这个标签存在与否不影响网页权值,只是摘要的一个选择目标。

#p#副标题#e#

如果想维护一个策略的生命周期的话,最好的方式是保守策略细节的秘密。但有一点可以确定,一个成熟的搜索引擎,不会轻易的通过一两个要素来判断一个网站的生死。有一点可以肯定,索引结果数肯定不会是一个网站在搜索引擎中的站点评级指标。这是很容易理解的。举个例子,site:www.126.com,就几百条而已。从投票权角度,它的权重会低于大部分索引了成千上万网页的站点?所以站长若要搞搞友情链接,更重要的是用自己的经验去做价值分析。

作为站长,如果想深入的研究SEM,可以坦白的讲,数据分析是必须的。在网络上搜到的东鳞西爪的所谓SEO技巧,大多是别人嚼剩下的、没什么大用的、甚至有害的东西。站长要学会的首要事情之一,是对自己的网站日志做深入解剖,并能针对问题做各种实验和分析。

山贼入伙,还需要“投名状”呢;入搜索引擎的伙,也得要点考察期吧。(对于新站内页收录慢的回答)如果你在中关村,搜“银行”,然后结果全是中关村周围的银行网点,按距离你的远近排序,这听上去不是一件很美妙的事情吗?呵呵。我也希望那一天尽早到来。

判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。相同两个帖子被收录(URL可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。更换服务器对网站排名有影响吗?如果有,影响有多大?百度说:原则上是不会的。除非…新换的服务器太糟糕,三天两头访问失败,或者服务器从国内换到国外,动辄被和谐,诸如此类的“硬件”问题。

很多人喜欢往标题里塞很多关键词,以为那样就全面开花,但很可能适得其反。这个原理同在一个页面上设超链个数一样。分一杯羹的人越多,每个人所得的羹越少。一个普通用户,如果用你的关键词去搜,怎样的结果是合理的?如果你不喜欢的结果,恰是用户所喜欢的,那么除非版权问题之类,否则很难得到解决;如果你不喜欢的结果,也是普通用户所不喜欢的,那么这是一个会被百度关注的问题。

造成搜索结果中显示标题与实际标题不一致的主要原因可能是tag title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。一个网页导出的链接数这个暂时没有具体的数值标准。一般情况下,链接数量,会影响到这些链接从该页面上所获得的权重;少就多分一些,多就少分一些。

从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。

对于搜索引擎来说,虽然超大的页面并不影响抓取和收录,但毕竟搜索引擎不会为页面上的每一个字节都建立索引(那会造成极大的资源浪费和效率等问题)。为了使页面的主体内容都可被检索到,我们建议应当将单个页面的大小控制在合理范围内,就目前而言,推荐不大于128KB。

Robots Meta标签,我们支持nofollow和noarchive。

几乎所有的大型网站都在用CDN,看看他们在搜索引擎中的表现就可以知道不会任何的负面影响了。但我们建议站长尽量选择技术成熟的CDN服务商,某些CDN服务商会导致网站在某些地区访问不稳定,可能会影响Baiduspider的抓取。正常的301永久重定向,旧url上积累的各种投票信息会全部转移到新url上。

正常情况下,Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度,通常会是下面这两种问题有中的一个:

1)有其他程序冒充Baiduspider抓取。

2)网站程序有漏洞,通常情况下,搜索引擎对https这类网页并不做内容解析,而只是将url进行索引。IP地址的url被收录,除了spider在机制上的不完善之外,通常站点设计上也有一些缺陷。一般情况下,这类问题是可以被规避的。

javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。

过期域名也是域名,所以,适用于新域名的策略,也一样适用于过期域名。只是过期域名在历史上累积的与现有网站无关的权重,会被剥离掉,这也是很容易理解的。“伪原创”就是“非原创”。对非原创的策略,同样适用于伪原创。归根结底,这是一个技术实现程度问题,而不是策略思路问题。百度近期会发布基于百度的搜索引擎优化指南,里面有百度推荐的网站建设方法,以及一些会危害到权重的做法。大家可以期待哦。

“百度说”一直都是腾讯微博里关于SEO话题收听率比较高的,我(薛峰)也代表广大站长感谢一下“百度说”的主持,点石互动、robinclub的创始人、麦包包的柳焕彬(robin),谢谢他一直以来坚持不懈的在微博里面发布有关百度优化技巧的资讯。请大家一如既往的支持“百度说”,地址是:http://t.qq.com/baidusays。

文章来源作者:湖南SEO·薛峰作者微博地址:http://t.qq.com/xuefeng1985

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮