1.网页体积与索引的关系
以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?
回答:页面大小和搜索引擎的抓取之间没有直接关系。
但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。
2.百度的快照更新问题
想问一个站长都普遍疑惑的问题,那就是为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。是由于受到技术的局限还是对这个站的惩罚!如果是惩罚那么为什么那些天天不更新反而更占优势呢?
回复:前面曾经说过,我们内部也对结果页上的时间戳(在url后面)很纠结,有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了,而代之以网页更新的实际时间。
这个时间戳既然给内部人员也带来了困扰,那么对站长和用户,显见也是有困扰的。所以,我的建议是不必太过关注这个时间戳。如果期望看到精确的spider行为,最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂,一些起码的技术手段还是要会的,数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。
3.流量被蜘蛛占用,怎么限制它
我有个小站,流量固定,但是百度蜘蛛爬去的很频繁,造成N多流量被蜘蛛占用,怎么限制它?或者用别的什么标签语句限制?
回复:
正常情况下,Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。
一个小网站的抓取频率远高于新内容产出速度,通常会是下面这两种问题有中的一个:
1)有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。
2)网站程序有漏洞,产生了无穷尽的url,被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志,看看Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。
4.301永久重定向传递的是全部还是部分权值
我们已经了解到,通过301永久重定向百度会把旧url积累的权值转移到新url上,那么这种方式传递是全部还是部分权值?
回复:正常的301永久重定向,旧url上积累的各种投票信息会全部转移到新url上。
5.site查询第一条结果非首页是否表示网站被降权
在交流中发现很多人认为:用site语法查询之后,如果排在第一的不是该网站的首页则表示该网站被百度降权。
这种做法是否想当然?
回复:
site语法查询的检索结果,更多情况下类似随机的排序,除了说明这些网页已经被收录以外,不能说明任何问题。
6.站点启用CDN加速对百度自然排名的影响
站点开了CDN,对百度SEO影响有多大?我发现我们站自从开了CDN,来的流量少了好多。
回复:
几乎所有的大型网站都在用CDN,看看他们在搜索引擎中的表现就可以知道不会任何的负面影响了。
但我们建议站长尽量选择技术成熟的CDN服务商,某些CDN服务商会导致网站在某些地区访问不稳定,可能会影响Baiduspider的抓取。
7.链接会不会过一段时间权重降低?
百度针对连接上存在不存在有效期的问题,意思上是说,一个链接的权重会不会过一段时间后就会没有了,或者逐渐降低?
回答:如果各位站长要揣摩百度的策略细节,我觉得不如站在用户的角度,用一种合乎常理的逻辑去做推断。比方链接时效性问题,实际是有利有弊。利在于,过去的投票,只反映被投票者在过去的价值,不见得能反映现时情况;弊在于,正常投票不大会重复投,过去投过了,现在就可能不投了,但不代表现在对被投票者的不认可。那么究竟应该怎么做呢?呵呵。我也不清楚。
8.原创内容不能被识别怎么办
自己的原创内容排名常常比不过转载或抄袭的,站长能做些什么预防或改进?
我的站每天都更新原创内容,而百度每天也都更新,但是其他人的转载被收录了以后,我的文章就搜索不到了。
我坚持了近4个月的原创,但百度仍然把我扔到了500多位!
回复:这个,只能说百度的策略还不是很完善,我们也一直在改进。
另外,从用户体验角度,有些转载未必比原创差。比方一篇科技原创博文,被知名门户网站的科技频道转载。如果这种转载保留原创者姓名和出处链接,实际上对原创者是有利的,因为起到了更好的传播效果。只是国内的转载,很多是掐头去尾,使原创者比较受伤。
9.百度是否跟踪JavaScript链接
回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。
10.链接点击率是否计入排名算法
百度是否有会估算某网页的某个反向链接被点击次数(例如:从工具条、流量统计等工具得到的部分数据)?比如是否把链接的点击率计入算法之中?是否会利用这点来判断哪些是隐藏链接?或者判断外链的相关性等因素。
回复:
我只能说,一切有利于排序改进的因素,都有可能被搜索引擎尝试应用。
11.服务器开启gzip压缩
是否会影响蜘蛛抓取和收录量?
回复:
服务器开启gzip压缩,不会对spider抓取产生影响,我们会以压缩的方式来抓取。并且也能够节省站点的网络流量。
12.HTTPS的网页网页被收录
一般来说,网站所有者不是太希望 https 的网页被收录。
如果收录了,如果处理?把 https 的网页URL更换成 http 形式的?
还有一种情况,就是 ip 地址形式的URL被收录。
回复:
如果不希望被收录,常规的做法是设置robots文件。
https主要的出发点是安全,并没有太多考虑搜索引擎。从用户角度,很多采用了https的站点(尤其是首页),也是需要被搜索到的,比如支付宝,贝宝等。通常情况下,搜索引擎对这类网页并不做内容解析,而只是将url进行索引。
IP地址的url被收录,除了spider在机制上的不完善之外,通常站点设计上也有一些缺陷。一般情况下,这类问题是可以被规避的。
13.购买链接是否会被百度惩罚
关于当前作SEO的同学们,都在疯狂的购买链接。表现最为突出的即是各大SF类网站,他们全是通过购买大量的友情链接来强J搜索引擎而上来的。(像传世 SF,前几名的站每个月的链接费用就至少超过五万。)
那么,百度对于这种明显的,通过大量购买链接来作SEO,强行登顶的作法今后是否会受到百度的惩罚?
因为就目前来看,百度对购买链接还没有一点惩罚的迹象,一般的词,网站收录后,只要稍加更新然后狂买两个月链接,绝对进前三名。
而谷歌老早就说明确了。通过购买链接来增加PR会受到惩罚,百度在这方面的算法是否也应该更新一下了?
回复:
这种手段奏效,说明百度在识别和处理超链作弊方面,仍存在很多问题。这类问题理应得到妥善的解决,以使互联网环境得到净化。我们回头会和相关的同事就此问题了解一下。
14.百度目前支持链接的nofollow属性吗?
简单明确的一个问题,百度目前支持链接的nofollow属性吗?
rel='external nofollow'
回复:
百度现在支持nofollow标签。带nofollow标签的链接,我们会忽略掉它绝大部分的作用。
nofollow主要用在用户留言等不受站长控制的地方,这些地方的投票不是站长的意志,告诉搜索引擎不要给他投票是合适的,就象zac博客中那些以请输入关键词、网购推荐等做为Anchor描述的链接,肯定不是zac想推荐的。
如果是做友情链接正式地推荐别的人网站,当然就不能使用nofollow了。。。
15.网站被挂股票类小偷后不收录新文章
公司网站是健康类的行业门户网站,能实现每天收录新文章,文章发布数量在100篇左右,主关键词排名和长尾关键词排名都不错,我们网站有好几名专职编辑,所以文章内容质量不存在问题。
但是一个月前,网站被黑客攻击,在网站加了一个小偷程序,是股票类的,百度当天就收录近几千多条,几天我们发现后就删除了这个程序,并设置了robots屏蔽了该地址,第二天百度也删除了这些内容,但是从此之后,网站就不在被搜索引擎收录新文章,排名主关键词也受到了影响。
现在一个月多了还是没有恢复,请问这种有什么好的解决方法?
回复:这类问题去年开始流行,我们进行了遏制。我们也希望能分清良莠,但实现上总是有一些不完美。
但是这个问题比较奇怪,建议该站长再细细看下抓取和索引记录。不要用site来判定。
16.site: 查询,只有首页收录
网站用site: 查询,只有首页收录,请问是什么机制造成的?
回复:
两种情况吧:
1,新站点,具体内容还没来得及抓取和索引。
2,老站点,因为种种原因被严厉惩罚了,站长圈俗称“拔毛”。
后者的严厉惩罚机制,我们期望逐渐演化为更合理的甄别和处理。实际上现在的状况,比之四、五年前,已经人性化多了。呵呵。
17.页面速度
目前谷歌已经把网页加载速度纳入页面排名影响因素,百度是否也考虑此因素决定网站搜索排名。
回复:
这是很容易想到的一个网站价值评价要素。但如何有效应用,并不是一件很容易的事情,需要非常谨慎。中国尤其复杂,不同网段差异甚大。但显著影响到用户体验的广泛要素,最终都会被搜索引擎谨慎的尝试和使用吧。
18.刷百度相关搜索和搜索下拉框搜索提示
目前刷百度相关搜索和搜索下拉框的方法很多,怎样才能限制或者根除这种现象。
有没有像投诉平台这样的地方,可以让大家投诉,给大家一个更好的相关搜索?
回复:
这个问题的确很恼人。目前我们正在全力处理中,可预期将有大幅改观。
投诉可以发送到webmaster@baidu.com,肯定可以送达相关工程师,但不会有具体的回复。此外,处理多半是策略级的升级,个案的针对性处理会比较少。
19.百度如何对待过期域名?
回答:过期域名也是域名,所以,适用于新域名的策略,也一样适用于过期域名。只是过期域名在历史上累积的与现有网站无关的权重,会被剥离掉,这也是很容易理解的。
20.百度数据更新的周期大概是多长?
回答:
如果是一个变化频繁的入口索引页面,相信这个变化周期会很短;而是相对稳固的内容型页面,周期则会相对较长。站长们观察一下蜘蛛的爬取日志,发现的规律会比这边的说明更有价值。
此外,搜索结果页上的那个时间,一直很让人confusing,我们正在考虑修改。
21.子域名问题
百度对子域名如 news.domain.com 和主域名 www.domain.com 权重怎么处理?是当作两个不同的网站还是子域名会继承主域名的权重?
回复:怎样处理是合乎逻辑的,策略上就会采用那个合乎常理的处理手段。或者这样讲,如果你是负责这个权重处理的,你觉得怎样做是最合理的?那么很可能百度就是如你所想的。呵呵。
搜索引擎理解起来并不复杂,站在用户角度考量,很容易揣摩搜索引擎的策略思路。
22.中文网站海外空间
百度对使用海外空间的中文网站有歧视吗?百度是否会抓取域名注册人的相关whois信息吗?
回复:
1,百度对海外站点没有歧视。但百度从国内爬出去的蜘蛛,会严格遵守国家的政策和法令,所以国内普通用户访问受限的内容,百度蜘蛛一样会搞不定。
2,任何对站点价值分析有贡献的要素,都有可能被搜索引擎使用。并且这些要素的使用方式,也不是一成不变的。至于具体有哪些要素已经被使用以及如何使用,这个无法详述。
博主:林江洄 收集整理!
原文地 址:http://www.linjianghui.com/post/4.htm
0评论 - 百度站长俱乐部问答整理《二》