应对蜘蛛页面抓取异常

seo 2025-01-17 04:40:01 283

摘要:搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白, 上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对"

应对蜘蛛页面抓取异常

搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白, 上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。 有时候,会返回503,503 返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URL处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503一样, 如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。 在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新的URL,就必须使用返回码301进行处理,这样能把权重等一 并带过去,避免网站的流量损失。 返回码301的优化写法如下。 (1)创建一个htaccess.txt文件。 (2)在htaccess.txt里写好返回码301的跳转信息。 假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息。 RewriteEngineon RewriteCond%{http_host}^abc.com[NC] RewriteRule^(.*)$http://www.abc.com/$1[L,R=301] (3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。 需要提醒的是目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此,在考虑.htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。 实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为http30x重定向、metarefresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持Canonical标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识别。 重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量采用返回码301的跳转方式。另外,从时间结果来看,百度对Canonical的支持并不如谷歌好,采用Canonical 未必能得到如期效果。有些网站通过不同的路径进入同一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧。 外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括“深度优先遍历策略、宽度优先遍历策略、PR 优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。 另外,针对互联网存在的大量“奋版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URL不同但是实际内容相同的页面的URL进行归一化处理,即视作-一个URL。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高,或者仅是URL中包含无效参数来实现多个页面,搜索引擎仍然把这些URL当作-一个URL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEO效果。 蜘蛛在抓取的过程实际是依据链接不断往下探索的过程,如果链接之间出现短路,蜘蛛就无法往前爬了。在真实的网站运营中,我们可以看到很多网页实际潜藏在网站后端,蜘蛛是无法抓取到的,比如没有预留入口链接,或者入口链接已经失效等,这些无法抓取到的内容和信息,对于蜘蛛来说就是一个个的孤岛,对SEO人员来说就是没有完全发挥内容的引流作用。同时,因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。 如何解决信息无法被抓取到的问题?几个可行的办法如下。 ●采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。 ●采用Sitemap提交方式。 大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。 蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots 协议等。 HTTP协议规范了客户端和服务器端请求和应答的标准。客户端般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HT请求。发送HTTP请求会返回对应的HTTP Heder信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。 HTTPS协议是-种加密协议,一般用户安全数据的传输。 HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。网站式新闻动态
相关推荐
关闭

用微信“扫一扫”

seo推广软件

快速SEO排名

深圳seo

搜索引擎seo

关键词seo

seo优化是啥

上海seo优化公司

seo快速排名服务

小红书seo

seo站长

百度seo推广

快速排名软件seo系统

北京seo外包公司

seo快速排名分析

seo快速排名网站优化

seo排名优化系统

seo查询优化

seo监控

seo搜索

seo在线优化排名

seo优化快速排名技术

seo优化排名查询

搜索引擎seo优化平台

免费seo排名优化

搜索seo优化平台

在线优化seo

杭州seo公司

seo关键词

免费网站seo优化排名

SEO快速排名是什么

sem和seo有什么区别

seo快速排名系统

seo快速排名工具

seo外包公司

seo快速排名百度首页

seo引擎优化软件

谷歌seo培训

seo系统

seo排名优化

网站刷排名seo优化

快速排名seo工具

谷歌 seo 优化

seo自动优化

站长seo

seo优化公司

seo优化系统

排名seo优化平台

百度seo优化服务

seo刷排名软件

百度搜索引擎seo优化

橘子seo

seo快排

百度关键词seo优化

seo关键词排名软件

网站seo优化

seo搜索引擎

百度seo关键词排名

seo关键词优化软件

无锡seo优化

seo刷关键词排名优化

百度关键词seo排名优化

seo优化的价格

百度 seo 工具

seo优化分析

seo刷关键词排名

seo排名系统

哪里有seo排名优化

seo网站关键词排名优化

seo推广平台

关键词优化seo

无锡seo整站优化

seo怎么快速提高排名

快速提升排名seo

seo百度优化

国外网站SEO

seo关键词排名提升

无锡seo公司

seo综合查询工具

seo快速排名

上海seo公司

SEO优化快速排名

排名seo优化多少钱

提升seo排名

seo快速排名优化

百度seo优化工具

快速SEO排名优化

seo关键词优化推广

seo优化器

seo外链推广员

seo百度排名优化

seo优化提升排名

seo优化排名工具

百度快速seo软件

百度seo快速排名优化

北京 seo

百度seo网站排名优化

seo排名快速优化

seo推广公司

优化seo价格

桔子seo

seo搜索排名优化的方法

seo排名快速

柴叔seo

seo培训网

seo实战培训

信阳seo

seo资源

廊坊seo

潍坊seo

山西seo

seo文案

seo教学

云南seo

郑州seo

seo外包

seo软件

河北网站seo

武汉seo公司

深圳seo公司

济宁seo

郑州seo优化

石家庄seo

河北seo

seo网站优化

企业网站seo

seo优化网

seo博客

seo扣费系统

上海seo服务

百度seo优化软件

天津seo

seo教研

重庆seo优化

百度seo排名工具

seo站长工具

seo搜索引擎优化

北京seo

上海seo优化

黑帽SEO

seo网站优化软件

seo工具

seo搜索优化

宁波seo优化

无锡seo

seo搜索排名优化

百度seo软件

百度seo关键词优化

百度seo关键词

seo网站关键词优化

百度关键词seo

站长工具seo综合查询

关键词seo排名

济南seo

seo怎么优化

seo培训

百度seo排名公司

seo研究中心

百度seo公司

seo技术

seo服务

上海seo

SEO教程

百度seo排名优化软件

宁波seo

seo关键词排名优化软件

seo优化报价

整站seo

百度seo优化排名

seo排名软件

百度seo建议

网站seo

成都seo

seo关键词优化

什么是seo

附子seo

seo综合查询

seo分析

百度seo网站优化

seo网站

百度seo

seo关键词排名优化

百度seo排名软件

seo优化关键词

seo是什么

SEO排名

百度seo排名优化

seo排名工具

谷歌seo

百度seo优化

百度seo排名

seo优化工具

seo网站推广

seo查询

seo推广

seo优化

seo公司

黄冈网站seo

seo是什么意思

seo云优化

抖音seo

seo

事情

良好

可能会

各大

网站推广

或者是

新闻稿

就会

时候

网络营销

过程中

站内

信息

原则

目录

趋势

也是

灵感

手机

浏览器

根据

压力

进行分析

频道

网页设计

插画

自然

手段

书桌

索引

核心

会有

规则

粉红色

红色

明度

这类

商城

人物

后期

相似性

组合

蜘蛛精

渠道

色彩搭配

也会

字型

日均

万元

是在

情况

速度

列表

帖子

颜色

色彩

结构

维度

套装

儿童

时间

上架

店铺

商品

童装

主题

快速

快照

买了

网站建设

细节

这部

网页

权威

初期

这是

层级

百度搜索引擎

图片

文字

词表

词汇

重点

重定向

结果

预算

原因

平台

指数

监控系统

蜘蛛

子公司

项目

比例

现在

淘宝

方向

章节

小说

方式

百度快照

平板

媒体

目标

相关性

建站

公司

朋友

他们的

栏目

互联网

地图

竞争性

的人

很难

官方网站

竞价排名

程度

消费者

方法

熟地黄

药膳

气血

搜索引擎优化

感兴趣

域名

实战

都是

人员

问题

站点

企业网站

当我们

批量

模板

镜像

是一个

文本

指标体系

指标

分词

连词

客户

企业

站长

资源

安安

页面

标签

效果

冷却塔

电影

电视剧

技术

自己的

拳击

的是

品牌

计划

老板

招聘

代码

文件

跳转

美国

文章

反馈

死链

更容易

权重

我的

快手

首页

参数

搜索结果

算法

视频

点击率

竞争对手

网址

友情链接

建议

人工智能

的话

工作

布局

工具

链接

对方

流量

内容

不同

搜索引擎

转换率

关键字

界面

你的

数据

产品

标题

用户

关键词

网站