首页编程蜘蛛日志分析,如何查看蜘蛛日志

蜘蛛日志分析,如何查看蜘蛛日志

编程之家2023-11-0284次浏览

朋友们,你是否曾想过深入了解蜘蛛日志分析和如何查看蜘蛛日志的内涵?在本文中,我将为你详细解析这两个话题,希望能给你带来全新的视角和思考。

蜘蛛日志分析,如何查看蜘蛛日志

如何进行网站日志分析

一、什么是网站日志

1.网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件。

2.通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。

3.搜索引擎也属于网站中的一类用户,我们今天的分享课,主要是针对搜索引擎这种用户在服务器留下的记录展开分析。

为了方便读懂搜索引擎日志,我们需要了解不同搜索引擎蜘蛛的标识,以下为4种搜索引擎的标识——*百度蜘蛛:Baiduspider*搜狗:Sogou News Spider*360:360Spider*谷歌:Googlebot

二、如何看懂网站日志

蜘蛛日志分析,如何查看蜘蛛日志

(以下为一段日志记录)www.cafehome.com

58.180.251.134-- [25/Mar/2015:13:24:33+0800]"GET/m53256.html

HTTP/1.1" 200 12264"http://www.cafehome.com/index-1s2i2p2""Mozilla/5.0

(Windows NT 6.1) AppleWebKit/537.36(KHTML, like Gecko)

Chrome/35.0.1916.153 Safari/537.36 SE 2.X MetaSr 1.0""-""-""-"

以下为字段解读:

蜘蛛日志分析,如何查看蜘蛛日志

通常日志文件较大的情况下,需要借助shell与python结合起来,做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述,有兴趣的童鞋可以继续深入了解。

大型网站通常可以用以上的方法来进行做日志分析。

普通的个人站点,或者企业网站,则可以通过光年日志分析工具结合百度站长平台一起使用。

三、为什么要做网站日志分析

先来了解SEO流量的获取流程:抓取-->索引--->排名--->点击--->流量

因此,要获得SEO流量的前提务必是,有价值的页面被搜索引擎抓取到。

所以,对于SEO运营而言,分析搜索引擎网站日志就显得非常有必要:*分析抓取有无:解决一定的索引问题。*发现异常:及时规避。如存在大量异常页面,404等*抓取调控:让更多优质的内容被抓取,过滤无效抓取。

网站分析的最终目标:让更多有价值的页面被抓取,将有机会获得索引,从而有机会获得SEO流量。

四、怎么做网站日志分析

*定期监控搜索引擎抓取量变化,历史数据的横向纵向对比才能发现异常情况。*借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。*借助光年日志分析工具,定期做数据记录,了解重要栏目、重要页面的抓取量变化。

举个栗子:

老站点(建站1年且有人维护的网站):Seo流量出现异常波动。

分2种情况:

了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶3.0版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。

分析内在:

在分析内在之前,再次抛出这个公式:Seo流量=抓取量*收录率(准确来说应该是索引率)*首页率*点击率

。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。

在此先解释这个概念,方便理解:

1.抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

2.抓取时间:指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有:

(1)抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。

(2)运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致。

小结一下:

老站如何做网站日志分析(针对中文站点):外界排除:

了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。

内在分析:

(1)使用工具:百度站长平台(非VIP账户看后文介绍)

(2)分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。

五、用光年日志分析工具

非百度VIP:

步骤:

1.下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以.log为结尾的便是)

2.打开光年日志分析工具,上传网站日志。

3.查看分析结果。主要维度有这几个:

(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。

(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。

(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。

(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。

如何通过IIS日志来跟踪分析搜索引擎蜘蛛

平时我们经常说的多的就是通过分析百度相关域和收录、yahoo反向链接以及PR等等来分析我们网站的权重和网站的好坏。如果是我们的网站出了什么问题,我们做站长的最关心的也就是我们的网站的收录、相关域以及反向链接的变化,在这里我要和大家分享的是IIS日志的分析,下面简单的由我来分析下。

IIs(internet information services)日志是我们每个网站都具有的功能,只是我们大部分的站长都不怎么去关心它,还有部分站长用的空间或许没有IIs日志功能,这就需要你去找你的服务器提供商来帮你开通IIS日志功能,只有我们的空间有了这样一个功能后,蜘蛛来到我们的网站了与服务器的对话才会被记录到IIs日志里面,我们通过分析IIS日志就可以知道蜘蛛来我们网站做了什么,爬取和收录了我们的哪些页面,包括蜘蛛来我们网站的爬取次数和地址,哪些是蜘蛛喜欢爬取的,哪些是蜘蛛不喜欢的或者说是无法爬取到的页面,知道这些了我们就能针对蜘蛛爬取的动向来更好的分析和优化我们的网站页面,更清楚我们网站在搜索引擎的动态,那么我们怎么去分析IIS日志?

第二,查看蜘蛛的IP地址,这个没多大用处,我们知道就行,IP地址就像平时我们用手机给你的朋友打电话的时候一样,你给你的朋友打电话的同时,你朋友的手机上就会显示你的手机号码是同一个道理,蜘蛛也是一样,它来到了你的网站就会用一个IP来显示它的“手机号码”。

200:页面访问成功但不一定会收录下载

301:资源永久重定向

302:资源临时重定向

304:页面未更新,蜘蛛来到了我们的这个页面后发现这个页面我以前来过,这次再来的时候发现这人页面里面的内容完全是和第一次来的时候一样的,IIS日志里面就会返回大量的304。

404:访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。

如何查看蜘蛛日志

网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情,做为站长的你,如果是需要查看访问统计数据,那用51.la或者百度统计工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。结合我们自己的网站做为一个实例来做一个介绍:

首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,日志文件的扩展名是log。

日志中蜘蛛的访问行为

进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的:

日志中蜘蛛的访问行为

好吧,我的服务器只保留最近三天的日志文件,真小气,我还用过一个国外的服务器,人家是按月记录,并且当月结束后会将当月的日志打包供下载,只要你不人为删除,该日志文件会永远存在,这才叫个性化,但是没办法,谁叫我们只能用国内的服务器。

OK,报怨了几句,随便下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同:

日志中蜘蛛的访问行为

注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字:

百度的叫baiduspider;

谷歌的叫Googlebot;

微软的叫bingbot;

搜狐的叫Sogou web spider;

腾讯的叫Sosospider;

因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:

125.90.88.96-- [07/Sep/2012:19:16:21+0800]"GET/ HTTP/1.1" 200 5374"-""Mozilla/5.0(compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)"

怎么解读这些信息呢?蜘蛛IP--【访问时间】“获取路径”HTTP反馈值200反馈字节数5357百度蜘蛛标记。

好吧,这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了5374个字节。我们再分析一条记录:

220.181.51.118-- [07/Sep/2012:09:54:15+0800]"GET/product/disp.php?id=93 HTTP/1.1" 301 249"-""Mozilla/5.0(compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)"

认真看获取路径这一项,因为我的网站是老域名,原来的主人被收录的路径/product/disp.php?id=93,百度蜘蛛同样爬行,结果我的新网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动—请求的数据具有新的位置且更改是永久的。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除。现在百度正在审核我的新站点,一天爬行只有23次,也很不错了的。

好了,大家是不是可以举一反三的学会看其它搜索引擎蜘蛛的爬行记录了呢?下次,笔者将重点再分享一下HTTP的反馈值,大家通过这个反馈值可以获悉自己网站的健康状态哦,非常重要。

当然,有朋友会说为什么不利用一些日志查看工具,人工手动察看费时费力,是的,有些不错的工具可以提供更便捷的操作,今天笔者所述内容旨在用最初级的方法教会大家学会察看自己网站的日志。希望以上内容能对你有点帮助。

感谢您花时间阅读本文!我们希望通过对蜘蛛日志分析和如何查看蜘蛛日志的问题进行探讨,为您提供了一些有用的见解和解决方案。如果您需要更多帮助或者有其他疑问,请不要犹豫与我们联系。

微信公众平台开发 微信公众平台和开放平台的区别kindeditor下载(kindeditor使用方法,kindeditor怎么设置长宽度)