爬虫服务器,什么是爬虫
大家好,今天来为大家分享爬虫服务器的一些知识点,和什么是爬虫的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!
windows服务器怎么反爬虫
手工识别和拒绝爬虫的访问
相当多的爬虫对网站会造成非常高的负载,因此识别爬虫的来源IP是很容易的事情。最简单的办法就是用netstat检查80端口的连接:
netstat-nt| grep youhostip:80| awk'{print$5}'| awk-F":"'{print$1}'| sort| uniq-c| sort-r-n
这行shell可以按照80端口连接数量对来源IP进行排序,这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。
如果使用lighttpd做Web
Server,那么就更简单了。lighttpd的mod_status提供了非常直观的并发连接的信息,包括每个连接的来源IP,访问的URL,连接状
态和连接时间等信息,只要检查那些处于handle-request状态的高并发IP就可以很快确定爬虫的来源IP了。
拒绝爬虫请求既可以通过内核防火墙来拒绝,也可以在web server拒绝,比方说用iptables拒绝:
iptables-A INPUT-i eth0-j DROP-p tcp--dport 80-s 84.80.46.0/24
直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面,可能在一个C段里面的多台服务器上面都有爬虫,而这个C段不可能是用户宽带上网,封锁C段可以很大程度上解决问题。
通过识别爬虫的User-Agent信息来拒绝爬虫
有很多爬虫并不会以很高的并发连接爬取,一般不容易暴露自己;有些爬虫的来源IP分布很广,很难简单的通过封锁IP段地址来解决问题;另外还有很多
各种各样的小爬虫,它们在尝试Google以外创新的搜索方式,每个爬虫每天爬取几万的网页,几十个爬虫加起来每天就能消耗掉上百万动态请求的资源,由于
每个小爬虫单独的爬取量都很低,所以你很难把它从每天海量的访问IP地址当中把它准确的挖出来。
这种情况下我们可以通过爬虫的User-Agent信息来识别。每个爬虫在爬取网页的时候,会声明自己的User-Agent信息,因此我们就可以
通过记录和分析User-Agent信息来挖掘和封锁爬虫。我们需要记录每个请求的User-Agent信息,对于Rails来说我们可以简单的在
app/controllers/application.rb里面添加一个全局的before_filter,来记录每个请求的User-Agent信
息:
logger.info"HTTP_USER_AGENT#{request.env["HTTP_USER_AGENT"]}"
然后统计每天的production.log,抽取User-Agent信息,找出访问量最大的那些User-Agent。要注意的是我们只关注那
些爬虫的User-Agent信息,而不是真正浏览器User-Agent,所以还要排除掉浏览器User-Agent,要做到这一点仅仅需要一行
shell:
grep HTTP_USER_AGENT production.log| grep-v-E'MSIE|Firefox|Chrome|Opera|Safari|Gecko'| sort| uniq-c| sort-r-n| head-n 100> bot.log
统计结果类似这样:
57335 HTTP_USER_AGENT Baiduspider+(+http://www.baidu.com/search/spider.htm)
56639 HTTP_USER_AGENT Mozilla/5.0(compatible; Googlebot/2.1;+http://www.google.com/bot.html)
42610 HTTP_USER_AGENT Mediapartners-Google
19131 HTTP_USER_AGENT msnbot/2.0b(+http://search.msn.com/msnbot.htm)
从日志就可以直观的看出每个爬虫的请求次数。要根据User-Agent信息来封锁爬虫是件很容易的事情,lighttpd配置如下:
$HTTP["useragent"]=~"qihoobot|^Java|Commons-HttpClient|Wget|^PHP|Ruby|Python"{
url.rewrite=("^/(.*)"=>"/crawler.html")
}
使用这种方式来封锁爬虫虽然简单但是非常有效,除了封锁特定的爬虫,还可以封锁常用的编程语言和HTTP类库的User-Agent信息,这样就可以避免很多无谓的程序员用来练手的爬虫程序对网站的骚扰。
还有一种比较常见的情况,就是某个搜索引擎的爬虫对网站爬取频率过高,但是搜索引擎给网站带来了很多流量,我们并不希望简单的封锁爬虫,仅仅是希望降低爬虫的请求频率,减轻爬虫对网站造成的负载,那么我们可以这样做:
$HTTP["user-agent"]=~"Baiduspider+"{
connection.delay-seconds= 10
}
对百度的爬虫请求延迟10秒钟再进行处理,这样就可以有效降低爬虫对网站的负载了。
通过网站流量统计系统和日志分析来识别爬虫
有些爬虫喜欢修改User-Agent信息来伪装自己,把自己伪装成一个真实浏览器的User-Agent信息,让你无法有效的识别。这种情况下我们可以通过网站流量系统记录的真实用户访问IP来进行识别。
主流的网站流量统计系统不外乎两种实现策略:一种策略是在网页里面嵌入一段js,这段js会向特定的统计服务器发送请求的方式记录访问量;另一种策
略是直接分析服务器日志,来统计网站访问量。在理想的情况下,嵌入js的方式统计的网站流量应该高于分析服务器日志,这是因为用户浏览器会有缓存,不一定
每次真实用户访问都会触发服务器的处理。但实际情况是,分析服务器日志得到的网站访问量远远高于嵌入js方式,极端情况下,甚至要高出10倍以上。
现在很多网站喜欢采用awstats来分析服务器日志,来计算网站的访问量,但是当他们一旦采用Google
Analytics来统计网站流量的时候,却发现GA统计的流量远远低于awstats,为什么GA和awstats统计会有这么大差异呢?罪魁祸首就是
把自己伪装成浏览器的网络爬虫。这种情况下awstats无法有效的识别了,所以awstats的统计数据会虚高。
其实作为一个网站来说,如果希望了解自己的网站真实访问量,希望精确了解网站每个频道的访问量和访问用户,应该用页面里面嵌入js的方式来开发自己
的网站流量统计系统。自己做一个网站流量统计系统是件很简单的事情,写段服务器程序响应客户段js的请求,分析和识别请求然后写日志的同时做后台的异步统
计就搞定了。
通过流量统计系统得到的用户IP基本是真实的用户访问,因为一般情况下爬虫是无法执行网页里面的js代码片段的。所以我们可以拿流量统计系统记录的
IP和服务器程序日志记录的IP地址进行比较,如果服务器日志里面某个IP发起了大量的请求,在流量统计系统里面却根本找不到,或者即使找得到,可访问量
却只有寥寥几个,那么无疑就是一个网络爬虫。
分析服务器日志统计访问最多的IP地址段一行shell就可以了:
grep Processing production.log| awk'{print$4}'| awk-F'.''{print$1"."$2"."$3".0"}'| sort| uniq-c| sort-r-n| head-n 200> stat_ip.log
然后把统计结果和流量统计系统记录的IP地址进行对比,排除真实用户访问IP,再排除我们希望放行的网页爬虫,比方Google,百度,微软msn爬虫等等。最后的分析结果就就得到了爬虫的IP地址了。以下代码段是个简单的实现示意:
whitelist= []
IO.foreach("#{RAILS_ROOT}/lib/whitelist.txt"){|line| whitelist<< line.split[0].strip if line}
realiplist= []
IO.foreach("#{RAILS_ROOT}/log/visit_ip.log"){|line| realiplist<< line.strip if line}
iplist= []
IO.foreach("#{RAILS_ROOT}/log/stat_ip.log") do|line|
ip= line.split[1].strip
iplist<< ip if line.split[0].to_i> 3000&&!whitelist.include?(ip)&&!realiplist.include?(ip)
end
Report.deliver_crawler(iplist)
分析服务器日志里面请求次数超过3000次的IP地址段,排除白名单地址和真实访问IP地址,最后得到的就是爬虫IP了,然后可以发送邮件通知管理员进行相应的处理。
网站的实时反爬虫防火墙实现策略
通过分析日志的方式来识别网页爬虫不是一个实时的反爬虫策略。如果一个爬虫非要针对你的网站进行处心积虑的爬取,那么他可能会采用分布式爬取策略,
比方说寻找几百上千个国外的代理服务器疯狂的爬取你的网站,从而导致网站无法访问,那么你再分析日志是不可能及时解决问题的。所以必须采取实时反爬虫策
略,要能够动态的实时识别和封锁爬虫的访问。
要自己编写一个这样的实时反爬虫系统其实也很简单。比方说我们可以用memcached来做访问计数器,记录每个IP的访问频度,在单位时间之内,
如果访问频率超过一个阀值,我们就认为这个IP很可能有问题,那么我们就可以返回一个验证码页面,要求用户填写验证码。如果是爬虫的话,当然不可能填写验
证码,所以就被拒掉了,这样很简单就解决了爬虫问题。
用memcache记录每个IP访问计数,单位时间内超过阀值就让用户填写验证码,用Rails编写的示例代码如下:
ip_counter= Rails.cache.increment(request.remote_ip)
if!ip_counter
Rails.cache.write(request.remote_ip, 1,:expires_in=> 30.minutes)
elsif ip_counter> 2000
render:template=>'test',:status=> 401 and return false
end
这段程序只是最简单的示例,实际的代码实现我们还会添加很多判断,比方说我们可能要排除白名单IP地址段,要允许特定的User-Agent通过,要针对登录用户和非登录用户,针对有无referer地址采取不同的阀值和计数加速器等等。
此外如果分布式爬虫爬取频率过高的话,过期就允许爬虫再次访问还是会对服务器造成很大的压力,因此我们可以添加一条策略:针对要求用户填写验证码的
IP地址,如果该IP地址短时间内继续不停的请求,则判断为爬虫,加入黑名单,后续请求全部拒绝掉。为此,示例代码可以改进一下:
before_filter:ip_firewall,:except=>:test
def ip_firewall
render:file=>"#{RAILS_ROOT}/public/403.html",:status=> 403 if BlackList.include?(ip_sec)
end
我们可以定义一个全局的过滤器,对所有请求进行过滤,出现在黑名单的IP地址一律拒绝。对非黑名单的IP地址再进行计数和统计:
ip_counter= Rails.cache.increment(request.remote_ip)
if!ip_counter
Rails.cache.write(request.remote_ip, 1,:expires_in=> 30.minutes)
elsif ip_counter> 2000
crawler_counter= Rails.cache.increment("crawler/#{request.remote_ip}")
if!crawler_counter
Rails.cache.write("crawler/#{request.remote_ip}", 1,:expires_in=> 10.minutes)
elsif crawler_counter> 50
BlackList.add(ip_sec)
render:file=>"#{RAILS_ROOT}/public/403.html",:status=> 403 and return false
end
render:template=>'test',:status=> 401 and return false
end
如果某个IP地址单位时间内访问频率超过阀值,再增加一个计数器,跟踪他会不会立刻填写验证码,如果他不填写验证码,在短时间内还是高频率访问,就
把这个IP地址段加入黑名单,除非用户填写验证码激活,否则所有请求全部拒绝。这样我们就可以通过在程序里面维护黑名单的方式来动态的跟踪爬虫的情况,甚
至我们可以自己写个后台来手工管理黑名单列表,了解网站爬虫的情况。
关于这个通用反爬虫的功能,我们开发一个开源的插件:https://github.com/csdn-dev/limiter
这个策略已经比较智能了,但是还不够好!我们还可以继续改进:
1、用网站流量统计系统来改进实时反爬虫系统
还记得吗?网站流量统计系统记录的IP地址是真实用户访问IP,所以我们在网站流量统计系统里面也去操作memcached,但是这次不是增加计数
值,而是减少计数值。在网站流量统计系统里面每接收到一个IP请求,就相应的cache.decrement(key)。所以对于真实用户的IP来说,它
的计数值总是加1然后就减1,不可能很高。这样我们就可以大大降低判断爬虫的阀值,可以更加快速准确的识别和拒绝掉爬虫。
2、用时间窗口来改进实时反爬虫系统
爬虫爬取网页的频率都是比较固定的,不像人去访问网页,中间的间隔时间比较无规则,所以我们可以给每个IP地址建立一个时间窗口,记录IP地址最近
12次访问时间,每记录一次就滑动一次窗口,比较最近访问时间和当前时间,如果间隔时间很长判断不是爬虫,清除时间窗口,如果间隔不长,就回溯计算指定时
间段的访问频率,如果访问频率超过阀值,就转向验证码页面让用户填写验证码。
最终这个实时反爬虫系统就相当完善了,它可以很快的识别并且自动封锁爬虫的访问,保护网站的正常访问。不过有些爬虫可能相当狡猾,它也许会通过大量
的爬虫测试来试探出来你的访问阀值,以低于阀值的爬取速度抓取你的网页,因此我们还需要辅助第3种办法,用日志来做后期的分析和识别,就算爬虫爬的再慢,
它累计一天的爬取量也会超过你的阀值被你日志分析程序识别出来。
什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
为什么我们要使用爬虫?
互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式地出现在网络中。
过去,我们通过书籍、报纸、电视、广播或许信息,这些信息数量有限,且是经过一定的筛选,信息相对而言比较有效,但是缺点则是信息面太过于狭窄了。不对称的信息传导,以至于我们视野受限,无法了解到更多的信息和知识。
互联网大数据时代,我们突然间,信息获取自由了,我们得到了海量的信息,但是大多数都是无效的垃圾信息。
例如新浪微博,一天产生数亿条的状态更新,而在百度搜索引擎中,随意搜一条——减肥100.000.000条信息。
通过某项技术将相关的内容收集起来,在分析删选才能得到我们真正需要的信息。
这个信息收集分析整合的工作,可应用的范畴非常的广泛,无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等……都能够借助这个技术获取更精准有效的信息加以利用。
网络爬虫技术,虽说有个诡异的名字,让能第一反应是那种软软的蠕动的生物,但它却是一个可以在虚拟世界里,无往不前的利器。
爬虫怎么用
网络爬虫软件怎么使用 5分
搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像功成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取
网页抓取/数据抽取/信息提取软件工具包MetaSeeker是一套完整的解决方案,里面有定题网络爬虫,也叫聚焦网络爬虫,这种爬虫抓取下来一个页面后并不抽取所有的超链接,而是只找主题相关的链接,笼统的说就是爬行的范围是受控的。网络爬虫实现代码主要集中在MetaSeeker工具包中的DataScraper工具。可以从 gooseeker网站下载下来看
请详细解释什么事百度爬虫,有什么作用
说通俗一点就是一段程序,这段程序可以在互联网上自动查询更新的网站
网站刚建好,没有信息,听说有个什么爬虫,可以自动抓取,怎么用?
你说的是自动采集的功能,这个需要插件支持自动采集并且你的空间也要支持自动采集...如果你的空间不许你使用采集功能是会把你的网站删掉的.因为采集占用的服务器资源很高,几乎没有空间支持采集功能...你告诉我你使用的是什么建站系统,我可以给你参考参考...如果你需要采集功能可以采用狂人采集器,和很多建站程序都有接口的!
另外搞采集一般都是搞垃圾站的...呵呵....
网络爬虫是什么,有很大的作用吗?
【网络爬虫】又被称为网页蜘蛛,聚焦爬虫,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成搐传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
如何利用python写爬虫程序
这里有比较详细的介绍
blog.csdn/column/details/why-bug
java网络爬虫怎么实现
代码如下:package webspider;import java.util.HashSet;import java.util.PriorityQueue;import java.util.Set;import java.util.Queue;public class LinkQueue{已访问的 url*** private static Set visitedUrl= new HashSet();待访问的 url*** private static Queue unVisitedUrl= new PriorityQueue();获得URL队列 public static Queue getUnVisitedUrl(){ return unVisitedUrl;}添加到访问过的URL队列中 public static void addVisitedUrl(String url){ visitedUrl.add(url);}移除访问过的URL public static void removeVisitedUrl(String url){ visitedUrl.remove(url);}未访问的URL出队列 public static Object unVisitedUrlDeQueue(){ return unVisitedUrl.poll();}保证每个 url只被访问一次 public static void addUnvisitedUrl(String url){ if(url!= null&&!url.trim().equals("")&&!visitedUrl.contains(url)&&!unVisitedUrl.contains(url)) unVisitedUrl.add(url);}获得已经访问的URL数目 public static int getVisitedUrlNum(){ return visitedUrl.size();}判断未访问的URL队列中是否为空 public static boolean unVisitedUrlsEmpty(){ return unVisitedUrl.isEmpty();}}
如何用Java写一个爬虫
import java.io.File;import java.URL;import java.URLConnection;import java.nio.file.Files;import java.nio.file.Paths;import java.util.Scanner;import java.util.UUID;import java.util.regex.Matcher;import java.util.regex.Pattern; public class DownMM{ public static void main(String[] args) throws Exception{ out为输出的路径,注意要以\\结尾 String out="D:\\JSP\\pic\\java\\"; try{ File f= new File(out); if(! f.exists()){ f.mkdirs();}}catch(Exception e){ System.out.println("no");} String url="mzitu/share/ment-page-"; Pattern reg= Patternpile(">
网络爬虫软件怎么使用?急!!!!!!!!!!
每个人写的程序用法都不一样,你自己再看下文档吧,里面应该有格式!别这么浪费分!
为什么写爬虫都喜欢用python
有更加成熟的一种爬虫脚本语言,而非框架。是通用的爬虫软件ForeSpider,内部自带了一套爬虫脚本语言。
从一个专业C++程序猿的角度说,网上流传的各种Java爬虫,Python爬虫,Java需要运行于C++开发的虚拟机上,Python只是脚本语言,采集效率和性能如何能与强大的C++相提并论?C++直接控制系统的底层,对内存空间的控制和节省都是其他语言无法竞争的。首先,forespider的开发语言是C++,而且C++几乎没有现成的框架可以用,而火车采集器是用的C#。先从业界水平和良心来说,这个软件可以做到从底层到上层都是他们的技术人员自己写的,而非运用现成的框架结构。
其次,因为抓取金融行业的数据,数据量大,动态性强,而采集对象一般反爬虫策略又很严格。所以,专门建立团队开发不现实。请外包人员开发太贵。买现成的软件,要考虑性价比。因为很多数据需要登录,需要验证码,是JS生成的数据,是ajax,是协议,有加密的key,有层层的验证机制等等,分析市面上所有找得到的爬虫软件,没有找到其他一家可以完全把我们列表上的网站采集下来的软件。forespider功能强大,这是很重要的一点。
第三,forespider在台式机上运行一天可以采400万条数据,在服务器上一天可以采8000万条数据。这样一来,数据更新速度明显比以前快了几十倍。从前抓一个7500万的网站需要好几个月,等抓完数据早都变化的不成样子了,这是很多爬虫的痛处。但是现在的更新速度只有两三天。forespider的性能强大,这也是非常好的一点。
第四,其实完全可视化的采集也不需要计算机专业的。大致学习了之后就可以上手采。而且forespider关于数据的管理做的很好。一是软件可以集成数据库,在采集之前就可以建表。二是数据可以自动排重,对于金融这样数据更新要求很高的行业,就特别合适。
第五,是关于免费的问题,我觉得免费的东西同时还能兼顾好用,只能是中国的盗版软件和手机APP。大概是大家都习惯了在软件上不花钱,所以都想找到免费的。forespider有免费版的,功能倒是不限制,但是采集数目每天有限制。
最好用的免费爬虫工具是什么?
如果说好用的爬虫软件,那确实很多,不过首推造数。
造数云爬虫,界面简洁,操作超级简便免下载。
现在我们有商务定制需求也会找造数的客服解决。效率很高,不错。
爬虫服务器的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于什么是爬虫、爬虫服务器的信息别忘了在本站进行查找哦。