python如何写api接口?api接口怎么自己写
大家好,关于python如何写api接口很多朋友都还不太明白,今天小编就来为大家分享关于api接口怎么自己写的知识,希望对各位有所帮助!
如何使用python开发一个api
去年春节期间,没事报了一个pythonweb开发的网络课程,根据自己的学习情况来回答一下。一个页面的开发,应该是分前端和后端的。关于后端在python中有两个最常见的开发框架:Django,flask。Django大而全,什么功能模块都已经封装好了,调用即可;flask小而精,没有很高的封装,但是有许多功能模块,需要我们自己去集成。
当初学习的那个网络课程是用flask框架来做的,上手很简单:当初学习的时候能写一个小的网站,本来想转行做python后端开发的,但是后来还是接着做数据挖掘了,许久不用,倒是有点生疏了。总得来说,有几大模块:路由route()装饰器把一个函数绑定到对应的URL上,Flask的URL规则基于Werkzeug的路由模块。
这个模块背后的思想是基于Apache以及更早的HTTP服务器主张的先例,保证优雅且唯一的URL。模板渲染Jinja2用Python生成HTML十分无趣,而且相当繁琐,因为你必须手动对HTML做转义来保证应用的安全。为此,Flask配备了Jinja2模板引擎。
当然你也可以使用其他的模板引擎,但是建议你还是使用jinja2模板请求对象request你可以使用全局request对象访问进入的请求数据。Flask处理进入的请求数据并允许你用这个全局对象访问它。如果你工作在多线程环境,Flask内部保证你总会在当前线程上获取正确的数据。
数据库交互-Flask-SQLAlchemy通过sqlalchemy对数据库增删改查,使用的是orm模式,不需要写SQL语句。在数据库中,一个表就是一个python类,一个类的实例就是表中的行。在开发过程中,会用到一些python的高级应用:装饰器:在权限验证的时候很需要用到模块的导入:防止循环导入图像处理:验证码生成property使用:密码加密时使用关于前端如果对前端不熟,想做一个小网站练练手,推荐你使用Bootstrap里面有各种的CSS样式,各种组件,JS插件,还有一些网站实例供你参考,对前端HTML,CSS不是很熟悉的,可以通过这略微修改快速搭建一个前端页面。
后记:将来的数据挖掘工作者可能也需要懂网站后端开发,因为以后建模不会一直都是在单机中,可能会集成到网站中,实时数据流入模型,结果展示在网站上。
Python爬虫如何写
先检查是否有API
API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用API接口的访问则处于网站的控制中,网站可以用来收费,可以用来限制访问上限等。整体来看,如果数据采集的需求并不是很独特,那么有API则应优先采用调用API的方式。
数据结构分析和数据存储
爬虫需求要十分清晰,具体表现为需要哪些字段,这些字段可以是网页上现有的,也可以是根据网页上现有的字段进一步计算的,这些字段如何构建表,多张表如何连接等。值得一提的是,确定字段环节,不要只看少量的网页,因为单个网页可以缺少别的同类网页的字段,这既有可能是由于网站的问题,也可能是用户行为的差异,只有多观察一些网页才能综合抽象出具有普适性的关键字段——这并不是几分钟看几个网页就可以决定的简单事情,如果遇上了那种臃肿、混乱的网站,可能坑非常多。
对于大规模爬虫,除了本身要采集的数据外,其他重要的中间数据(比如页面Id或者url)也建议存储下来,这样可以不必每次重新爬取id。
数据库并没有固定的选择,本质仍是将Python里的数据写到库里,可以选择关系型数据库MySQL等,也可以选择非关系型数据库MongoDB等;对于普通的结构化数据一般存在关系型数据库即可。sqlalchemy是一个成熟好用的数据库连接框架,其引擎可与Pandas配套使用,把数据处理和数据存储连接起来,一气呵成。
数据流分析
对于要批量爬取的网页,往上一层,看它的入口在哪里;这个是根据采集范围来确定入口,比如若只想爬一个地区的数据,那从该地区的主页切入即可;但若想爬全国数据,则应更往上一层,从全国的入口切入。一般的网站网页都以树状结构为主,找到切入点作为根节点一层层往里进入即可。
值得注意的一点是,一般网站都不会直接把全量的数据做成列表给你一页页往下翻直到遍历完数据,比如链家上面很清楚地写着有24587套二手房,但是它只给100页,每页30个,如果直接这么切入只能访问3000个,远远低于真实数据量;因此先切片,再整合的数据思维可以获得更大的数据量。显然100页是系统设定,只要超过300个就只显示100页,因此可以通过其他的筛选条件不断细分,只到筛选结果小于等于300页就表示该条件下没有缺漏;最后把各种条件下的筛选结果集合在一起,就能够尽可能地还原真实数据量。
明确了大规模爬虫的数据流动机制,下一步就是针对单个网页进行解析,然后把这个模式复制到整体。对于单个网页,采用抓包工具可以查看它的请求方式,是get还是post,有没有提交表单,欲采集的数据是写入源代码里还是通过AJAX调用JSON数据。
同样的道理,不能只看一个页面,要观察多个页面,因为批量爬虫要弄清这些大量页面url以及参数的规律,以便可以自动构造;有的网站的url以及关键参数是加密的,这样就悲剧了,不能靠着明显的逻辑直接构造,这种情况下要批量爬虫,要么找到它加密的js代码,在爬虫代码上加入从明文到密码的加密过程;要么采用下文所述的模拟浏览器的方式。
数据采集
之前用R做爬虫,不要笑,R的确可以做爬虫工作;但在爬虫方面,Python显然优势更明显,受众更广,这得益于其成熟的爬虫框架,以及其他的在计算机系统上更好的性能。scrapy是一个成熟的爬虫框架,直接往里套用就好,比较适合新手学习;requests是一个比原生的urllib包更简洁强大的包,适合作定制化的爬虫功能。requests主要提供一个基本访问功能,把网页的源代码给download下来。一般而言,只要加上跟浏览器同样的Requests Headers参数,就可以正常访问,status_code为200,并成功得到网页源代码;但是也有某些反爬虫较为严格的网站,这么直接访问会被禁止;或者说status为200也不会返回正常的网页源码,而是要求写验证码的js脚本等。
下载到了源码之后,如果数据就在源码中,这种情况是最简单的,这就表示已经成功获取到了数据,剩下的无非就是数据提取、清洗、入库。但若网页上有,然而源代码里没有的,就表示数据写在其他地方,一般而言是通过AJAX异步加载JSON数据,从XHR中找即可找到;如果这样还找不到,那就需要去解析js脚本了。
解析工具
源码下载后,就是解析数据了,常用的有两种方法,一种是用BeautifulSoup对树状HTML进行解析,另一种是通过正则表达式从文本中抽取数据。
BeautifulSoup比较简单,支持Xpath和CSSSelector两种途径,而且像Chrome这类浏览器一般都已经把各个结点的Xpath或者CSSSelector标记好了,直接复制即可。以CSSSelector为例,可以选择tag、id、class等多种方式进行定位选择,如果有id建议选id,因为根据HTML语法,一个id只能绑定一个标签。
正则表达式很强大,但构造起来有点复杂,需要专门去学习。因为下载下来的源码格式就是字符串,所以正则表达式可以大显身手,而且处理速度很快。
对于HTML结构固定,即同样的字段处tag、id和class名称都相同,采用BeautifulSoup解析是一种简单高效的方案,但有的网站混乱,同样的数据在不同页面间HTML结构不同,这种情况下BeautifulSoup就不太好使;如果数据本身格式固定,则用正则表达式更方便。比如以下的例子,这两个都是深圳地区某个地方的经度,但一个页面的class是long,一个页面的class是longitude,根据class来选择就没办法同时满足2个,但只要注意到深圳地区的经度都是介于113到114之间的浮点数,就可以通过正则表达式"11[3-4].\d+"来使两个都满足。
数据整理
一般而言,爬下来的原始数据都不是清洁的,所以在入库前要先整理;由于大部分都是字符串,所以主要也就是字符串的处理方式了。
字符串自带的方法可以满足大部分简单的处理需求,比如strip可以去掉首尾不需要的字符或者换行符等,replace可以将指定部分替换成需要的部分,split可以在指定部分分割然后截取一部分。
如果字符串处理的需求太复杂以致常规的字符串处理方法不好解决,那就要请出正则表达式这个大杀器。
Pandas是Python中常用的数据处理模块,虽然作为一个从R转过来的人一直觉得这个模仿R的包实在是太难用了。Pandas不仅可以进行向量化处理、筛选、分组、计算,还能够整合成DataFrame,将采集的数据整合成一张表,呈现最终的存储效果。
写入数据库
如果只是中小规模的爬虫,可以把最后的爬虫结果汇合成一张表,最后导出成一张表格以便后续使用;但对于表数量多、单张表容量大的大规模爬虫,再导出成一堆零散的表就不合适了,肯定还是要放在数据库中,既方便存储,也方便进一步整理。
写入数据库有两种方法,一种是通过Pandas的DataFrame自带的to_sql方法,好处是自动建表,对于对表结构没有严格要求的情况下可以采用这种方式,不过值得一提的是,如果是多行的DataFrame可以直接插入不加索引,但若只有一行就要加索引否则报错,虽然这个认为不太合理;另一种是利用数据库引擎来执行SQL语句,这种情况下要先自己建表,虽然多了一步,但是表结构完全是自己控制之下。Pandas与SQL都可以用来建表、整理数据,结合起来使用效率更高。
python怎么做接口测试工具
之前使用过urllib和urllib2做接口测试,在做的途中,感觉使用urllib2直接进行的get,post请求并没有那么好用。作为测试人员,所需要的测试工具应当以方便为第一要务,测试的耗时只要是真正的无人值守,耗时不是太久的都可以接受。所以,本人又尝试了一个新的包:requests。
Requests是用Python语言编写,基于 urllib,采用 Apache2 Licensed开源协议的 HTTP库。它比 urllib更加方便,可以节约我们大量的工作,完全满足 HTTP测试需求。Requests的哲学是以 PEP 20的习语为中心开发的,所以它比 urllib更加 Pythoner。更重要的一点是它支持 Python3!推荐一篇文章,上面有该包的详细说明传送门,以下只会写到我用到的部分,所以更多的了解需要自己去搜资料
好了,我们开始吧!!
接口测试中重要的部分:
1.get和post方法
2.用到的参数
3.请求头
4.cookie
5.日志输出
6.如何调试你的程序--借助fiddler
按照以上的顺序,我将一一说明我的搞法,因为编码能力有限,所以可能看着很low
一、get和post
requests包很好的实现了post和get方法,示例:
1 import requests2 response_get= requests.get(url, data, headers, cookies)3 response_post= requests.post(url, data, headers, cookies)
其他的访问方式如put,head等等,用法几乎都是如此,因为没用到,所以省略
现在一般的接口返回值有页面和json俩种,按照需求,可以分别使用response.text或者response.content获取,text获取的是unicode类型的返回值,而content返回值是str类型,所以我一般使用content来获取返回值,因为这样获取的返回值可以直接使用正则或者in的方式来验证返回值结果是否正确。
我自己为了实现接口的自动访问,所以又在requests上面加了一层封装,就像下面这样:
1 def main_get(list_result, cookies): 2""" 3用于模拟get请求,返回结果 4:param list_result:空列表,用于存储结果 5:param cookies:登陆后的cookie 6:return:访问结果 7""" 8# List_interface_get写在接口文件里,文件是py格式,然而它本身是字典类型 9 for key in List_interface_get:10 try:11 f1= requests.get(key, cookies=cookies)12 if f1:13 print f1.content14 print List_interface_get[key]+'接口访问成功'15 split_line()16 list_result.append(f1.content+'||'+key)17# print f1.read()18 except AssertionError:19 print'One Error in get'20 pass21 return list_result22 23 24 def main_post(result_list, url_list, param_list, payload_list, note_list, cookies):25"""26模拟post请求27:param result_list:结果字典28:param url_list:接口字典29:param param_list:入参字典30:param payload_list: header字典31:param notelist:描述字典32:param cookies:登录获取的cookie33:return:填充完成的结果列表34"""35 36# post这块写的比较low,最好自己搞一个数据结构把它搞定37 for key in range(1, 9):38 a= requests.post(url=url_list[key], data=param_list[key], headers=payload_list[key], cookies=cookies)39 try:40 if a.content:41 print a.content42 print note_list[key]+'接口访问成功'43 split_line()44 result_list.append(a.content+'||'+url_list[key])45 except AssertionError:46 print'One Error in post'47 pass48 return result_list
二、用到的参数以及请求头
我用的方法是把这些都存放于一个py文件中,当然也可以使用excel或者xml文件,甚至于使用DB。项目紧急,凑合了一下,这里的数据结构主要为了符合上面封装的函数,直接上代码看吧
1 BaseURL='https://******.com'#测试环境 2#使用什么数据结构不重要,关键看实现方法中怎么解析你的测试数据 3 List_interface_get={ 4 BaseURL+'/api/****/****/****?****=1&****=375':'描述' 5} 6#以下是用于post的接口 7 List_interface_post={ 8 1: BaseURL+'/api/****/****/****/****' 9}10#以下是用于post的数据11 List_post_param={12 1:'new=222222&old=111111'13}14#以下是post接口的描述,它是干嘛的15 List_post_note={16 1:'修改密码'17}18#以下是post用到的请求头19 List_post_header={20 1:{'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8'}21}
三、cookie
一款产品的接口测试中必定会使用登录状态,需要使用cookie实现,之前写过使用cookiejar获取cookie,requests中获取cookie的方法更为简单,不过首先你得知道是哪个接口set了cookie,不过一般是登录啦。登录接口访问之后set了cookie,那好,就去调用登录接口,然后拿到搞回来的cookie:
#只需要这样!!login= requests.post(login_url, data=login_data, headers=login_header)
cookie= login.cookies
这个cookie就是登录状态了,拿着随便用,需要登录的就直接cookies=cookies
四、日志输出
这里注意看第二步中接口数据,有接口描述,也有接口是啥,第一步中又把content做成返回值了,具体拼接方式自己想吧,东西全有了,想写啥写啥,还可以加上获取本地时间的api获取接口运行时间,log文件该长啥样是门学问,这里就不献丑了。
五、借用fiddler调试你的脚本
requests允许使用代理访问,这有啥用,真有!fiddler是一款截包改包的工具,而且通过扩展可以进行请求间的比对,这样让你的程序访问的请求和真正正确的请求作对比,为啥我的程序访问出错?是不是缺了请求头?参数是不是丢了?cookie是不是少了?很容易看出来。写法如下:
proxies={"http":"","https":""}
requests.post(url, proxies=proxies)
这样就可以走代理了,除fiddler以外还有charles和burp suite可以使用,具体看个人喜好吧。
python如何写api接口的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于api接口怎么自己写、python如何写api接口的信息别忘了在本站进行查找哦。