python多线程(python多线程同步)

编程之家2024-02-23107次浏览

一、python实现多线程的方式

Python实现多线程的方式有以下几种：

1.使用threading模块：Python的内置模块threading提供了一种创建和管理线程的方式。通过创建Thread对象来创建线程，可以使用start()方法启动线程的执行。

2.使用ThreadPoolExecutor类：Python的concurrent.futures模块提供了ThreadPoolExecutor类，它是对线程池的封装。通过创建ThreadPoolExecutor对象，可以使用submit()方法提交任务，并返回一个Future对象。可以使用as_completed()方法获取已完成的任务。

3.使用多进程模块multiprocessing：虽然是多进程模块，但multiprocessing也可以用于创建多线程。可以通过创建多个Process对象来创建线程，使用start()方法启动线程的执行。

4.使用第三方库，如gevent、eventlet等：这些库提供了轻量级的协程实现，可以在单线程内支持多个并发任务。通过使用这些库，可以避免一些多线程编程中的锁和同步问题。

请注意，多线程在Python中有全局解释锁（GIL）的限制，即同一时刻只能有一个线程执行Python字节码。因此，多线程在CPU密集型任务上并不能真正实现并行加速，但对于I/O密集型任务仍然是有效的。如果需要执行CPU密集型任务的并行计算，可以考虑使用多进程的方式。

二、Python多进程和多线程是鸡肋嘛

GIL的存在一直是富有争议的，它导致Python程序无法真正利用现代操作系统的多进程特性。需要注意的是，对于I/O图形处理、NumPy数学计算这样的耗时操作都发生在GIL之外，实际上基本不受影响，真正受影响的都是Python字节码的执行，GIL会导致性能瓶颈的出现。总之，只有在使用纯Python做CPU密集的多线程运算时GIL会是问题。GIL是什么

Python的代码执行由Python虚拟机（也叫解释器主循环，CPython版本）来控制，Python在设计之初就考虑到在解释器的主循环中，同时只有一个线程在运行。即每个CPU在任意时刻只有一个线程在解释器中运行。对Python虚拟机访问的控制由全局解释锁GIL控制，正是这个锁来控制同一时刻只有一个线程能够运行。——在单核CPU下的多线程其实都只是并发，不是并行。

并发与并行区别

并发：两个或多个事件在同一时间间隔发生，或者说交替做不同事件的能力，或者说不同的代码块交替执行。并行：两个或者多个事件在同一时刻发生，或者说同时做不同事件的能力，或者说不同的代码块同时执行。

并发和并行的意义

并发和并行都可以处理“多任务”，二者的主要区别在于是否是“同时进行”多个的任务。但是涉及到任务分解（有先后依赖耦合度高的任务无法做到并行）、任务运行（可能要考虑互斥、锁、共享等）、结果合并。

Python下的多线程

在Python多线程下，每个线程的执行方式，如下：

获取GIL切换到这个线程去执行运行代码，这里有两种机制：指定数量的字节码指令（100个）固定时间15ms线程主动让出控制把线程设置为睡眠状态释放GIL再次重复以上步骤

在Python2中，在解释器解释执行任何Python代码时，都需要先获得这把锁才行（同一时间只会有一个获得了GIL的线程在跑，其它的线程都处于等待状态等着GIL的释放），在遇到I/O操作时会释放这把锁。如果是纯计算的程序，没有I/O操作，解释器会每隔100次操作就释放这把锁，让别的线程有机会执行（这个次数可以通过sys.setcheckinterval来调整）也正是这种设定，是的多线程的CPU密集型计算非常鸡肋，下面会讲到为何如此。

而在python3中，GIL不使用ticks计数(100次，释放GIL)，改为使用计时器（执行时间达到15ms阈值后，当前线程释放GIL），使得执行计算的次数更多，释放次数减少，这样对CPU密集型程序更加友好，但依然没有解决GIL导致的同一时间只能执行一个线程的问题，所以效率依然不尽如人意。

那么是不是Python的多线程是鸡肋嘛？

CPU密集型(各种循环处理、计数等等)，在这种情况下，ticks计数很快就会达到阈值，然后触发GIL的释放与再竞争（多个线程来回切换是需要消耗资源的），所以python下的多线程对CPU密集型代码并不友好，会触发相当频繁的线程切换。

IO密集型(文件处理、网络爬虫等)，多线程能够有效提升效率(单线程下有IO操作会进行IO等待，造成不必要的时间浪费，而开启多线程能在线程A等待时，自动切换到线程B，可以不浪费CPU的资源，从而能提升程序执行效率，一个线程获得GIL发送消息，然后等待返回消息（阻塞），Python此时释放GIL,其他线程得到GIL发送消息，然后同样等待返回消息（阻塞）......，这样保证了IO传输过程时间的合理利用，减少了IO等待造成的资源浪费，提高IO传输效率)。所以python的多线程对IO密集型代码比较友好。

有哪些结论？

I/O密集型使用多线程并发执行提高效率、计算密集型使用多进程（multiprocessing）并行执行提高效率。通常程序既包含IO操作又包含计算操作,那么这种情况下，在开始并发任务之前，可以先进行测试，测试多线程、多进程哪个效率高就是用哪种方式。

请注意：多核多线程比单核多线程更差，多核多进程下，CPU1释放GIL后，其他CPU上的线程都会进行竞争，但GIL可能会马上又被CPU1拿到，CPU2释放GIL后……，导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度状态，这样会造成线程颠簸(thrashing)，导致效率更低。

多线程下的CPU密集型计算也不是无药可医，可以利用ctypes绕过GIL，ctypes可以使py直接调用任意的C动态库的导出函数。所要做的只是把关键部分用C/C++写成Python扩展。而且，ctypes会在调用C函数前释放GIL。

同时，可以了解下协程，又称微线程。

协程最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换，而是由程序自身控制，因此，没有线程切换的开销，和多线程比，线程数量越多，协程的性能优势就越明显。

第二大优势就是不需要多线程的锁机制，因为只有一个线程，也不存在同时写变量冲突，在协程中控制共享资源不加锁，只需要判断状态就好了，所以执行效率比多线程高很多。

因为协程是一个线程执行，那怎么利用多核CPU呢？最简单的方法是多进程+协程，既充分利用多核，又充分发挥协程的高效率，可获得极高的性能。

三、python多线程访问数据库，应该怎么使用

连接对象可以是同一个，指针不能是同一个。

假设conn是你的连接对象每个线程使用cur=conn.cursor()来获得指针。如果有锁操作的话，有可能产生等待。这个是数据库级别要处理的问题。看你具体业务吧，比如你需要原子操作，连续写，中间不能断的，那你得注意使用事务，或者自己在写的时候锁表。这些问题自己搭一个环境一测便知。

卡刷，卡刷跟线刷的区别贫道(贫僧和贫道的区别)