当前位置: 首页 >要闻 > > 正文

【从0开始编写webserver·基础篇#01】为什么需要线程池？写一个线程池吧

2023-05-14 20:35:08 来源：博客园

线程池

参考：

【资料图】
1、游双Linux高性能服务器编程
2、TinyWebServer

注：虽然是"从0开始"，但最好对（多）线程、线程同步等知识点有所了解再看，不然可能有些地方会理解不到位（但也有可能是我没说明到位，水平有限，见谅）

Web服务器与线程池的关系

Web服务器需要同时处理多个客户端请求，并且每个请求可能需要花费很长时间来处理，如数据库查询、文件读写等操作。

因此Web服务器不太可能是单线程的，要实现并发操作就必须引入多线程技术

使用线程池的服务器属于多线程服务器。线程池本质上是一种多线程技术，通过在程序启动时创建一定数量的工作线程，并将所有请求任务加入到任务队列中，以便线程池中的多个工作线程可以同时处理请求任务。

在Web服务器中，线程池的作用是有效地处理并发请求，提高服务器的并发能力和性能。

具体地，Web服务器通过线程池实现以下几个方面的功能：

提高并发性能：线程池可以在同一时刻处理多个请求，从而提高服务器的并发处理能力，减少请求响应时间。控制线程数量：线程池可以控制同时执行的线程数量，从而避免线程数目过多导致系统资源耗尽。管理线程状态：线程池可以对工作线程进行管理，并监测工作线程的状态，如是否空闲、是否存活等。避免线程创建销毁开销：使用线程池可以避免频繁地创建和销毁线程，从而减少系统开销，提高服务器的性能。实现一个线程池

前置知识：互斥锁、信号量、C++模板编程
（注：代码中使用的）

线程池在代码实现上是一个模板类，使用模板的原因是方便进行复用

线程池模板类，主要用于管理多个线程并处理任务。其中包含以下主要成员变量和函数：

成员变量：线程数量（m_thread_number）、最大请求数（m_max_requests）、线程池数组（m_threads）、请求队列（m_workqueue）、互斥锁（m_queuelocker）、信号量（m_queuestat）和是否停止标志（m_stop）。成员函数：构造函数（threadpool()）、析构函数（~threadpool()）、添加任务（append()）、子线程中要执行的工作函数（worker()）和启动线程池中的一个或多个线程进行任务处理的函数（run()）。

下面是该代码的工作流程和原理：

1、创建线程池

创建时，会先判断线程数和最大请求数是否小于等于0。之后，会创建一个大小为 m_thread_number 的线程池数组，并将其设置为线程脱离状态，即在创建完线程之后就可以将其与当前的进程分离，避免线程阻塞主线程和其他相关线程的运行。如果创建时失败，则抛出异常。

2、添加任务

往任务队列中添加请求时，会先加锁（使用互斥锁），以确保多个进程不会争抢。之后，会判断任务队列中的请求数是否超过 m_max_requests，如果队列大小大于最大请求数，则解锁并返回 false。否则，将请求添加到队列中，解锁并增加信号量，通知线程池中的线程，有新任务需要处理。最终返回 true。

3、线程工作函数

当收到信号量后，线程会先上锁（使用互斥锁），以确保多个线程不会同时访问队列。之后，会判断任务队列是否为空。如果队列为空，则解锁并继续等待下一次信号量的到来。否则，取出队列顶部的请求，并将其弹出队列。最后，解锁，并调用任务函数（request->process()）。

4、析构函数

执行析构函数时，将 m_stop 设置为 true，供线程判断是否要停止。

定义线程池类

先来定义一下线程池类

template threadpool {private:    int m_thread_number;//线程数    int m_max_requests;//最大请求数    bool m_stop;//停止符    pthread_t* m_thread;//线程池数组    std::list m_workqueue;//任务队列    locker queuelocker;//互斥锁，locker是对系统提供的mutex方法的封装，位于locker.h中    sem m_queuestat;//信号量private:    static void* worker(void* arg);//工作函数    void run();//线程池的主函数，用于检查任务队列中的请求    public:    threadpool(int m_thread_number = 8, int m_max_requests = 1000);//构造    ~threadpool();//析构    bool append();//将请求加入m_workqueue中   }

其实也没有很复杂，但是有以下几个点需要注意：

1、线程池数组m_thread和任务队列m_workqueue是没有直接联系的

在线程池类初始化时，线程池数组就会根据指定的线程数m_thread_number 来创建对应数量的线程

这些线程会被阻塞（一直调用 run函数检查 m_workqueue 中有无请求），直到 **外部调用线程池对象的代码 **通过调用threadpool类的对象的append()方法 向任务队列中添加新的任务

这时，append()才会定义模板类中声明的任务队列m_workqueue（也就是往队列中push请求任务）

此时，之前被创建的某个线程检查到队列中有任务，于是其获取到了锁

将队列中的请求弹出，调用对应的任务函数进行处理

综上，虽然线程池数组和任务队列没有直接联系，但是他们具有协作关系，实现服务器对于请求的监听和处理操作

2、工作函数为什么要定义为静态的，并且其返回值为什么是void*？

在C语言中，函数的返回值只能是一个类型。但是有些时候，我们需要从一个函数中返回多个值或者不同类型的值。

在这种情况下，我们可以使用指针或者void指针来达到这个目的。

在这里，worker被定义为static void*，其中void*表示一个指向内存地址的指针，但是它没有指定具体的数据类型。

这意味着worker函数可以返回任何类型的指针，这使得worker函数具有更大的灵活性，并且可以处理各种不同类型的数据。

同时，通过将worker函数声明为static，它只能在当前文件中使用，可以避免与其他文件中的函数名称重复的问题。

好了，线程池模板类定义完了，现在需要在类外分别实现各个成员函数

按顺序来：构造函数->析构函数->...

实现线程池构造函数

构造函数负责根据给定的thread_number来创建线程

首先，我们需要判断所给的参数范围是否合法

然后创建线程池数组，大小为thread_number，最后调用pthread_create函数创建线程，使用pthread_detach函数将线程设置为脱离状态

template //通过参数列表进行初始化threadpool::threadpool(int thread_number, int max_requests):m_thread_number(thread_number),m_max_requests(max_requests),    m_stop(false), m_threads(NULL){    //异常判断，线程数和最大请求数小于0，报错        if((thread_number <= 0) || (max_requests <= 0)){            throw std:: exception();        }        m_threads = new pthread_t[m_thread_number];//创建线程池数组        if(!m_threads){            throw std:: exception();        }        for(int i = 0; i < thread_number; ++i){            printf("创建第 %d 个线程\n", i);            if(pthread_create(m_threads + i, NULL, worker, this) != 0){                delete[] m_threads;                throw std::exception();//创建失败            }            if(pthread_detach(m_threads[i])){//在调用pthread_detach()函数之后，线程将进入“分离”状态，这意味着它不能再被其他线程或主线程等待和加入。            }        }     }

从构造函数可知，线程是在线程池创建时就被创建的，并且数量是固定的

有以下注意点：

1、pthread_create函数的传入参数

pthread_create()函数需要四个输入参数，分别是：

1.线程标识符指针（pthread_t *），用于存储新创建线程的标识符；

2.线程属性指针（const pthread_attr_t *），用于设置新线程的属性。如果不需要设置，则可以将该参数设置为NULL；

3.指向函数的指针（void (start_routine) (void *)），用于作为新线程的入口点。新线程开始执行时会从该函数开始执行；

4.传递给新线程入口点函数的参数指针（void *），该参数可以是任意类型的指针，它会被传递给新线程入口点函数。

在本代码中，pthread_create()函数的第一个参数是一个pthread_t类型的指针，该指针用于存储新创建线程的标识符。

第二个参数设置为NULL，因为我们不需要设置新线程的属性。

第三个参数是一个指向worker函数的指针，作为新线程的入口点。

最后一个参数是一个指向当前threadpool对象的指针，它被传递给worker函数作为参数，让worker函数能够访问到threadpool对象的所有

成员。

m_threads + i表示将 m_threads指针向后偏移 i 个 pthread_t类型的长度，即指向线程池中第i个工作线程的标识符。

m_threads 是一个指向pthread_t类型的数组，当使用 m_threads[i] 时，实际上是对m_threads数组中第i个元素进行访问。

因此，m_threads + i表示对 m_threads数组进行偏移，使其指向第i个元素的地址。

在pthread_create()函数中，需要传递一个指向线程标识符的指针作为参数，来保存新建线程的标识符。

因此，可以使用 m_threads + i作为该参数，表示将指向第i个工作线程的标识符的地址传递给pthread_create()函数。

worker是一个静态成员函数，它作为线程执行的入口点，用于处理任务队列中的请求。

this指针是一个指向当前threadpool对象的指针，它被传递给worker函数作为参数。

由于worker函数是静态的，因此无法访问threadpool对象的非静态成员。

（为了防止重名所以设为静态）

因此，需要将threadpool对象的指针作为参数传递给worker函数，以便让worker函数能够访问threadpool对象的所有成员。

在pthread_create()函数中，需要将worker函数的指针作为参数传递，而this指针则用于向worker函数传递threadpool对象的指针。

通过这种方式，就可以让worker函数访问到threadpool对象的所有成员变量和成员函数。

析构函数

主要作用就是停止线程池。删除线程池数组，并回收资源

//实现析构函数  templatethreadpool::~threadpool(){    delete[] m_threads;//用完之后就把线程池数组删除    m_stop = true;//执行析构函数时将其置为true，供线程判断是否要停止}

实现工作函数worker

从上面的分析可知，worker函数会在线程池初始化时被构造函数调用

templatevoid* threadpool::worker(void* arg){    threadpool* pool = (threadpool* )arg;    pool->run();    return pool;}

该函数主要做的事情就是就是接收一个线程池对象

具体来说， worker函数从 pthread_create()函数中得到了一个void类型的指针作为输入参数。

这个指针可以通过 pthread_create() 的最后一个参数（也就是 this ）进行传递，即线程创建时调用的arg参数。

什么意思呢？

我们要调用pthread_create()函数创建一个线程，此时我们需要提供线程的存储位置、线程属性参数、新线程的入口函数以及该入口函数所需的参数的指针

在创建线程时，需要传入一个入口函数的指针，用于告诉操作系统新线程应该从哪里开始执行程序代码。在这里，我们将worker函数作为入口函数，以便启动一个新线程，并且让该线程执行线程池的工作函数run()。

也就是说，我们在实例化一个线程池类的时候（假设为A），同时也把一个指向A的指针作为参数传给了worker函数（通过pthread_create()函数），worker函数再调用A中的成员函数run（）用于处理任务

由于run()函数被定义为非静态成员函数，无法直接作为入口函数使用，因此我们选择了worker函数作为入口函数，并在其中调用run()函数。在C++中，可以将任何函数作为新线程的入口函数，只要它符合线程函数的格式要求（即返回值为void*类型，参数为void*类型）。在实际编程中，通常会选择一个适当的函数作为入口函数，以实现所需的功能。

实现任务处理函数run

新线程以worker函数为入口进行执行后，会通过指针去调用run()函数，通过循环不断检查任务队列来获取任务（如果有的话）

取到任务之后会调用相应的处理函数进行处理（这里是process()，还没定义）

templatevoid threadpool::run(){    while(!m_stop){        //阻塞等待捕获sem信号量        m_queuestat.wait();                //拿到信号量之后上锁        m_queuelocker.lock();                if(m_workqueue.empty()){            m_queuelocker.unlock();//若队列为空就解锁            continue;        }        //取出队列头部的请求        T* request = m_workqueue.front();        m_workqueue.pop_front();        m_queuelocker.unlock();//解锁                if(!request) continue;//没有东西就继续循环        request->process();//有就调用对应的处理函数    }}

这里用到了互斥锁与信号量

上锁是为了保证在多线程的情况下，不会出现资源争夺的情况，保证线程安全

信号量的使用则涉及到了服务器整体的设计结构，后面再说（面试重点）

实现添加任务函数append

到目前为止，一个所谓的"线程池"已经基本完工

这个"池"可以创建一个数组存放创建好的线程对象，并维护一个任务队列，从队列中不断检查是否有新任务（外界对服务器的请求）到来

从代码来看，run函数只有在收到信号量时才会去检查队列

那么是谁负责发送（改变）信号量呢？那肯定是负责将任务加入队列的那个部分，也就是append函数了

templatevoid threadpool::append(T* request){    //触发append就意味着有新请求来了，此时需要有线程来处理，所以为了安全要上锁    m_queuelocker.lock();    //判断当前队列中的任务是否已经达到最大请求上限    if(m_workqeue.size() > m_max_requests){        m_queuelocker.unlock();//是就解锁        return false;//添加失败    }    m_workqueue.push_back(request);//往任务队列添加一个请求    m_queuelocker.unlock();        m_queuestat.post();//修改信号量    return true;    }

在向队列添加任务后，append修改了信号量m_queuestat，使得阻塞在wait()处的run函数开始检查队列，获取刚被加入到队列中的任务

至此，线程池的全部功能实现完毕

完整代码threadpool.h

#ifndef THREADPOOL_H #define THREADPOOL_H#include #include #include #include "locker.h"//线程池类，将其定义为模板类是为了代码的复用//模板参数T就是任务类templateclass threadpool {private:    //线程数量    int m_thread_number;    //线程池数组，大小为m_thread_number    pthread_t * m_threads;//使用pthread_t一是为了性能，二是为了线程安全（相对于vector来说）    //请求队列中最多允许的待处理请求数    int m_max_requests;    //请求队列    std::list m_workqueue;    //互斥锁    locker m_queuelocker;    //信号量，用于判断是否有任务需要处理    sem m_queuestat;    //是否结束线程    bool m_stop;private:    //子线程中要执行的代码    static void* worker(void* arg);    void run();public:    threadpool(int thread_number = 8, int max_request = 10000);    ~threadpool();    bool append(T* request);};//模板外实现线程池构造函数template//参数列表初始化threadpool::threadpool(int thread_number, int max_requests):    m_thread_number(thread_number),m_max_requests(max_requests),    m_stop(false), m_threads(NULL){        //异常判断，线程数和最大请求数小于0，报错        if((thread_number <= 0) || (max_requests <= 0)){            throw std:: exception();        }        m_threads = new pthread_t[m_thread_number];//创建线程池数组        if(!m_threads){            throw std:: exception();        }        //创建thread_number个线程，并将它们设置为线程脱离        //线程脱离指的是在一个多线程程序中，某个线程完成了它原本需要执行的任务之后，        //并不立即结束自己的执行，而是继续保持运行状态，直到其他线程也完成了它们的任务之后才退出。        //这种情况下，该线程被称为“脱离线程”（detached thread）        /*线程脱离通常用于需要长时间运行的后台任务，通过将这些任务单独分配给脱离线程来处理，可以避免阻塞主线程和其他相关线程的运行。*/        for(int i = 0; i < thread_number; ++i){            printf("创建第 %d 个线程\n", i);            //C++里面的woker是静态的，所以要传入this来访问类里变量            /*在C++中，对指针进行加减操作会根据指针类型的大小进行调整。            因此，m_threads + i表示将m_threads指针向后偏移i个pthread_t类型的长度，即指向线程池中第i个工作线程的标识符。            m_threads是一个指向pthread_t类型的数组，当使用m_threads[i]时，实际上是对m_threads数组中第i个元素进行访问。            m_threads + i表示对m_threads数组进行偏移，使其指向第i个元素的地址。            在pthread_create()函数中，需要传递一个指向线程标识符的指针作为参数，来保存新建线程的标识符。            因此，可以使用m_threads + i作为该参数，表示将指向第i个工作线程的标识符的地址传递给pthread_create()函数。*/            if(pthread_create(m_threads + i, NULL, worker, this) != 0){//为了让worker访问非静态成员，传入this                delete[] m_threads;                throw std::exception();//创建失败            }            if(pthread_detach(m_threads[i])){//在调用pthread_detach()函数之后，线程将进入“分离”状态，这意味着它不能再被其他线程或主线程等待和加入。            }        }    }//实现析构函数  templatethreadpool::~threadpool(){    delete[] m_threads;//用完之后就把线程池数组删除    m_stop = true;//执行析构函数时将其置为true，供线程判断是否要停止}//实现appendtemplatebool threadpool::append(T* request){//往队列中添加任务，要保证线程同步    m_queuelocker.lock();//添加互斥锁    if(m_workqueue.size() > m_max_requests){//任务队列大小大于最大请求数        m_queuelocker.unlock();//解锁并报错，此时的任务数已经超出上限        return false;    }    m_workqueue.push_back(request);//往队列中增加一个请求    m_queuelocker.unlock();//解锁    //将请求加入工作队列的操作是需要保证其原子性的，因此需要互斥锁保证多个进程不会争抢    m_queuestat.post();//增加信号量，通知线程池中的线程，有新任务需要处理    return true;    /*当一个新的任务被添加到队列中时，会调用 m_queuestat.post() 增加信号量。    在线程池初始化时，每个工作线程都被创建并阻塞在 m_queuestat.wait() 上等待信号量的触发。    一旦 m_queuestat 的值大于 0，其中的一个线程就会从阻塞状态唤醒并开始处理队列中的请求。*/}template//线程池的工作函数，其中模板参数T未被使用。该函数是作为新线程启动时调用的入口函数void* threadpool::worker(void* arg){    // 传入void 类型指针 arg     /*arg 是在启动线程时传递给该线程函数的参数。    以下代码中，它被转换为 threadpool* 类型，因为它实际上是一个指向 threadpool 结构体的指针。    然后，将这个指针赋值给名为 pool 的变量，以便在该函数中访问和操作 threadpool 结构体的成员。*/    threadpool* pool = (threadpool* ) arg;//在pthread_create中传入worker    pool->run();//启动线程池中的一个或多个线程，并将待处理任务提交给线程池进行处理    return pool;}templatevoid threadpool::run(){    while(!m_stop){        m_queuestat.wait();//等待append函数传过来的信号量，收到表示需要运行线程池，使用其中的线程处理来处理任务        //可能有数据到了，上锁        /*关于为什么这里要上锁：            收到信号量时，任务队列 m_workqueue 可能为空，也可能不为空，这取决于在等待信号量之前是否有新任务被添加到了队列中。            如果没有新任务被添加，那么 m_workqueue 仍然为空。如果有新任务被添加，那么 m_workqueue 将不为空。            需要注意的是，在多线程编程中，一个线程在等待信号量时，另一个线程可能会往任务队列中添加新任务，因此需要通过加锁（比如互斥锁）来保证对任务队列的访问是线程安全的。            这样可以避免出现竞态条件（race condition，也就是线程不同步），从而确保程序的正确性。        */        m_queuelocker.lock();        /*在等待信号量的线程执行之前，如果没有任何其他线程向任务队列中添加新的任务，那么收到信号量时 m_workqueue 可能为空。这种情况可以出现在以下几种情况下：            在初始化程序时，创建了一个空的任务队列并等待信号量，此时 m_workqueue 为空。            所有的任务都已经被处理完毕，并且等待信号量的线程尚未收到新的任务添加进来。            等待信号量的线程刚刚完成了处理该任务队列中的所有任务，然后又立即等待信号量，此时 m_workqueue 为空。        */        if(m_workqueue.empty()){            m_queuelocker.unlock();//解锁            continue;//继续循环，查看队列中是否有数据        }        //取出队列顶部的请求，并将其弹出队列        T* request = m_workqueue.front();        m_workqueue.pop_front();        //取完请求后，解锁        m_queuelocker.unlock();        if(!request){            continue;//没获取到就继续循环        }        //调用任务函数        request->process();    }}#endif

locker.h

#ifndef LOCKER_H //没定义就定义一个LOCKER_H#define LOCKER_H#include //互斥锁相关#include #include //信号量相关//线程头部机制的封装类//互斥锁类class locker{private:    pthread_mutex_t m_mutex;//创建一个互斥锁public:    locker(){//构造函数        if(pthread_mutex_init(&m_mutex, NULL) != 0){//初始化一个互斥锁，默认属性            throw std::exception();//抛出异常        }    }    ~locker(){//析构函数，销毁        pthread_mutex_destroy(&m_mutex);    }        bool lock(){//上锁        return pthread_mutex_lock(&m_mutex) == 0;//判断当前线程是否成功获取到了互斥锁 m_mutex。如果返回值为0，则表示当前线程已经成功获取到了该互斥锁；如果返回值不为0，则表示当前线程未能获取到该互斥锁。    }    bool unlock(){        return pthread_mutex_unlock(&m_mutex) == 0;    }    pthread_mutex_t * get(){//获取互斥量        return &m_mutex;    }};//条件变量类//判断队列中有无数据，没有就让线程停着，有就唤醒线程class cond {private:    pthread_cond_t m_cond;//创建一个条件变量public:    cond(){//构造函数        if (pthread_cond_init(&m_cond, NULL) != 0) {            throw std::exception();        }    }    ~cond() {//析构函数        pthread_cond_destroy(&m_cond);    }        bool wait(pthread_mutex_t *m_mutex) {        int ret = 0;        ret = pthread_cond_wait(&m_cond, m_mutex);        return ret == 0;    }    bool timewait(pthread_mutex_t *m_mutex, struct timespec t) {//超时        int ret = 0;        ret = pthread_cond_timedwait(&m_cond, m_mutex, &t);        return ret == 0;    }    bool signal() {//唤醒一个或多个线程        return pthread_cond_signal(&m_cond) == 0;    }    bool broadcast() {//唤醒所有线程        return pthread_cond_broadcast(&m_cond) == 0;    }};//信号量类class sem{private:    sem_t m_sem;public:    sem(){        if(sem_init(&m_sem, 0, 0) != 0){            throw std:: exception();        }    }    ~sem(){        sem_destroy(&m_sem);    }    //等待信号量    bool wait(){        return sem_wait(&m_sem) == 0;    }    //增加信号量    bool post(){        return sem_post(&m_sem) == 0;    }};#endif

标签：

上一篇:东方9万多亩南繁水稻制种迎来收割季节农户家门口挣钱忙|世界新要闻 下一篇:最后一页

推荐资讯