Linux epoll 的实现原理

Zhewen Cao

Jul 23, 2022 — 3 min read

epoll是Linux内核中用于实现高效I/O多路复用的机制，它在Linux 2.6版本中引入，相比于早期的select和poll，epoll提供了更高的性能和更强大的功能。下面是epoll的实现原理概述：

数据结构
epoll的核心数据结构是epoll_file_table，早期实现是一个链表，后优化为就绪队列&红黑树，用于保存所有被epoll实例跟踪的文件描述符的引用。每个文件描述符引用一个epoll_file结构，该结构包含指向实际文件描述符的指针，以及一个epoll_event数组，用于存储对该文件描述符感兴趣的事件。
epoll_ctl操作
epoll_ctl系统调用用于添加、修改或删除对文件描述符的跟踪。当使用EPOLL_CTL_ADD或EPOLL_CTL_MOD向epoll实例添加或修改文件描述符时，内核会将文件描述符和其感兴趣的事件类型（如EPOLLIN、EPOLLOUT等）添加到epoll_file_table中。
epoll_wait操作
epoll_wait系统调用用于等待并返回就绪的文件描述符。当调用epoll_wait时，内核会遍历epoll_file_table中的就绪队列，看是否有感兴趣的事件发生。如果有事件发生，内核会将事件添加到一个临时的事件列表中。
事件检测
事件检测是epoll的核心功能。epoll使用文件描述符的底层文件操作（如read、write）的回调机制来检测事件。当一个文件描述符的事件发生时，内核会调用相应的回调函数，将事件记录在epoll的事件列表中。这样，epoll_wait就可以立即返回就绪的文件描述符，而无需轮询。
边缘触发（Edge Triggered，ET）与电平触发（Level Triggered，LT）
epoll支持两种事件触发模式：ET模式和LT模式。在ET模式下，当事件首次发生时，epoll_wait会返回该事件，但在事件状态持续期间，即使事件仍处于活动状态，epoll_wait也不会再次返回该事件，直到事件状态再次改变。而在LT模式下，只要事件状态满足，epoll_wait会持续返回该事件，直到状态不再满足。
高效性
epoll的高效性主要来源于以下几点：

事件驱动：epoll使用事件驱动的机制，只有当事件发生时，才会通知用户空间，这避免了不必要的系统调用和上下文切换。
无复制：与select和poll需要复制事件列表不同，epoll在用户空间和内核空间之间传递的是事件的引用，而非事件本身，这大大减少了数据复制的开销。
可扩展性：epoll没有文件描述符的数量限制，理论上可以支持大量并发连接。

综上所述，epoll通过高效的事件检测和处理机制，以及灵活的事件触发模式，为高性能网络服务器和I/O密集型应用提供了强有力的支持。

Linux epoll 的实现原理

Zhewen Cao

Read more

RocketMQ消息的文件组织形式

记一次消息推送业务的探索

Redis Stream：构建高效、可靠的消息队列新选择

MQTT协议帧结构解析