当前位置：首页 > news >正文

一次降低进程IO延迟的性能优化实践——基于block层bfq调度器

news 2026/2/8 6:45:22

如果有个进程正频繁的读写文件，此时你vim查看一个新文件，将会出现明显卡顿。即便你vim查看的文件只有几十M，也可能会出现卡顿。相对的，线上经常遇到IO敏感进程偶发IO超时问题。这些进程一次读写的文件数据量很少，正常几十ms就能搞定，但是超时一次读写文件竟耗时几百ms！为什么会这样？出问题的时间点IO流量很大，磁盘IO使用率util接近100%，磁盘IO带宽占满了，IO压力太大。

原来IO敏感进程是受其他进程频繁读写文件影响导致的IO超时，怎么解决这个问题呢？磁盘选用nvme，进程的IO优先级iorenice设置实时优先级，可以一定程度缓解磁盘IO压力大场景IO敏感进程的IO超时问题，但是还是有问题！很好复现，磁盘nvme、IO调度算法bfq、启动fio压测(10个线程，128k随机写)，cat读取200M大小的文件(cat进程的IO优先级设置为实时)，耗时竟然会达到800ms多，而在IO空闲时只耗时200ms左右！

为什么会这样？如果你用iostat看下fio压测时的io wait(平均IO延迟)数据，发现打印的io wait 达到50ms是家常便饭。而我用systemtap抓取一下nvme盘此时DC耗时(IO请求在磁盘驱动层花费的时间)大于100ms的IO请求，竟然是会频繁打印，说明fio压测时有很多IO请求在nvme磁盘驱动的耗时都很大。调试显示，nvme磁盘驱动队列深度是1024，就是说驱动队列最多可以容纳1024个IO请求，一个128K大小的IO请求传输完成耗时50us，这1024个IO请求传输完成需耗时1024*50us=50ms。fio压测时大部分时间nvme磁盘驱动队列都是占满的，此时cat读取文件，cat进程发送的每个IO请求，大概率都排在nvme磁盘驱动队列尾，都要等队列前边fio进程的IO请求传输完成。如此，cat进程有很多IO请求在磁盘驱动层的耗时都达到50ms左右，那怪不得fio压测时cat读取文件慢了很多。

能否改善这种情况呢？磁盘nvme、IO优先级设置为实时也没用！能否在cat读取文件过程，控制nvme磁盘驱动队列的IO请求数，不要占满，比如nvme磁盘驱动队列的IO请求数控制在100。这样fio压测时，因为nvme磁盘驱动队列的IO请求数不超过100，此时cat读取文件时，cat进程的IO请求即便不幸插入到nvme磁盘驱动队列尾，这个IO请求传输完成最大耗时也只有100*50us=5ms。如果能达到这种效果，IO压力大时IO敏感进程IO超时问题就能得到明显改善了。

按照这个思路目前已经实现了预期效果，本文主要介绍设计思路。这个设计思路是在bfq算法基础上实现的，核心思想是控制派发给nvme磁盘驱动的IO请求数，不超过某个阀值。思路很简单，但是开发过程遇到的问题是个血泪史！本文基于centos 8.3，内核版本4.18.0-240.el8，探索下bfq算法，详细源码注释见 https://github.com/dongzhiyan-stack/linux-4.18.0-240.el8。

注意，本文将IO请求简称rq或者req。另外本文的测试环境是centos 8.3虚拟机。阅读本文前，希望读者先看看我写的《linux内核block层Multi queue多队列核心点分析》。这篇文章是针对block层Multi queue(简称blk-mq) 多队列基础知识点总结。

1：核心优化思路

先看一次普通的读文件触发的IO派发流程：

[ffffb71980cbb6b8] scsi_queue_rq at ffffffffb71d1a51
[ffffb71980cbb708] blk_mq_dispatch_rq_list at ffffffffb7009f4c
[ffffb71980cbb7d8] blk_mq_do_dispatch_sched at ffffffffb700f4ba
[ffffb71980cbb830] __blk_mq_sched_dispatch_requests at ffffffffb700ff99
[ffffb71980cbb890] blk_mq_sched_dispatch_requests at ffffffffb7010020
[ffffb71980cbb8a0] __blk_mq_run_hw_queue at ffffffffb70076a1
[ffffb71980cbb8b8] __blk_mq_delay_run_hw_queue at ffffffffb7007f61
[ffffb71980cbb8e0] blk_mq_sched_insert_requests at ffffffffb7010351
[ffffb71980cbb918] blk_mq_flush_plug_list at ffffffffb700b4d6
[ffffb71980cbb998] blk_flush_plug_list at ffffffffb6fffbe7
[ffffb71980cbb9e8] blk_mq_make_request at ffffffffb700ad38
[ffffb71980cbba78] generic_make_request at ffffffffb6ffe85f
[ffffb71980cbbad0] submit_bio at ffffffffb6ffeadc
[ffffb71980cbbb10] ext4_mpage_readpages at ffffffffc081b9a4 [ext4]
[ffffb71980cbbbf8] read_pages at ffffffffb6e3743b
[ffffb71980cbbc70] __do_page_cache_readahead at ffffffffb6e37721
[ffffb71980cbbd08] ondemand_readahead at ffffffffb6e37939
[ffffb71980cbbd50] generic_file_buffered_read at ffffffffb6e2ce5f
[ffffb71980cbbe40] new_sync_read at ffffffffb6ed8841
[ffffb71980cbbec8] vfs_read at ffffffffb6edb1c1

可以发现，派发IO最后的流程是__blk_mq_sched_dispatch_requests->blk_mq_do_dispatch_sched->blk_mq_dispatch_rq_list，也与本次的性能优化有关。看下blk_mq_do_dispatch_sched函数源码

static int blk_mq_do_dispatch_sched(struct blk_mq_hw_ctx *hctx)
{
struct request_queue *q = hctx->queue;
struct elevator_queue *e = q->elevator;
LIST_HEAD(rq_list);
int ret = 0;
do {
struct request *rq;
//bfq_has_work
if (e->type->ops.has_work && !e->type->ops.has_work(hctx))
break;
if (!list_empty_careful(&hctx->dispatch)) {
ret = -EAGAIN;
break;
}
if (!blk_mq_get_dispatch_budget(hctx))
break;
//调用bfq调度器IO派发函数bfq_dispatch_request
rq = e->type->ops.dispatch_request(hctx);
if (!rq) {
blk_mq_put_dispatch_budget(hctx);
blk_mq_delay_run_hw_queues(q, BLK_MQ_BUDGET_DELAY);
break;
}
list_add(&rq->queuelist, &rq_list);
/*取出rq_list链表上的req派发给磁盘驱动，如果因驱动队列繁忙或者nvme硬件繁忙导致派发失败，则把rq添加hctx->dispatch等稍后派发遇到rq派发失败返回false，退出while循环*/
} while (blk_mq_dispatch_rq_list(q, &rq_list, true));
return ret;
}

该函数作用是：执行bfq_dispatch_request()函数循环从IO调度器队列取出IO请求存入rq_list链表，然后取出rq_list链表上的rq执行blk_mq_dispatch_rq_list()派发给磁盘驱动。blk_mq_dispatch_rq_list()函数如果因驱动队列繁忙或者磁盘硬件繁忙导致派发失败则返回false，此时blk_mq_do_dispatch_sched()函数退出while循环。当然，如果IO调度器队列没IO请求了，bfq_dispatch_request返回NULL，此时blk_mq_do_dispatch_sched()函数也会退出while循环。把blk_mq_dispatch_rq_list源码简单列下：

bool blk_mq_dispatch_rq_list(struct request_queue *q, struct list_head *list,
bool got_budget)
{
struct blk_mq_hw_ctx *hctx;
struct request *rq, *nxt;
bool no_tag = false;
int errors, queued;
blk_status_t ret = BLK_STS_OK;
bool no_budget_avail = false;
................
errors = queued = 0;
do {
struct blk_mq_queue_data bd;
rq = list_first_entry(list, struct request, queuelist);
hctx = rq->mq_hctx;
................
list_del_init(&rq->queuelist);
bd.rq = rq;
if (list_empty(list))
bd.last = true;
else {
nxt = list_first_entry(list, struct request, queuelist);
bd.last = !blk_mq_get_driver_tag(nxt);
}
//把rq派发给驱动
ret = q->mq_ops->queue_rq(hctx, &bd);//scsi_queue_rq 或 nvme_queue_rq
//这个if成立应该说明是驱动队列繁忙或者nvme硬件繁忙，不能再向驱动派发IO，因此本次的rq派发失败
if (ret == BLK_STS_RESOURCE || ret == BLK_STS_DEV_RESOURCE) {
if (!list_empty(list)) {
//把rq在list链表上的下一个req的tag释放了，搞不清楚为什么
nxt = list_first_entry(list, struct request, queuelist);
blk_mq_put_driver_tag(nxt);
}
//把派发失败的rq再添加到list链表
list_add(&rq->queuelist, list);
__blk_mq_requeue_request(rq);
break;
}
...........
//派发rq失败则queued加1
queued++;
//一直派发list链表上的req直到list链表空
} while (!list_empty(list));
hctx->dispatched[queued_to_index(queued)]++;
//如果list链表上还有rq，说明派发rq时遇到驱动队列或者硬件繁忙，rq没有派发成功
if (!list_empty(list)) {
...........
spin_lock(&hctx->lock);
//list上没有派发成功的rq添加到hctx->dispatch链表，稍后延迟派发
list_splice_tail_init(list, &hctx->dispatch);
spin_unlock(&hctx->lock);
......................
blk_mq_update_dispatch_busy(hctx, true);
return false;
} else
blk_mq_update_dispatch_busy(hctx, false);
//派发rq时遇到驱动队列或者硬件繁忙，返回false，否则派发正常下边返回true
if (ret == BLK_STS_RESOURCE || ret == BLK_STS_DEV_RESOURCE)
return false;
return (queued + errors) != 0;
}

该函数只是取出list链表上的rq派发给磁盘驱动，如果因驱动队列繁忙或者磁盘硬件繁忙导致派发失败，则把rq添加hctx->dispatch等稍后派发。本文的IO优化算法是在bfq算法基础上实现的，最好先对bfq算法有个了解，希望重点看下《内核block层IO调度器—bfq算法之1整体流程介绍》、《内核block层IO调度器—bfq算法之3源码要点总结》、《内核block层IO调度器—bfq算法深入探索2》这3篇文章。

bfq算法把进程传输的IO归为3类，in_large_burst型IO、交互式IO、实时性IO。fio这种短时间多个线程派发IO的属于in_large_burst型IO，进程偶尔读写一次文件且数据量不大的属于交互式IO，进程周期性的读写文件且数据量不大的属于实时性IO。这3种IO模型的对IO时延要求依次增加， bfq算法定义了bfqq->wr_coeff变量这个权重系数来表达这种特性，针对这3中IO模型依次是1、30、30* 100。bfqq->wr_coeff越大，派发IO的进程绑定的bfqq插入st->active tree(可以理解成IO运行队列)越靠左，这样可以更早被bfq调度器调度选中，进而更早得到派发该bfqq对应进程的IO，保证了低延迟。

本案例的场景是，在IO压力大时怎么降低IO敏感进程的时延。怎么模拟这种场景呢？fio压测模拟IO压力大，然后cat kern读取文件(kern文件几百M)作为IO敏感进程。在开启fio压测下cat kern读取文件，观察cat kern耗时。在磁盘空闲时，cat kern只耗时不到100ms。在开启fio压测情况，cat kern耗时500ms+。如果我的IO优化方案生效，则需要实现在开启fio压测情况下，cat kern耗时小于500ms，比如200ms、300ms。这是虚拟机里的测试数据，每次不太稳定。

ok，具体代码在何处实现呢？首先是把IO请求插入bfq IO算法队列执行的bfq_insert_request()->__bfq_insert_request()->bfq_add_request()函数，添加如下红色代码：

/*高优先级rq*/
#define RQF_HIGH_PRIO ((__force req_flags_t)(1 << 21))
static void bfq_add_request(struct request *rq)
{
if (!bfq_bfqq_busy(bfqq)){
bfq_bfqq_handle_idle_busy_switch(bfqd, bfqq, old_wr_coeff,rq, &interactive);
}
..............
if(bfqq->wr_coeff == 30){
//设置rq高优先级
rq->rq_flags |= RQF_HIGH_PRIO;
}
}

if(bfqq->wr_coeff == 30)成立说明当前IO传输的进程绑定的bfqq拥有高优先级rq属性，则执行rq->rq_flags |= RQF_HIGH_PRIO对rq设置高优先级rq标志。

这里插一句，本文的测试环境是，在fio压测情况观察cat kern读取文件的耗时。bfq算法中，针对fio这种频繁派发IO的进程，fio进程属于burst型IO，它的进程的bfqq对应的bfqq->wr_coeff大部分情况是1。而针对cat这种偶尔读取一次文件的进程，是交互式IO，该进程的bfqq的bfqq->wr_coeff初值是30。显然，cat kern读取文件过程，cat进程派发的IO大部分拥有高优先级rq属性，这是本文的IO性能优化方案的设计思路。

接着是从bfq IO算法队列派发IO请求执行的blk_mq_dispatch_rq_list()，源码有删减，红色是性能优化添加的代码：

static struct request *__bfq_dispatch_request(struct blk_mq_hw_ctx *hctx)
{
struct bfq_data *bfqd = hctx->queue->elevator->elevator_data;
struct request *rq = NULL;
struct bfq_queue *bfqq = NULL;
int direct_dispatch = 0;
//不经IO算法队列，直接派发的rq
if (!list_empty(&bfqd->dispatch)) {
rq = list_first_entry(&bfqd->dispatch, struct request,queuelist);
list_del_init(&rq->queuelist);
bfqq = RQ_BFQQ(rq);
direct_dispatch = 1;
if (bfqq) {
bfqq->dispatched++;
goto inc_in_driver_start_rq;
}
goto start_rq;
}
.....................
bfqq = bfq_select_queue(bfqd);
if (!bfqq)
goto exit;
rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq);
if (rq) {
if(bfqd->queue->high_io_prio_enable)
{
if(rq->rq_flags & RQF_HIGH_PRIO){//高优先级IO
//第一次遇到high prio io，置1 bfq_high_io_prio_mode，启动3s定时器，定时到了对bfq_high_io_prio_mode清0
if(bfqd->bfq_high_io_prio_mode == 0){
bfqd->bfq_high_io_prio_mode = 1;
hrtimer_start(&bfqd->bfq_high_prio_timer, ms_to_ktime(3000),HRTIMER_MODE_REL);
}
}
else非高优先级IO
{
if(bfqd->bfq_high_io_prio_mode)
{
//在 bfq_high_io_prio_mode 非0时间的5s内，如果遇到非high prio io，并且驱动队列IO个数大于限制，则把不派发该IO，而是临时添加到bfq_high_prio_tmp_list链表
if((bfqd->rq_in_driver >= 20) /*&& (bfqd->bfq_high_prio_tmp_list_rq_count < 100)*/){
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
//bfq_high_prio_tmp_list链表上rq的个数加1
bfqd->bfq_high_prio_tmp_list_rq_count ++;
rq = NULL;
goto exit1;
}
}
}
}
/*如果 bfq_high_prio_tmp_list 链表上有rq要派发，不执行这里的rq_in_driver++，在下边的exit那里会执行。当echo 0 >/sys/block/sdb/process_high_io_prio 置1再置0后，这个if判断就起作用了。没这个判断，这里会bfqd->rq_in_driver++，下边的if里再bfqd->rq_in_driver++，导致rq_in_driver泄漏*/
if((rq->rq_flags & RQF_HIGH_PRIO) || list_empty(&bfqd->bfq_high_prio_tmp_list)){
inc_in_driver_start_rq:
bfqd->rq_in_driver++;
start_rq:
rq->rq_flags |= RQF_STARTED;
}
}
exit:
//1:如果是高优先级IO该if不成立，直接跳过。 2:如果非高优先级IO，则把rq添加到bfq_high_prio_tmp_list尾，从链表头选一个rq派发 3:如果rq是NULL，则也从bfq_high_prio_tmp_list选一个rq派发
if(!direct_dispatch && ((rq && !(rq->rq_flags & RQF_HIGH_PRIO)) || !rq)){
/*如果bfq_high_prio_tmp_list有Io, 则不派发本次的io而添加到bfq_high_prio_tmp_list尾部，实际从bfq_high_prio_tmp_list链表头取出一个IO派发。放到 if(bfqd->queue->high_io_prio_enable)外边是为了保证一旦设置high_io_prio_enable为0，还能派发残留的在bfq_high_prio_tmp_list上的IO*/
if(!list_empty(&bfqd->bfq_high_prio_tmp_list)){
if(rq){
list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list);
bfqd->bfq_high_prio_tmp_list_rq_count ++;
}
rq = list_first_entry(&bfqd->bfq_high_prio_tmp_list, struct request, queuelist);
list_del_init(&rq->queuelist);
//bfq_high_prio_tmp_list链表上rq的个数减1
bfqd->bfq_high_prio_tmp_list_rq_count --;
bfqd->rq_in_driver++;
rq->rq_flags |= RQF_STARTED;
}
}
exit1:
..................
return rq;
}

该函数中，首先执行bfqq = bfq_select_queue(bfqd)算法本次派发rq的bfqq，然后执行rq = bfq_dispatch_rq_from_bfqq(bfqd, bfqq)从bfqq的IO队列取出本次派发的IO请求。后边的就是针对本次性能优化添加的代码。bfqd->queue->high_io_prio_enable是一个使能开关，执行echo 1 >/sys/block/sdb/process_high_io_prio才会打开本文的性能优化功能。继续，如果派发的rq有高优先级属性(即rq->rq_flags & RQF_HIGH_PRIO返回true)，则bfqd->bfq_high_io_prio_mode = 1置1，这是进入派发高优先级IO的开始标志。然后执行hrtimer_start(&bfqd->bfq_high_prio_timer, ms_to_ktime(3000),HRTIMER_MODE_REL)启动3s定时器，3s后在定时器函数里令bfqd->bfq_high_io_prio_mode = 0，这是派发高优先级IO的结束标志。

ok，在第一次遇到派发的rq有高优先级属性后，就会令bfqd->bfq_high_io_prio_mode = 1置1并进入” 派发高优先级IO”的3s时期。这段时间只有rq有高优先级属性才会会作为__bfq_dispatch_request()返回的rq，真正得到机会派发给磁盘驱动。否则，普通的rq就要执行list_add_tail(&rq->queuelist,&bfqd->bfq_high_prio_tmp_list)暂时添加到bfqd->bfq_high_prio_tmp_list链表，延迟派发，当然前提要有bfqd->rq_in_driver >= 20成立，就是说派发给磁盘驱动但还没传输完成的IO数要达到某个阀值(我在虚拟机里测试的sda机械盘磁盘队列深度是32，nvme盘队列深度达到1000多，建议这个阀值达到磁盘队列深度的60%以上)。

为什么要这么设计？其实就是要在派发给磁盘驱动但还没传输完成的IO数达到磁盘队列深度的某个阀值后(之后再派发IO可能就会把磁盘驱动IO队列占满了)，此时正好有进程要派发IO敏感的IO请求(这些IO请求rq标记有RQF_HIGH_PRIO属性)，优先派发IO敏感进程的IO，延迟派发普通进程的IO(就是把这些rq暂时添加到bfqd->bfq_high_prio_tmp_list链表)。等系统空闲后，IO敏感进程的IO都派发完了，再从bfqd->bfq_high_prio_tmp_list链表取出延迟派发的IO而继续派发。

简单说，在普通进程和IO敏感进程同时派发IO时，在普通进程的IO把磁盘驱动IO队列快占满前，限制普通进程向磁盘驱动IO队列派发的IO数，防止把磁盘驱动IO队列占满。此时呢，要优先派发IO敏感进程的IO到磁盘驱动队列的IO。通过这个方法，防止在IO压力很大时影响IO敏感进程派发IO的时延。

2：实现IO性能优化效果的曲折过程

开始测试，虚拟机centos 8.3系统。先执行echo 1 >/sys/block/sdb/process_high_io_prio打开本文的IO性能优化功能。然后启动fio压测，同时time cat kern > /dev/null读取文件并打印耗时(kern文件大小300M)。没想到，竟然一点效果没有！以下是测试数据

1：echo 1 >/sys/block/sdb/process_high_io_prio打开IO性能优化功能，开启fio压测，cat kern耗时500ms左右，偶尔会出现耗时800ms甚至1s
2：echo 0 >/sys/block/sdb/process_high_io_prio关闭IO性能优化功能，开启fio压测，cat kern耗时500ms左右，偶尔会出现耗时800ms甚至1s
3：echo 1 >/sys/block/sdb/process_high_io_prio打开IO性能优化功能，关闭fio压测，cat kern耗时不到100ms

总结下，在磁盘IO空闲时，cat kern耗时不到100ms，而在fio压测情况下，开启和关闭IO性能优化，cat kern耗时没有区别。甚至，多次测试后，发现开启IO性能比关闭IO性能优化，cat kern更耗时。这就说明，本文的IO性能优化方案不仅没起到作用，反而拖了后腿！这就需要找下原因了！

此时，在之前”统计进程派发IO的延迟”功能的帮助下，发现开启IO性能优化功能时，启动fio压测，cat kern读取文件派发IO过程，cat进程的id耗时(IO请求在IO队列的耗时)明显偏大， id耗时(IO请求在磁盘驱动层的耗时)也没有缩短。再进一步排查，发现在fio压测时，当cat进程有IO要派发而插入bfq 的IO算法队列后，cat进程的bfqq竟然经常出现过了10ms+才得到调度机会！就是说，fio压测时，当cat进程要派发IO时，fio一直占着IO派发机会，cat进程推迟10ms+才得到派发IO机会。

怎么解决这个问题？首要目的是降低cat kern进程的延迟！就是要让cat进程的来了IO请求后，尽快得到调度派发。怎么实现，需要增大cat进程的bfqq->wr_coeff，这样cat进程绑定的bfqq插入st->active tree(可以理解成IO运行队列)后才能尽可能早的被IO调度器选中，进而派发cat进程的IO，得到调度延迟的效果。经过繁琐的调试，这样调整优化方案：

在进程bfqq派发派发IO请求过程，因为配额没了而过期失效，然后重新加入st->active tree执行的__bfq_requeue_entity()函数中：

static void __bfq_requeue_entity(struct bfq_entity *entity)
{
struct bfq_sched_data *sd = entity->sched_data;
struct bfq_service_tree *st = bfq_entity_service_tree(entity);
//如果bfqq->wr_coeff是30说明是交互式io，执行到这里说明派发这个进程派发的IO太多了，配合消耗完了还没派发完io。此时说明该进程的bfqq需要提升权重，提高优先级，作为high prio io.
struct bfq_queue *bfqq = bfq_entity_to_bfqq(entity);
if(bfqq && bfqq->bfqd->queue->high_io_prio_enable && bfqq->wr_coeff == 30){
bfqq->wr_coeff = 30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR;
//置1表示权重变了，然后才会在bfq_update_fin_time_enqueue->__bfq_entity_update_weight_prio 里真正提升权重
entity->prio_changed = 1;
//增大权重提升时间为1.5s
bfqq->wr_cur_max_time = msecs_to_jiffies(1500);
//权重提升时间开始时间为当前时间
bfqq->last_wr_start_finish = jiffies;
bfqq->entity.completed_size = 0;
}
.............
if (entity->tree)
bfq_active_extract(st, entity);
bfq_update_fin_time_enqueue(entity, st, false);
}

cat进程最初派发IO时被判定为交互式IO，bfqq->wr_coeff是30。实际测试表明，cat进程因为派发IO很多导致的bfqq第一次过期失效，是配额耗尽而过期失效。此时cat进程的bfqq是要重新插入st->active tree而等待bfq调度器再次被选中派发IO，执行的正是__bfq_requeue_entity()函数！在__bfq_requeue_entity()函数中，发现cat进程bfqq的bfqq->wr_coeff是30，就增大bfqq->wr_coeff为bfqq->wr_coeff = 30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR，BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR是50。

还有一个重点是bfqq->wr_cur_max_time = msecs_to_jiffies(1500)，这是cat进程的bfqq权重系数增大为30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR的时间期限，bfqq->last_wr_start_finish = jiffies是cat进程的bfqq权重系数增大为30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR的起始时间。这样设置过后，从当前时间起的1.5s内，cat进程的bfqq->wr_coeff的都是30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR！这样的效果就是，这段时间cat进程的bfqq插入st->active tree后能尽可能被bfq调度器选中派发IO，大大降低延迟！

在插入IO请求函数bfq_add_request()中，遇到bfqq->wr_coeff是30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR的进程bfqq，才会把该bfqq的IO设置高优先级标志RQF_HIGH_PRIO。这样是为了过滤bfqq->wr_coeff是30的进程的IO，不让这种IO被判定为高优先级IO。

#define BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR 50
static void bfq_add_request(struct request *rq)
{
if (!bfq_bfqq_busy(bfqq)){
bfq_bfqq_handle_idle_busy_switch(bfqd, bfqq, old_wr_coeff,rq, &interactive);
}
.............
if(bfqq->wr_coeff == 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR){
//设置rq高优先级
rq->rq_flags |= RQF_HIGH_PRIO;
}
}

在cat进程因没有IO请求派发而过期失效，加入st->idle tree。然后过了一段时间又来了新的IO请求，此时需要执行bfq_add_request()->bfq_bfqq_handle_idle_busy_switch()激活cat进程的bfqq，把bfqq插入st->active tree。在这个函数中强制cat进程的bfqq->wr_coeff保持30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR，不受bfq_bfqq_handle_idle_busy_switch()原生代码的影响，具体实现看如下红色代码。

static void bfq_bfqq_handle_idle_busy_switch(struct bfq_data *bfqd,
struct bfq_queue *bfqq,
int old_wr_coeff,
struct request *rq,
bool *interactive)
{
//禁止high prio io进程被判定为rt、interactive 、burst 型io，这样下边的bfq_update_bfqq_wr_on_rq_arrival()函数不会修改它的 bfqq->wr_coeff
if(bfqq->wr_coeff == 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR){
*interactive = 0;
wr_or_deserves_wr = 0;
in_burst = 0;
soft_rt = 0;
}
................
bfq_update_bfqq_wr_on_rq_arrival(bfqd, bfqq,
old_wr_coeff,
wr_or_deserves_wr,
*interactive,
in_burst,
soft_rt);
................
}

在cat进程的bfqq被bfq调度器选中派发IO后，每次执行派发IO执行__bfq_dispatch_request()->bfq_dispatch_rq_from_bfqq()->bfq_update_wr_data()过程，都会检查cat进程的bfqq权重提升时间是否到了，到了的话就要令bfqq的权重提升时间结束，令bfqq->wr_coeff重置为1，之后cat进程的bfqq就不再享有低延时派发特性了。在结束进程权重提升bfq_update_wr_data()函数需要添加如下红色代码，否则会导致cat进程的bfqq的bfqq->wr_coeff被设置为30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR后，很短时间就会执行里边的bfq_bfqq_end_wr()令bfqq->wr_coeff重置为1。

static void bfq_update_wr_data(struct bfq_data *bfqd, struct bfq_queue *bfqq)
{
struct bfq_entity *entity = &bfqq->entity;
if (bfqq->wr_coeff > 1) {
...............
if (bfq_bfqq_in_large_burst(bfqq)){
bfq_bfqq_end_wr(bfqq);
}
else if (time_is_before_jiffies(bfqq->last_wr_start_finish +
bfqq->wr_cur_max_time)) {
if (bfqq->wr_cur_max_time != bfqd->bfq_wr_rt_max_time ||
time_is_before_jiffies(bfqq->wr_start_at_switch_to_srt +
bfq_wr_duration(bfqd)))
{
bfq_bfqq_end_wr(bfqq);
}
else {
switch_back_to_interactive_wr(bfqq, bfqd);
bfqq->entity.prio_changed = 1;
}
}
if (bfqq->wr_coeff > 1 &&
bfqq->wr_cur_max_time != bfqd->bfq_wr_rt_max_time &&
bfqq->service_from_wr > max_service_from_wr &&
bfqq->wr_coeff != 30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR)//high prio io进程禁止在这里结束权重提升
{
bfq_bfqq_end_wr(bfqq);
}
}
if ((entity->weight > entity->orig_weight) != (bfqq->wr_coeff > 1)){
__bfq_entity_update_weight_prio(bfq_entity_service_tree(entity),
entity, false);
}
}

在派发IO请求的bfq_dispatch_rq_from_bfqq()函数添加如下代码：

static struct request *bfq_dispatch_rq_from_bfqq(struct bfq_data *bfqd,
struct bfq_queue *bfqq)
{
struct request *rq = bfqq->next_rq;
unsigned long service_to_charge;
service_to_charge = bfq_serv_to_charge(rq, bfqq);
bfq_bfqq_served(bfqq, service_to_charge);
bfq_dispatch_remove(bfqd->queue, rq);
if (bfqq != bfqd->in_service_queue)
goto return_rq;
if(bfqd->queue->high_io_prio_enable){
if(bfqq->wr_coeff == 30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR){
//累加bfqq传输完成的rq的数据量,如果bfqq传输数据量太多而超过限制，强制令进程bfqq不再有high prio io属性
bfqq->entity.completed_size += blk_rq_bytes(rq);
if(bfqq->entity.completed_size > bfqd->high_prio_io_all_size_limit){
bfq_bfqq_end_wr(bfqq);
}
}
}
bfq_update_wr_data(bfqd, bfqq);
...................
}

这是令被判定为高优先级IO的进程派发的数据量超过bfqd->high_prio_io_all_size_limit阀值(200M或者300M)后，就结束该进程的高优先级IO属性，具体是执行bfq_bfqq_end_wr(bfqq)令bfqq->wr_coeff由30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR降低为1，这就是普通IO了。这样做是为了防止fio这种频繁数据传输IO的进程被长时间判定为高优先级IO，因为fio进程最初派发IO时，被判定为交互式IO，fqq->wr_coeff = 30。然后因配额耗尽而执行__bfq_requeue_entity()重新加入st->active tree时，因为bfqq->wr_coeff 是30，则fqq->wr_coeff = 30* BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR。这样fio进程就被判定为高优先级IO了！这个是没办法避免的，但是等fio派发IO的数据量超过bfqd->high_prio_io_all_size_limit，就强制令fio结束高优先级IO属性。

这样终于实现了IO性能优化效果， echo 1 >/sys/block/sdb/process_high_io_prio打开IO性能优化功能，开启fio压测，cat kern耗时只有200ms左右：

1：echo 1 >/sys/block/sdb/process_high_io_prio打开IO性能优化功能，开启fio压测，cat kern耗时200ms左右，偶尔会出现耗时800m，但出现概率低
2：echo 1 >/sys/block/sdb/process_high_io_prio关闭IO性能优化功能，开启fio压测，cat kern耗时200ms左右，但设置cat进程的IO调度算法为RT，偶尔会出现耗时800ms，但出现概率更高

可以发现，本文的性能优化效果比设置IO调度算法为RT更优。这说明本文的IO性能优化算法——降低磁盘驱动队列深度而降低IO敏感进程的IO在磁盘驱动的耗时，终于起到了作用！因为这是在虚拟机里做的测试，性能不太稳定。如果在PC本地测试，性能稳定很多，但是测试规律跟上边一致。

3：其他优化方案

如上方案终于实现了预期效果，但是还有还有其他性能优化点。主要是在IO请求插入IO队列的bfq_add_request()函数：

#define BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR 50
static void bfq_add_request(struct request *rq)
{
if (!bfq_bfqq_busy(bfqq)){
bfq_bfqq_handle_idle_busy_switch(bfqd, bfqq, old_wr_coeff,rq, &interactive);
}
..............
//如果同一个线程组的进程近期有in_large_burst属性，禁止它新创建的线程被判定为交互式io
if(bfq_bfqq_in_large_burst(bfqq)){
if(current->tgid != bfqd->large_burst_process_tgid){
bfqd->large_burst_process_tgid = current->tgid;
strncpy(bfqd->large_burst_process_name,current->comm,COMM_LEN-1);
bfqd->large_burst_process_count = 0;
}else{
bfqd->large_burst_process_count ++;
}
}
if(bfqq->wr_coeff == 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR){
//设置rq高优先级
rq->rq_flags |= RQF_HIGH_PRIO;
}
}

把IO请求插入IO队列，把进程bfqq激活插入st->active tree执行的bfq_bfqq_handle_idle_busy_switch()函数中，添加如下代码：

static void bfq_bfqq_handle_idle_busy_switch(struct bfq_data *bfqd,
struct bfq_queue *bfqq,
int old_wr_coeff,
struct request *rq,
bool *interactive)
{
bool soft_rt, in_burst, wr_or_deserves_wr,
bfqq_wants_to_preempt,
idle_for_long_time = bfq_bfqq_idle_for_long_time(bfqd, bfqq),
...................
in_burst = bfq_bfqq_in_large_burst(bfqq);
soft_rt = bfqd->bfq_wr_max_softrt_rate > 0 &&
!BFQQ_TOTALLY_SEEKY(bfqq) &&
!in_burst &&
time_is_before_jiffies(bfqq->soft_rt_next_start) &&
bfqq->dispatched == 0;
*interactive = !in_burst && idle_for_long_time;
//如果同一个线程组的进程近期有in_large_burst属性，禁止它新创建的线程被判定为交互式io
if((bfqd->large_burst_process_count > 1) &&(bfqd->large_burst_process_tgid == current->tgid) && (strncmp(bfqd->large_burst_process_name,current->comm,COMM_LEN-1) == 0)){
*interactive = 0;
soft_rt = 0;
in_burst = 1;
bfq_prevent_high_prio_count++;
}
/*该if成立，说明当前进程最近被判定为high prio io。这样等该进程再进程新的IO传输时，强制令该进程被判定为 high prio io。否则，只能被判断为交互式 io。bfqq->bfqq_list 是NULL说明该进程是新创建的。否则可能该bfqq过期失效而处于st->idle tree，现在又派发rq，此时该if不成立。*/
if((bfqq->wr_coeff == 1) && list_empty(&bfqq->bfqq_list) && (strncmp(bfqd->last_high_prio_io_process,current->comm,COMM_LEN-1)) == 0){
bfqq->wr_coeff = 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR;
}
wr_or_deserves_wr = bfqd->low_latency &&
(bfqq->wr_coeff > 1 ||
(bfq_bfqq_sync(bfqq) &&
bfqq->bic && (*interactive || soft_rt)));
//禁止high prio io进程被判定为rt、interactive 、burst 型io，这样下边的bfq_update_bfqq_wr_on_rq_arrival()函数不会修改它的 bfqq->wr_coeff
if(bfqq->wr_coeff == 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR){
*interactive = 0;
wr_or_deserves_wr = 0;
in_burst = 0;
soft_rt = 0;
//保存最近high prio io进程的名字
strncpy(bfqd->last_high_prio_io_process,current->comm,COMM_LEN-1);
}
................
bfq_update_bfqq_wr_on_rq_arrival(bfqd, bfqq,
old_wr_coeff,
wr_or_deserves_wr,
*interactive,
in_burst,
soft_rt);
................
}

在进程绑定的bfqq初始化函数 bfq_init_bfqq()中，对bfqq->bfqq_list初始化，表示bfqq是新创建的。

static void bfq_init_bfqq(struct bfq_data *bfqd, struct bfq_queue *bfqq,

struct bfq_io_cq *bic, pid_t pid, int is_sync)

{

//bfqq创建时对bfqq->bfqq_list初始化

INIT_LIST_HEAD (&bfqq->bfqq_list);

}

在bfq_add_request()、bfq_bfqq_handle_idle_busy_switch()中添加的代码的代码，主要是两个作用。

1：保存最近被判定被高优先级IO的进程名字(比如cat)到bfqd->last_high_prio_io_process。后续如果再有同样进程名字的进程派发IO，则立即令进程被判定为高优先级IO。这段代码是bfq_bfqq_handle_idle_busy_switch()函数if((bfqq->wr_coeff == 1) && list_empty(&bfqq->bfqq_list) && (strncmp(bfqd->last_high_prio_io_process,current->comm,COMM_LEN-1)) == 0) bfqq->wr_coeff = 30*BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR这段代码。

注意，正常情况，一个进程最早开始派发IO时，只是被判定为交互式IO，bfqq->wr_coeff只有30。然后该进程被bfq调度器选中派发IO，接着因为配额消耗完而过期失效，执行__bfq_requeue_entity()重新加入st->active tree，等待被bfq调度器重新调度。此时在__bfq_requeue_entity()函数中，因为bfqq->wr_coeff是30，才会判定这个进程被高优先级IO。总之，这优化点是保证进程一开始派发IO就能被判定为高优先级IO，一开始就保证降低IO调度延迟。

2：保存最近被判定为in_large_burst型IO的进程名字到bfqd->large_burst_process_name。这样后续再有同样进程名字的新进程派发IO 或者原本在st->idle tree但来了新的IO而激活加入st->active tree，这两种情况进程都会被判定为交互式IO，bfqq->wr_coeff 赋值30。然后等bfq调度器选中该进程派发IO后，该进程因为配额消耗光而过期失效，此时是要执行__bfq_requeue_entity()重新加入st->active tree。而在__bfq_requeue_entity()函数中，因为bfqq->wr_coeff是30，则该进程也会被判定高优先级IO。这样fio压测的进程有可能被判定为高优先级IO，进而影响cat 进程派发IO。

解决方案正是bfqd->large_burst_process_name！因为fio压测进程会被判定为in_large_burst型IO，bfqd->large_burst_process_name记录该进程名字fio，等后续再有fio压测，或者fio进程从原本在st->idle tree但来了新的IO而激活加入st->active tree，执行到bfq_bfqq_handle_idle_busy_switch()函数的if((bfqd->large_burst_process_count > 1) &&(bfqd->large_burst_process_tgid == current->tgid) && (strncmp(bfqd->large_burst_process_name,current->comm,COMM_LEN-1) == 0))，强制赋值bfqq->wr_coeff为1，就是强制作为普通IO，没有高优先级属性。这个性能优化点就是避免fio这种IO流量的但时延不敏感的进程影响IO时延敏感进程派发IO。

接着，还有一个性能优化点：在fio压测时，cat 进程读取文件而加入st->active tree，即便cat进程被判定为高优先级IO，但是也有可能因fio频繁派发IO导致cat进程延迟被bfq调度器选中派发IO。于是加入了高优先级IO进程bfqq在加入st->active tree后超时强制派发机制。代码实现如下：

static void __bfq_activate_entity(struct bfq_entity *entity,
bool non_blocking_wait_rq)
{
struct bfq_service_tree *st = bfq_entity_service_tree(entity);
bool backshifted = false;
unsigned long long min_vstart;
struct bfq_queue *bfqq = bfq_entity_to_bfqq(entity);
//high prio io的bfqq，记录激活加入st->active tree的时间点。在 high_prio_io_schedule_deadline 时间点到期后，该bfqq必须被调度到派发rq。bfqq->deadline_list->prev 和 next 必须是LIST_POISON2/LIST_POISON1 ，说明没有添加到链表上
if((bfqq->deadline_list.prev == LIST_POISON2) && (bfqq->deadline_list.next == LIST_POISON1) && (bfqq->wr_coeff == 30 * BFQ_HIGH_PRIO_IO_WEIGHT_FACTOR)){
bfqq->high_prio_io_active_time = jiffies;
list_add_tail(&bfqq->deadline_list, &bfqq->bfqd->deadline_head);
}
/* See comments on bfq_fqq_update_budg_for_activation */
if (non_blocking_wait_rq && bfq_gt(st->vtime, entity->finish)) {
backshifted = true;
min_vstart = entity->finish;
} else
min_vstart = st->vtime;
...............
}

如红色代码，在cat这种被判定为高优先级IO进程bfqq插入st->active tree时，还把bfqq加入bfqd->deadline_head链表。

在bfq调度器选择下一个派发IO的bfqq而执行的bfq_lookup_next_entity()函数中，如果bfqd->deadline_head链表上有超时派发IO的bfqq，则强制选择这个bfqq作为下次派发IO的bfqq，此时不再执行__bfq_lookup_next_entity()从st->active tree选择。代码如下：

static struct bfq_entity *bfq_lookup_next_entity(struct bfq_sched_data *sd,
bool expiration)
{
struct bfq_service_tree *st = sd->service_tree;
struct bfq_service_tree *idle_class_st = st + (BFQ_IOPRIO_CLASSES - 1);
struct bfq_entity *entity = NULL;
int class_idx = 0;
struct bfq_queue *bfqq = bfq_entity_to_bfqq(sd->next_in_service);
struct bfq_data *bfqd = bfqq->bfqd;
//high prio io的bfqq在加入st->active tree后。high_prio_io_schedule_deadline时间到了，必须立即得到调度派发rq。不用遍历链表，只有看链表头第一个成员是否超时，第一个没超时，后边的更不会超时。
if(!list_empty(&bfqd->deadline_head)){
bfqq = list_first_entry(&bfqd->deadline_head, struct bfq_queue,deadline_list);
if(time_is_before_jiffies(bfqq->high_prio_io_active_time + bfqd->high_prio_io_schedule_deadline)){
entity = &bfqq->entity;
list_del(&bfqq->deadline_list);
return entity;
}
}
................
entity = __bfq_lookup_next_entity(st + class_idx,sd->in_service_entity &&!expiration);
return entity;
}

bfq算法是很复杂的，本文的优化算法也需要持续打磨。本文如有错误请指出！

一次降低进程IO延迟的性能优化实践——基于block层bfq调度器

1：核心优化思路

2：实现IO性能优化效果的曲折过程

3：其他优化方案

相关文章：