最近花了一周时间对场景服务进行热点分析,利用 以前的火焰图工具 做了一点微小的贡献,分享下心得(仓库地址在 https://github.com/spin6lock/skynet_systemtap_set)。

Skynet 是一个轻量级的多线程在线游戏框架 。线程作为 worker,从服务的队列中抽出有消息的,然后处理上面的消息。服务间通过发消息来相互通信。目前服务主要是用 Lua 进行编写。

以前做的火焰图工具,没法单独看一个 skynet 服务的堆栈,只能看到整个进程的。要想针对单个服务做优化分析,需要抓出 skynet_context 的地址,才能取到服务的 id。一个服务对应的是一个 Lua VM,在这个 VM 里,snlua.so 会悄悄的将 skynet_context 地址塞进去 REGISTRY。那么,我们只要将 skynet_context 取出来,然后判断 skynet_context->handle 即可。这看似简单的东西,在 C 里就一句话:

struct skynet_context * ctx = lua_touserdata(L, lua_upvalueindex(1));

但是,翻译成 stap 脚本后,就变成了:

        if (((((p->func))->tt_) == ((6 | (1 << 4))))) {
            next
        }
        else {
            gc = p->func->value_->gc
            closure = &@cast(gc, "GCUnion", @1)->cl
            func = &@cast(closure, "Closure", @1)->c //CClosure
            if (idx <= func->nupvalues) {
                upvalue_type = func->upvalue[idx - 1]->tt_
                if (upvalue_type != 2) {
                    next
                } /* only this one can enter counter */
                skynet_context = &@cast(func->upvalue[idx - 1]->value_->p, "skynet_context", @1)
                /* service id in decimal*/
                if (skynet_context->handle != strtol(@2, 10)) {
                    next
                }
            } else {
                next
            }
        }

感谢 gcc -E,帮我展开了一重重的宏

这个过程无比蛋疼,要将 C 翻译成 stp 脚本。stp 可以保护新手,避免搞挂内核,但是随之而来的就是晦涩的指针运算魔法了。接下来打算试试用 bcc 写了

Anyway,折腾出来一个火焰图:

火焰图取材于在内核取样的数据点,纵向切一刀,表示当前时刻的 lua 栈。横向表示统计时间内,各个栈帧的占比。横向越长,时间越长。纵向越深,调用越深。颜色没有关系,可以忽略

可以看到里面有个堆栈很高,说明调用深度很深,另外宽度也很大,说明调用频次占比高。后来定位了一下这个函数,发现是多调了一次 aoi 同步

优化后栈的深度变浅了,剩下的基本是压测脚本跑的内容了。栈深度还能优化一下,到 C 函数的调用层次不宜过多。

好了,睡觉了