宋寶華:為了不忘卻的紀(jì)念,評(píng)Linux 5.13內(nèi)核
- Apple M1的初始
- Misc cgroup
- Landlock安全模塊
- 系統(tǒng)調(diào)用的堆棧隨機(jī)化
- printk無(wú)鎖ringbuffer的進(jìn)一步優(yōu)化
- BPF可調(diào)用內(nèi)核函數(shù)
- 公共的IO PAGE Fault支持
Apple M1的初始支持
5.13最爆炸性的新聞無(wú)非是初始的Apple M1支持,但是然并卵,實(shí)用性幾乎為0。因?yàn)?,已?jīng)合入的patch非常類(lèi)似于SoC bringup的初級(jí)階段:
- 帶earlycon支持的UART (samsung-style) 串口驅(qū)動(dòng)
- Apple中斷控制器,支持中斷、中斷親和(affinity )和IPI (跨CPU中斷)
- SMP (通過(guò)標(biāo)準(zhǔn)spin-table來(lái)支持)
- 基于simplefb的framebuffer驅(qū)動(dòng)
- Mac Mini的設(shè)備樹(shù)
Misc cgroup眾所周知,cgroup具備一個(gè)強(qiáng)大的控制CPU、內(nèi)存、I/O等資源在不同的任務(wù)群間進(jìn)行分配的能力。比如,你通過(guò)下面的命令,限制A這個(gè)群的CFS調(diào)度類(lèi)進(jìn)程,最多只能耗費(fèi)20%的CPU:這個(gè)世界上的絕大多數(shù)資源都是可以進(jìn)行抽象的,比如屬于cpuacct、cpu、memory、blkio、net_cls什么的,但是,總有一些不同于常人的人,他們既不是男人,也不是女人,而是“妖如果有了仁慈的心”的人。Linux內(nèi)核的驅(qū)動(dòng)子系統(tǒng)多達(dá)100多個(gè),但是還是有極個(gè)別驅(qū)動(dòng)不屬于這100多類(lèi)中的任何一類(lèi),于是在drivers下面有個(gè)misc:現(xiàn)在內(nèi)核碰到了類(lèi)似的問(wèn)題,它的資源要進(jìn)行配額控制,但是不屬于通用的類(lèi)型,而是:
- Secure?Encrypted Virtualization (SEV) ASIDs
- SEV - Encrypted State (SEV-ES)?ASIDs
- misc.capacity描述資源的能力(只讀),比如:
$ cat misc.capacity
res_a 50
res_b 10
- 透過(guò)misc.current描述當(dāng)前資源的占用(只讀),比如:
$ cat misc.current
res_a 3
res_b 0
- 透過(guò)misc.max設(shè)置這個(gè)cgroup最多只能使用多少資源(可讀可寫(xiě)),比如:
# echo res_a 1 > misc.max
同志們,有了這個(gè)misc cgroup的支持,以后咱們的阿貓阿狗資源限制,也可以往里面塞了。它相當(dāng)于開(kāi)了一道門(mén)。?Landlock安全模塊曾經(jīng)有一個(gè)真誠(chéng)的patch擺在我面前,但是我沒(méi)有珍惜,發(fā)了V1被人懟了后就放棄了,等到失去的時(shí)候才后悔莫及,塵世間最痛苦的事莫過(guò)于此,如果上天可以給我一個(gè)機(jī)會(huì)再來(lái)一次的話(huà),我會(huì)對(duì)那個(gè)patch說(shuō)我要繼續(xù)迭代發(fā)!如果非要在這個(gè)迭代的次數(shù)上加上一個(gè)期限,我希望是一百遍。5.13內(nèi)核,最勵(lì)志的事情無(wú)疑是,"Landlock" Lands In Linux 5.13 !在迭代了超過(guò)5年之后,安全組件landlock終于合入了Linux內(nèi)核,這份始于2016年的愛(ài)情,終于有了一個(gè)美好的結(jié)局。為此,Linux內(nèi)核doc的維護(hù)者,LDD3的作者之一Jonathan Corbet發(fā)文指出:Kernel development is not for people who lack persistence; changes can take a number of revisions and a lot of time to make it into a mainline release。文章鏈接:https://lwn.net/Articles/859908/所以,沒(méi)有耐力、不能持之以恒,想一夜暴富的人,真地不適合做kernel開(kāi)發(fā)。Landlock LSM主要給非特權(quán)進(jìn)程提供安全沙盒的能力,比如你可以對(duì)一個(gè)普通進(jìn)程,施加自定義的文件系統(tǒng)訪問(wèn)控制策略。它的操作原理是,先創(chuàng)建一個(gè)規(guī)則集ruleset,比如,如下的ruleset就是涉及到文件的讀、寫(xiě)、執(zhí)、讀DIR、寫(xiě)DIR等:ruleset對(duì)用戶(hù)以文件描述符fd的形式存在,再次證明了“一切都是文件”。接下來(lái),我們可以透過(guò)這個(gè)fd,向這個(gè)ruleset里面添加rule,比如我們添加一個(gè)/usr目錄的“讀”規(guī)則,這樣進(jìn)程就不能寫(xiě)/usr了:我們把這個(gè)ruleset施加起來(lái)讓它生效:想要體驗(yàn)的童鞋可以用這個(gè)例子啟動(dòng)你的進(jìn)程,它設(shè)置好ruleset后,會(huì)去call exec啟動(dòng)命令行參數(shù)指定的程序:https://github.com/landlock-lsm/linux/blob/landlock-v34/samples/landlock/sandboxer.cLL_FS_RO環(huán)境變量是可讀文件的列表,LL_FS_RW環(huán)境變量是可讀寫(xiě)文件的列表,運(yùn)行方法:
LL_FS_RO=”只讀路徑”?\
LL_FS_RW=”可寫(xiě)路徑”?\
sandboxer??./a.out
a.out是你的想要安全沙盒的程序。在下已經(jīng)一睹為快,在/home/baohua下面創(chuàng)建2個(gè)目錄1,2,然后創(chuàng)建/home/baohua/1/1和/home/baohua/2/1這2個(gè)文件,限制第一個(gè)目錄只讀:童鞋們看明白了嗎?我用sandboxer去啟動(dòng)cat,2個(gè)文件都是成功的。但是,去啟動(dòng)echo,/home/baohua/1/1是不允許寫(xiě)的,但是/home/baohua/2/1是可以寫(xiě)的。實(shí)際上,/home/baohua/1/1和/home/baohua/2/1并沒(méi)有絲毫的不同。landlock在發(fā)揮作用了!
系統(tǒng)調(diào)用的堆棧隨機(jī)化這是一項(xiàng)安全增強(qiáng),它允許對(duì)系統(tǒng)調(diào)用發(fā)生時(shí),內(nèi)核使用的堆棧添加一個(gè)隨機(jī)偏移。這給基于stack的攻擊增加了難度,因?yàn)?span>stack攻擊通常要求stack有個(gè)固定的layout?,F(xiàn)在每次系統(tǒng)調(diào)用,stack的layout都變化的話(huà),黑客就比較捉摸不定了。比如ARM64主要修改了invoke_syscall()這個(gè)函數(shù):這個(gè)東西聽(tīng)起來(lái)很高大上,但是它的原理可能簡(jiǎn)單地你想哭,NO BB! show me the code:它實(shí)際上就是每次系統(tǒng)調(diào)用把offset隨機(jī)化一下,然后通過(guò)__builtin_alloca()從stack里面分配一些stack空間,于是導(dǎo)致stack的位置移動(dòng)。我們可以寫(xiě)個(gè)非常簡(jiǎn)單的應(yīng)用程序來(lái)驗(yàn)證原理:然后編譯
gcc 1.c -fno-stack-protector -O0
運(yùn)行:親愛(ài)的,你有沒(méi)有發(fā)現(xiàn),10次函數(shù)調(diào)用的時(shí)候,每次stack臨時(shí)變量的位置都不一樣!???printk無(wú)鎖ringbuffer的進(jìn)一步優(yōu)化鎖什么,不鎖什么,鎖大還是鎖小,從來(lái)都是一個(gè)問(wèn)題。宮鎖心玉、宮鎖珠簾、宮鎖沉香、宮鎖連城、宮鎖printk......內(nèi)核工程師,可能真地被printk寵壞了,printk的優(yōu)勢(shì)是在Linux的任意CPU、任意線程、任意中斷(甚至包括NMI)都可以調(diào)用,呼之即來(lái)?yè)]之即去。你有沒(méi)有想過(guò),printk的實(shí)現(xiàn)里面可能有很大的鎖代價(jià)的?你怎么保證一個(gè)人在打印”abc”,另外一個(gè)人再打印”def”,它不把2個(gè)人的打印串?dāng)_呢?如何避免各種死鎖的可能性?很多操作系統(tǒng)為了避免這種代價(jià),干脆禁止了一些上下文對(duì)類(lèi)似print函數(shù)的調(diào)用,比如VxWorks的中斷服務(wù)程序是不能調(diào)用printf()的。所以Linux的printk是一個(gè)極端復(fù)雜的存在。John Ogness
- console_lock?semaphore:用于在console打印
- logbuf_lock spinlock:用于寫(xiě)環(huán)形緩沖區(qū)logbuf
這樣就導(dǎo)致了printk依賴(lài)一個(gè)臨時(shí)的所謂safe buffer。這種safe buffer的理念,也被用來(lái)避免printk自己遞歸(printk的實(shí)現(xiàn)調(diào)用printk)引起的死鎖。在遞歸的printk里面,內(nèi)容也如NMI那樣寫(xiě)入safe buffer,之后在安全的上下文才把這個(gè)buffer的內(nèi)容flush出去。這種思路,其實(shí)也是數(shù)據(jù)結(jié)構(gòu)分化以避免全局鎖的思路,比如太平天國(guó)洪秀全暫時(shí)沒(méi)有辦法奪取北京城,就先在南京城占山為王,然后伺機(jī)再取北京。北京城1個(gè)數(shù)據(jù)結(jié)構(gòu),南京城是另1個(gè)。printk的logbuf有各種NMI、遞歸的坑的,前面基本就是在想辦法繞坑。繞坑的話(huà),進(jìn)取心實(shí)在有限,比如天王后面放棄了007,選擇了躺平,天國(guó)最后完蛋了。但是內(nèi)核的進(jìn)取心很大,在5.10中,內(nèi)核提交了一個(gè)lockless的ringbuffer,可安全地用于一切上下文,避免了死鎖,也為避免NMI等場(chǎng)景對(duì)臨時(shí)的per-CPU?safe buffer依賴(lài)的去除提供了可能性,應(yīng)該是更加接近printk需求的本質(zhì)。注意,5.10內(nèi)核printk的這個(gè)lockless ringbuffer支持多個(gè)讀者、多個(gè)寫(xiě)者安全的,它本身的實(shí)現(xiàn)比較復(fù)雜,更多涉及數(shù)據(jù)結(jié)構(gòu)的知識(shí),具體的細(xì)節(jié)可以參考這個(gè)commit(大約2000行代碼):但是5.10仍然有少量代碼路徑依賴(lài)?logbuf_lock,比如kmsg_dump、syslog?、格式化消息用的臨時(shí)buffer等(畢竟5.10之前的代碼用logbuf_lock用地比較奔放)。5.13中,內(nèi)核進(jìn)一步移除了?logbuf_lock,從而基本接近了lockless的printk。移除的方法是要么直接刪沒(méi)必要的?logbuf_lock調(diào)用,要么用一個(gè)特定的更小鎖來(lái)替換。比如,之前syslog里面的 syslog_seq, syslog_partial, syslog_time ,clear_seq 是靠?logbuf_lock保護(hù)的,現(xiàn)在重新引入一個(gè)它自己的鎖syslog_lock:這種思路其實(shí)就是分而治之,逐步細(xì)化瓦解。就像以前內(nèi)核有個(gè)BKL,后面它的使用場(chǎng)景,被一個(gè)個(gè)更小的鎖細(xì)化代替,直至最后BKL被徹底消滅一樣。
BPF可調(diào)用內(nèi)核函數(shù)技術(shù)上來(lái)講BPF程序載入內(nèi)核的時(shí)候,內(nèi)核會(huì)執(zhí)行嚴(yán)格的檢查,內(nèi)核和BPF程序能實(shí)際互動(dòng)的范圍非常有限,主要是內(nèi)核調(diào)用BPF而不是反過(guò)來(lái)。Linux 5.13內(nèi)核則允許特定program type的BPF程序直接調(diào)用特定的內(nèi)核函數(shù),為確保調(diào)用的安全,目前內(nèi)核僅僅授權(quán)了?tcp_slow_start()?、tcp_cong_avoid_ai()等這種TCP擁塞控制相關(guān)的函數(shù)(tcp-cc helper)供BPF擁塞控制程序直接調(diào)用,這樣BPF擁塞控制程序不需要把這些函數(shù)再copy-paste一遍。內(nèi)核net/ipv4/bpf_tcp_ca.c的代碼顯示了這個(gè)verify的過(guò)程,需要在相應(yīng)的bpf_verifier_ops中添加check_kfunc_call()成員函數(shù):check_kfunc_call()的成立條件就是特定函數(shù)必須是在bpf_tcp_ca_kfunc_ids集合里面的白名單函數(shù),比如:這個(gè)時(shí)候,哥在想,如果我把kprobe這種program type的BPF的check_kfunc_call()永遠(yuǎn)返回真,我不是可以在kprobe的BPF中為所欲為?比如我可以嘗試在任何kprobe點(diǎn)對(duì)應(yīng)的BPF程序上,調(diào)用barrysong_hack_print()這個(gè)函數(shù)?目前還沒(méi)有嘗試,想做實(shí)驗(yàn)的童鞋,可以仿照這個(gè)commit中的例子完成,這是一個(gè)測(cè)試案例:
公共的IO PAGE Fault支持這個(gè)特性主要用于用戶(hù)空間的DMA,特別適用于SVA的場(chǎng)景,Shared Virtual Addressing (SVA)。在SVA模式下,設(shè)備的IOMMU采用和CPU的MMU共享的頁(yè)表,從而讓進(jìn)程地址空間對(duì)設(shè)備可見(jiàn)。圖片來(lái)源:https://events19.linuxfoundation.cn/wp-content/uploads/2017/11/Shared-Virtual-Addressing_Yisheng-Xie-_-Bob-Liu.pdf5.13內(nèi)核中,ARM?SMMU和UACCE?(Unified/User-space-access-intended Accelerator Framework)?合入了共享SVA的支持,并將相關(guān)IO Page Fault(IOPF)的代碼提煉成了通用的drivers/iommu/io-pgfault.c代碼。我們都知道,Linux的內(nèi)存管理重度近乎強(qiáng)迫癥式地依賴(lài)CPU的page fault,比如demanding page, swap,CoW等,內(nèi)存都是在page fault發(fā)生后申請(qǐng)內(nèi)卷進(jìn)來(lái)的。現(xiàn)在,設(shè)備也共享了進(jìn)程的內(nèi)存,這樣設(shè)備訪問(wèn)這些頁(yè)面的時(shí)候,仍然可能產(chǎn)生類(lèi)似CPU的page fault幫忙把進(jìn)程缺少的頁(yè)面申請(qǐng)出來(lái)。不過(guò)設(shè)備是先發(fā)一個(gè)中斷,然后內(nèi)核在中斷服務(wù)程序里面調(diào)用handle_mm_fault()來(lái)處理缺頁(yè),這樣設(shè)備產(chǎn)生的IOPF同樣可以幫忙demanding page(比如設(shè)備DMA寫(xiě)malloc()后還沒(méi)獲得的內(nèi)存)。似乎設(shè)備變地非常類(lèi)似進(jìn)程里面的一個(gè)線程,不過(guò)我們仔細(xì)一想,這里仍然有一個(gè)邏輯講不通,如果我們把線程和Device并列:當(dāng)線程寫(xiě)空指針,CPU會(huì)收到同步的Page Fault(在*p=10的指令卡住,并最終給進(jìn)程產(chǎn)生segment fault);但是進(jìn)程啟動(dòng)設(shè)備在用戶(hù)態(tài)去做DMA,設(shè)備寫(xiě)無(wú)效的地址,顯然也會(huì)收到IOPF,但是我們卻沒(méi)辦法定位到對(duì)應(yīng)的代碼行。在加上中斷啥時(shí)候進(jìn)ISR的問(wèn)題,這種IOPF行為總體對(duì)進(jìn)程而言異步的。比如:
p = malloc(1M);
device_write(p, 2M);
其實(shí)寫(xiě)前1MB都沒(méi)有問(wèn)題,但是到1MB后,其實(shí)就是非法地址了,設(shè)備啥時(shí)候?qū)懲?/span>1MB,這個(gè)完全是異步的。另外這個(gè)時(shí)候,內(nèi)核應(yīng)該給進(jìn)程發(fā)什么信號(hào)也是個(gè)問(wèn)題?CPU碰到這種情況,顯然就是發(fā)SIGSEGV;設(shè)備這里,IOPF的中斷服務(wù)程序,目前似乎是沒(méi)有發(fā),理想情況下,是不是至少也應(yīng)該發(fā)一個(gè)類(lèi)似SIGBUS或者什么信號(hào),不過(guò)無(wú)論如何,進(jìn)程也無(wú)法同步檢測(cè)到哪里的代碼出了問(wèn)題,更加不要說(shuō)支持ASAN(Address Sanitizer)這種內(nèi)存越界檢查技術(shù)了。我們期待后續(xù)內(nèi)存繼續(xù)對(duì)這個(gè)問(wèn)題給出一個(gè)明確的說(shuō)法,也期待更多的童鞋發(fā)patch來(lái)讓內(nèi)核能自圓其說(shuō)。時(shí)光永是流逝,街市依舊太平。內(nèi)核的每個(gè)新版本發(fā)布,之于搬磚的碼農(nóng),已泛不起任何的漣漪。但是,鐘愛(ài)內(nèi)核的人們,仍然在孜孜不倦地追隨。