本公開涉及服務(wù)器通信,特別涉及一種加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置。
背景技術(shù):
1、計(jì)算服務(wù)器,特別是用于人工智能訓(xùn)練和推理的計(jì)算服務(wù)器(可稱為人工智能服務(wù)器),需要進(jìn)行大量的運(yùn)算,其中通常采用集成多個(gè)加速卡和用于資源分配、數(shù)據(jù)調(diào)度的中央處理器的構(gòu)造形式,同一加速卡組中各個(gè)加速卡之間各自負(fù)責(zé)自己的計(jì)算任務(wù),并通過機(jī)內(nèi)交換機(jī)進(jìn)行數(shù)據(jù)的收發(fā)以實(shí)現(xiàn)與其他加速卡的數(shù)據(jù)交互。另外,計(jì)算服務(wù)器中,機(jī)內(nèi)交換機(jī)還通過nic(network?interface?card,網(wǎng)絡(luò)接口卡)與外界建立連接,不同計(jì)算服務(wù)器之間通過各自的nic和網(wǎng)絡(luò)交換機(jī)進(jìn)行互聯(lián),實(shí)現(xiàn)計(jì)算服務(wù)器之間經(jīng)由網(wǎng)絡(luò)交換機(jī)的數(shù)據(jù)交互和數(shù)據(jù)上傳。
2、這種方式中,處于不同加速卡組內(nèi)的不同加速卡之間若要進(jìn)行數(shù)據(jù)交互,則至少需要經(jīng)由相關(guān)的機(jī)內(nèi)交換機(jī)和中央處理器的通訊路徑才能實(shí)現(xiàn),進(jìn)而會(huì)因?yàn)闄C(jī)內(nèi)交換機(jī)和中央處理器芯片對(duì)通訊信息傳遞的延時(shí)而增加加速卡的接收數(shù)據(jù)等待時(shí)間,進(jìn)而在整體上限制了計(jì)算服務(wù)器的計(jì)算速度。而處于不同計(jì)算服務(wù)器內(nèi)的不同加速卡之間還需要經(jīng)過相關(guān)的nic和網(wǎng)絡(luò)交換機(jī)才能實(shí)現(xiàn)數(shù)據(jù)交互,因?yàn)閚ic和網(wǎng)絡(luò)交換機(jī)對(duì)通訊信息傳遞的延時(shí),以及網(wǎng)絡(luò)交換機(jī)和nic之間可能距離較遠(yuǎn),使得加速卡的接收數(shù)據(jù)等待時(shí)間更長,從而進(jìn)一步限制了由網(wǎng)絡(luò)交換機(jī)和多個(gè)計(jì)算服務(wù)器所組成的超級(jí)計(jì)算節(jié)點(diǎn)整體的計(jì)算速度。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開提供一種加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置,以幫助減小不同加速卡組內(nèi)的不同加速卡之間在數(shù)據(jù)交互時(shí)的數(shù)據(jù)接收等待時(shí)間,進(jìn)而幫助提升計(jì)算服務(wù)器以及超級(jí)計(jì)算節(jié)點(diǎn)的計(jì)算速度。
2、本公開的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、根據(jù)本公開實(shí)施例的一方面,提供一種加速器集群超節(jié)點(diǎn)裝置,包括:
4、南向pcie交換機(jī)和至少一個(gè)人工智能服務(wù)器;其中,
5、每個(gè)所述人工智能服務(wù)器均包括至少兩個(gè)加速卡組,每個(gè)所述加速卡組中含有至少一個(gè)加速卡;
6、所述南向pcie交換機(jī)耦接于至少一個(gè)所述人工智能服務(wù)器中的至少兩個(gè)加速卡組中的加速卡,形成所述加速卡之間跨加速卡組的南向pcie連接路徑。
7、在一種可能實(shí)施方式中,在每個(gè)所述加速卡組中含有至少兩個(gè)加速卡的情況下,所述南向pcie交換機(jī)耦接于每個(gè)所述加速卡組中的至少一個(gè)加速卡。
8、在一種可能實(shí)施方式中,每個(gè)所述人工智能服務(wù)器還包括:
9、至少兩個(gè)處理器,在每個(gè)所述人工智能服務(wù)器中,所述處理器的數(shù)量與所述加速卡組的數(shù)量相同;和,
10、至少兩個(gè)北向pcie交換機(jī),在每個(gè)所述人工智能服務(wù)器中,所述北向pcie交換機(jī)與所述加速卡組的數(shù)量相同,每個(gè)所述北向pcie交換機(jī)一對(duì)一地耦接于每個(gè)所述加速卡組,每個(gè)所述北向pcie交換機(jī)與所耦接的加速卡組中的所述至少一個(gè)加速卡耦接,并且,每個(gè)所述北向pcie交換機(jī)一對(duì)一地耦接于每個(gè)所述處理器,形成所述加速卡組的北向pcie連接路徑。
11、在一種可能實(shí)施方式中,在每個(gè)所述人工智能服務(wù)器中,兩個(gè)所述加速卡組之間通過各自所耦接的所述處理器北向互聯(lián)。
12、在一種可能實(shí)施方式中,每個(gè)所述人工智能服務(wù)器還包括:
13、nic卡,在每個(gè)所述人工智能服務(wù)器中,所述nic卡與所述至少兩個(gè)北向pcie交換機(jī)互聯(lián)。
14、在一種可能實(shí)施方式中,所述加速器集群超節(jié)點(diǎn)裝置還包括:
15、網(wǎng)絡(luò)交換機(jī),所述網(wǎng)絡(luò)交換機(jī)與每個(gè)所述人工智能服務(wù)器中的所述nic卡互聯(lián),在所述人工智能服務(wù)器為至少兩個(gè)的情況下,所述網(wǎng)絡(luò)交換機(jī)在至少兩個(gè)所述人工智能服務(wù)器之間形成所述加速卡組經(jīng)由所述nic卡和所述網(wǎng)絡(luò)交換機(jī)的北向pcie連接路徑。
16、在一種可能實(shí)施方式中,所述南向pcie交換機(jī)包括:
17、至少一個(gè)南向pcie子交換機(jī),全部所述南向pcie子交換機(jī)的端口總數(shù)不少于所述加速器集群超節(jié)點(diǎn)裝置中的與所述南向pcie交換機(jī)耦接的所述加速卡的端口數(shù)量。
18、在一種可能實(shí)施方式中,所述加速卡組兩兩配對(duì)組成一個(gè)人工智能服務(wù)器中的計(jì)算加速單元。
19、在一種可能實(shí)施方式中,在一個(gè)所述人工智能服務(wù)器中的兩個(gè)加速卡組之間,分別處于不同加速卡組中的任意兩個(gè)指定的所述加速卡南向直通連接。
20、在一種可能實(shí)施方式中,所述南向pcie交換機(jī)與所述加速卡之間通過光模塊、銅纜中的至少其中之一連接。
21、根據(jù)本公開實(shí)施例的另一方面,提供一種計(jì)算加速裝置,包括:
22、至少兩個(gè)加速卡組,每個(gè)所述加速卡組中含有至少一個(gè)加速卡;和
23、南向pcie交換機(jī),所述南向pcie交換機(jī)耦接于所述至少兩個(gè)加速卡組中的加速卡,形成所述加速卡之間跨加速卡組的南向pcie連接路徑。
24、從上述方案可以看出,本公開的加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置,實(shí)現(xiàn)了不同加速卡組內(nèi)的加速卡之間的南向pcie連接,進(jìn)而實(shí)現(xiàn)了加速卡的跨加速卡組的數(shù)據(jù)通信,相比于基于北向連接結(jié)構(gòu)的北向數(shù)據(jù)通信而言,加速卡的數(shù)據(jù)接收等待時(shí)間更短,進(jìn)而有助于減小不同加速卡組內(nèi)的不同加速卡之間在數(shù)據(jù)交互時(shí)的數(shù)據(jù)接收等待時(shí)間,在此基礎(chǔ)上,在采用本公開的加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置結(jié)構(gòu)的計(jì)算服務(wù)器、超級(jí)計(jì)算節(jié)點(diǎn)執(zhí)行計(jì)算任務(wù)時(shí),利用南向pcie交換機(jī)所構(gòu)建的跨加速卡組的南向pcie連接路徑進(jìn)行加速卡組之間的加速卡的數(shù)據(jù)交互會(huì)有助于縮短加速卡的接收數(shù)據(jù)等待時(shí)間,有助于提升計(jì)算服務(wù)器(例如用于人工智能推理計(jì)算的服務(wù)器)以及超級(jí)計(jì)算節(jié)點(diǎn)的計(jì)算速度,可實(shí)現(xiàn)多加速卡的tp8、tp16、tp32等并行計(jì)算。本公開的加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置,基于南向pcie交換機(jī)實(shí)現(xiàn)了跨計(jì)算服務(wù)器、跨中央處理器、跨pcie?domain(域)的點(diǎn)對(duì)點(diǎn)數(shù)據(jù)傳輸,實(shí)現(xiàn)多加速卡組中多加速卡的南向互連,給多卡并行計(jì)算提供了硬件支持。基于本公開的加速器集群超節(jié)點(diǎn)裝置和計(jì)算加速裝置,多個(gè)計(jì)算服務(wù)器通過南向pcie交換機(jī)可實(shí)現(xiàn)不限加速卡數(shù)量的互連。
1.一種加速器集群超節(jié)點(diǎn)裝置,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于:
3.根據(jù)權(quán)利要求1所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于,每個(gè)所述人工智能服務(wù)器還包括:
4.根據(jù)權(quán)利要求3所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于:
5.根據(jù)權(quán)利要求3所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于,每個(gè)所述人工智能服務(wù)器還包括:
6.根據(jù)權(quán)利要求5所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于,所述加速器集群超節(jié)點(diǎn)裝置還包括:
7.根據(jù)權(quán)利要求1所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于,所述南向pcie交換機(jī)包括:
8.根據(jù)權(quán)利要求1所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于:
9.根據(jù)權(quán)利要求8所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于:
10.根據(jù)權(quán)利要求1所述的加速器集群超節(jié)點(diǎn)裝置,其特征在于:
11.一種計(jì)算加速裝置,其特征在于,包括: