亚洲综合日韩精品欧美综合区,日韩国产在线一区,久久久精品一二三区,午夜精品久久久久久中宇69,国产做爰一区二区三区视频,aa天堂,三级在线视频

集合通信優(yōu)化方法、設(shè)備、系統(tǒng)、介質(zhì)和程序產(chǎn)品與流程

文檔序號:43664596發(fā)布日期:2025-11-04 20:55閱讀:15來源:國知局

本發(fā)明涉及人工智能,尤其涉及一種集合通信優(yōu)化方法、設(shè)備、系統(tǒng)、介質(zhì)和程序產(chǎn)品。


背景技術(shù):

1、隨著ai(artificial?intelligence,人工智能)和hpc(high?performancecomputing,高性能計(jì)算)應(yīng)用的快速發(fā)展,集合通信操作在分布式計(jì)算系統(tǒng)中的重要性日益凸顯。其中,allreduce(全歸約)作為一種關(guān)鍵的集合通信操作,廣泛應(yīng)用于深度學(xué)習(xí)模型的分布式訓(xùn)練中,其效率直接影響到模型的訓(xùn)練速度和整體性能。

2、然而,現(xiàn)有的allreduce實(shí)現(xiàn)方式存在顯著缺陷:一方面,其串行處理模式導(dǎo)致每兩個(gè)步驟之間需要等待數(shù)據(jù)發(fā)送完成并同步,產(chǎn)生大量等待時(shí)間,降低了帶寬利用率,影響通信性能;另一方面,不同步驟的緩沖區(qū)使用相互阻塞,降低了并行度,增加了同步耗時(shí),難以滿足大模型對通信效率的高要求。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種集合通信優(yōu)化方法、設(shè)備、系統(tǒng)、介質(zhì)和程序產(chǎn)品,用以解決相關(guān)技術(shù)中集合通信存在的帶寬利用率低、同步耗時(shí)的缺陷。

2、本發(fā)明提供一種集合通信優(yōu)化方法,所述方法應(yīng)用于分布式計(jì)算系統(tǒng)中的任一計(jì)算設(shè)備,包括:

3、將本地的通信緩沖區(qū)劃分為多個(gè)大小相同的存儲塊;

4、將集合通信操作的多個(gè)步驟劃分為至少一個(gè)分片,每個(gè)分片包括至少兩個(gè)步驟,每個(gè)分片中的不同步驟使用不同的存儲塊進(jìn)行數(shù)據(jù)訪問,以使每個(gè)分片中的各步驟并行執(zhí)行;

5、針對每個(gè)分片,在完成當(dāng)前步驟的數(shù)據(jù)發(fā)送操作后,啟動下一步驟的數(shù)據(jù)發(fā)送操作,以使所述下一步驟的數(shù)據(jù)發(fā)送操作掩蓋所述當(dāng)前步驟的同步等待時(shí)間。

6、根據(jù)本發(fā)明提供的一種集合通信優(yōu)化方法,所述分布式計(jì)算系統(tǒng)包括多個(gè)計(jì)算設(shè)備,所述多個(gè)計(jì)算設(shè)備以環(huán)形拓?fù)浣Y(jié)構(gòu)互連,每個(gè)計(jì)算設(shè)備的通信緩沖區(qū)均被劃分為多個(gè)大小相同的存儲塊。

7、根據(jù)本發(fā)明提供的一種集合通信優(yōu)化方法,在每個(gè)步驟中,所述任一計(jì)算設(shè)備從上一個(gè)計(jì)算設(shè)備接收數(shù)據(jù),并向下一個(gè)計(jì)算設(shè)備發(fā)送數(shù)據(jù),相應(yīng)地,所述當(dāng)前步驟的數(shù)據(jù)發(fā)送操作的執(zhí)行過程包括:

8、基于所述當(dāng)前步驟的編號和存儲塊數(shù)量,確定所述當(dāng)前步驟對應(yīng)的目標(biāo)存儲塊;

9、讀取所述當(dāng)前步驟對應(yīng)的數(shù)據(jù)塊,并執(zhí)行數(shù)據(jù)發(fā)送操作,以將所述數(shù)據(jù)塊傳輸至所述下一個(gè)計(jì)算設(shè)備的目標(biāo)存儲塊中。

10、根據(jù)本發(fā)明提供的一種集合通信優(yōu)化方法,所述方法還包括:

11、在從所述上一個(gè)計(jì)算設(shè)備接收到數(shù)據(jù)塊后,將所接收的數(shù)據(jù)塊與本地的通信緩沖區(qū)中對應(yīng)存儲塊內(nèi)的數(shù)據(jù)進(jìn)行歸約計(jì)算。

12、根據(jù)本發(fā)明提供的一種集合通信優(yōu)化方法,所述通信緩沖區(qū)中的多個(gè)存儲塊組織成一個(gè)環(huán)形緩沖區(qū)。

13、根據(jù)本發(fā)明提供的一種集合通信優(yōu)化方法,所述方法還包括:

14、在所述集合通信操作的所有步驟執(zhí)行完成后,將所述通信緩沖區(qū)中多個(gè)存儲塊內(nèi)的數(shù)據(jù)按預(yù)設(shè)順序進(jìn)行整合,得到集合通信結(jié)果數(shù)據(jù)。

15、本發(fā)明還提供一種集合通信優(yōu)化裝置,所述裝置應(yīng)用于分布式計(jì)算系統(tǒng)中的任一計(jì)算設(shè)備,包括:

16、緩沖劃分單元,用于將本地的通信緩沖區(qū)劃分為多個(gè)大小相同的存儲塊;

17、步驟分片單元,用于將集合通信操作的多個(gè)步驟劃分為至少一個(gè)分片,每個(gè)分片包括至少兩個(gè)步驟,每個(gè)分片中的不同步驟使用不同的存儲塊進(jìn)行數(shù)據(jù)訪問,以使每個(gè)分片中的各步驟并行執(zhí)行;

18、并行執(zhí)行單元,用于針對每個(gè)分片,在完成當(dāng)前步驟的數(shù)據(jù)發(fā)送操作后,啟動下一步驟的數(shù)據(jù)發(fā)送操作,以使所述下一步驟的數(shù)據(jù)發(fā)送操作掩蓋所述當(dāng)前步驟的同步等待時(shí)間。

19、本發(fā)明還提供一種計(jì)算設(shè)備,包括存儲器、處理器及存儲在存儲器上并在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述集合通信優(yōu)化方法。

20、本發(fā)明還提供一種分布式計(jì)算系統(tǒng),包括多個(gè)如上所述的計(jì)算設(shè)備,多個(gè)計(jì)算設(shè)備以環(huán)形拓?fù)浣Y(jié)構(gòu)互連。

21、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述集合通信優(yōu)化方法。

22、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述集合通信優(yōu)化方法。

23、本發(fā)明提供的集合通信優(yōu)化方法、設(shè)備、系統(tǒng)、介質(zhì)和程序產(chǎn)品,通過將通信緩沖區(qū)劃分為多個(gè)存儲塊,并將集合通信操作的多個(gè)步驟劃分為多個(gè)分片,每個(gè)分片中的不同步驟使用不同的存儲塊進(jìn)行數(shù)據(jù)訪問,實(shí)現(xiàn)了分片內(nèi)步驟的并行執(zhí)行。此外,針對每個(gè)分片,通過在完成當(dāng)前步驟的數(shù)據(jù)發(fā)送操作后立即啟動下一步驟的數(shù)據(jù)發(fā)送操作,可以有效掩蓋當(dāng)前步驟的同步等待時(shí)間。這種優(yōu)化方法顯著減少了通信過程中因同步等待造成的空閑時(shí)間,提高了通信緩沖區(qū)的利用率和帶寬利用率,充分利用了通信資源,從而提升了分布式計(jì)算系統(tǒng)中集合通信的并行度,進(jìn)而提高了整體通信效率與系統(tǒng)性能。



技術(shù)特征:

1.一種集合通信優(yōu)化方法,其特征在于,所述方法應(yīng)用于分布式計(jì)算系統(tǒng)中的任一計(jì)算設(shè)備,所述方法包括:

2.根據(jù)權(quán)利要求1所述的集合通信優(yōu)化方法,其特征在于,所述分布式計(jì)算系統(tǒng)包括多個(gè)計(jì)算設(shè)備,所述多個(gè)計(jì)算設(shè)備以環(huán)形拓?fù)浣Y(jié)構(gòu)互連,每個(gè)計(jì)算設(shè)備的通信緩沖區(qū)均被劃分為多個(gè)大小相同的存儲塊。

3.根據(jù)權(quán)利要求2所述的集合通信優(yōu)化方法,其特征在于,在每個(gè)步驟中,所述任一計(jì)算設(shè)備從上一個(gè)計(jì)算設(shè)備接收數(shù)據(jù),并向下一個(gè)計(jì)算設(shè)備發(fā)送數(shù)據(jù),相應(yīng)地,所述當(dāng)前步驟的數(shù)據(jù)發(fā)送操作的執(zhí)行過程包括:

4.根據(jù)權(quán)利要求3所述的集合通信優(yōu)化方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的集合通信優(yōu)化方法,其特征在于,所述通信緩沖區(qū)中的多個(gè)存儲塊組織成一個(gè)環(huán)形緩沖區(qū)。

6.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的集合通信優(yōu)化方法,其特征在于,?所述方法還包括:

7.一種計(jì)算設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述集合通信優(yōu)化方法。

8.一種分布式計(jì)算系統(tǒng),其特征在于,包括多個(gè)如權(quán)利要求8所述的計(jì)算設(shè)備,多個(gè)計(jì)算設(shè)備以環(huán)形拓?fù)浣Y(jié)構(gòu)互連。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述集合通信優(yōu)化方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述集合通信優(yōu)化方法。


技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,提供一種集合通信優(yōu)化方法、設(shè)備、系統(tǒng)、介質(zhì)和程序產(chǎn)品,其中方法包括:將本地的通信緩沖區(qū)劃分為多個(gè)大小相同的存儲塊;將集合通信操作的多個(gè)步驟劃分為至少一個(gè)分片,每個(gè)分片包括至少兩個(gè)步驟,每個(gè)分片中的不同步驟使用不同的存儲塊進(jìn)行數(shù)據(jù)訪問,以使每個(gè)分片中的各步驟并行執(zhí)行;針對每個(gè)分片,在完成當(dāng)前步驟的數(shù)據(jù)發(fā)送操作后,啟動下一步驟的數(shù)據(jù)發(fā)送操作,以使所述下一步驟的數(shù)據(jù)發(fā)送操作掩蓋所述當(dāng)前步驟的同步等待時(shí)間。本發(fā)明能夠提升不同步驟間的并行度,同時(shí)顯著減少通信過程中因同步等待造成的空閑時(shí)間,從而提高整體通信效率與系統(tǒng)性能。

技術(shù)研發(fā)人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名
受保護(hù)的技術(shù)使用者:上海壁仞科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/11/3
網(wǎng)友詢問留言 留言:0條
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1