當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

GPUStack正式發(fā)布: 為大模型而生的開(kāi)源GPU集群管理器

 2024-07-29 09:10  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

7月26日,數(shù)澈軟件Seal(以下簡(jiǎn)稱“Seal”)宣布正式發(fā)布并開(kāi)源最新產(chǎn)品 GPUStack,GPUStack 是一個(gè)用于運(yùn)行 LLM(大型語(yǔ)言模型)的開(kāi)源 GPU 集群管理器。

盡管如今大語(yǔ)言模型作為公共的云上服務(wù)已經(jīng)被廣泛推廣并在公有云上變得更加易于使用,但對(duì)企業(yè)來(lái)說(shuō),部署托管自己私有的 LLM 供企業(yè)和組織在私有環(huán)境使用仍然非常復(fù)雜。

首先,企業(yè)需要安裝和管理復(fù)雜的集群軟件,如 Kubernetes,然后還需要研究清楚如何在上層安裝和管理 AI 相關(guān)的工具棧。而目前流行的能在本地環(huán)境運(yùn)行 LLM 的方法,如 LMStudio 和 LocalAI,卻大都只支持在單臺(tái)機(jī)器上運(yùn)行,而沒(méi)有提供多節(jié)點(diǎn)復(fù)雜集群環(huán)境的支持能力。

Seal 聯(lián)合創(chuàng)始人及 CTO 梁勝博士介紹道,“GPUStack 支持基于任何品牌的異構(gòu) GPU 構(gòu)建統(tǒng)一管理的算力集群,無(wú)論目標(biāo) GPU 運(yùn)行在 Apple Mac、Windows PC 還是 Linux 服務(wù)器上, GPUStack 都能統(tǒng)一納管并形成統(tǒng)一算力集群。GPUStack 管理員可以從諸如 Hugging Face 等流行的大語(yǔ)言模型倉(cāng)庫(kù)中輕松部署任意 LLM。進(jìn)而,開(kāi)發(fā)人員則可以像訪問(wèn) OpenAI 或 Microsoft Azure 等供應(yīng)商提供的公有 LLM 服務(wù)的 API 一樣,非常簡(jiǎn)便地調(diào)用 OpenAI 兼容的 API 訪問(wèn)部署就緒的私有 LLM。”

幫助企業(yè)簡(jiǎn)單快速地開(kāi)啟 LLM 創(chuàng)新

當(dāng)前,企業(yè)如果想要在 GPU 集群上托管大模型,必須要做大量的工作來(lái)集成復(fù)雜的技術(shù)棧。通過(guò)使用 GPUStack,企業(yè)不再需要擔(dān)心如何管理 GPU 集群、推理引擎和推理加速、租戶和配額管理、使用和計(jì)量、性能度量、統(tǒng)一認(rèn)證授權(quán)和訪問(wèn)控制,以及儀表板。

如下圖所示,GPUStack 是一個(gè)構(gòu)建企業(yè)私有的大模型即服務(wù)(LLMaaS)的完整平臺(tái),擁有構(gòu)建大模型即服務(wù)所需的各項(xiàng)功能。管理員可以將模型從 Hugging Face 等模型倉(cāng)庫(kù)部署到 GPUStack 中,然后開(kāi)發(fā)人員可以連接到 GPUStack 提供的私有大模型 API,在他們的應(yīng)用中集成和使用私有大模型服務(wù)。

“隨著大語(yǔ)言模型能力的逐漸提高,企業(yè)和組織一方面對(duì)快速進(jìn)入 AI 時(shí)代充滿了信心并滿懷期待,希望大語(yǔ)言模型能盡快為自己的企業(yè)和組織帶來(lái)生產(chǎn)效能的提高,而另一方面,對(duì)于能否有效地把如火如荼的大語(yǔ)言模型技術(shù)進(jìn)一步與實(shí)際業(yè)務(wù)進(jìn)行有機(jī)結(jié)合,是否能因此產(chǎn)生相應(yīng)的效益,企業(yè)及團(tuán)隊(duì)又同時(shí)充滿了疑問(wèn)。我們希望通過(guò)簡(jiǎn)單易用的 GPUStack 平臺(tái),部署和運(yùn)行各種開(kāi)源大語(yǔ)言模型,提供 OpenAI 兼容的 API 接口,使得開(kāi)發(fā)人員簡(jiǎn)單方便地訪問(wèn)任何的 LLM。” Seal 聯(lián)合創(chuàng)始人及 CEO 秦小康介紹道,“最重要的是,我們支持 Nvidia,Intel,AMD 及眾多品牌的 GPU,在支持異構(gòu) GPU 集群的同時(shí)能為企業(yè)節(jié)省更多成本。幫助企業(yè)簡(jiǎn)單快速地開(kāi)啟 LLM 創(chuàng)新是 GPUStack 團(tuán)隊(duì)的初心和使命。”

整合GPU資源運(yùn)行大模型 組建GPU集群整合資源

GPUStack 可以聚合集群內(nèi)的所有 GPU 資源。它旨在支持所有的 GPU 廠商,包括英偉達(dá),蘋(píng)果,AMD,英特爾,高通,華為等。GPUStack 兼容運(yùn)行 MacOS、Windows 和 Linux 操作系統(tǒng)的筆記本電腦、臺(tái)式機(jī)、工作站和服務(wù)器。

模型部署和推理

GPUStack 為在不同 GPU 上部署不同大模型選擇最佳的推理引擎,支持的首個(gè)推理引擎是 LLaMA.cpp,其他推理引擎(如vLLM)的支持也在路線圖中。

在資源充足的情況下,GPUStack 默認(rèn)將模型全部卸載到 GPU,以實(shí)現(xiàn)最佳性能的推理加速。如果 GPU 資源相對(duì)不足,GPUStack 會(huì)同時(shí)使用 GPU 和 CPU 進(jìn)行混合推理,以最大限度地利用資源。而在沒(méi)有 GPU 資源的場(chǎng)景下,GPUStack 也支持純 CPU 推理。這樣的設(shè)計(jì)使 GPUStack 能夠更廣泛地適配各種邊緣或資源有限的環(huán)境。

快速與現(xiàn)有應(yīng)用集成

GPUStack 提供了與 OpenAI 兼容的 API,并提供了大模型試驗(yàn)場(chǎng)。開(kāi)發(fā)人員可以調(diào)試大模型并將其快速集成到自己的應(yīng)用中。此外,開(kāi)發(fā)人員還可以通過(guò)觀測(cè)指標(biāo)來(lái)了解應(yīng)用對(duì)各種大模型的使用情況。這也有助于管理員有效地管理 GPU 資源利用。

GPU 和 LLM 的觀測(cè)指標(biāo)

GPUStack 提供全面的性能、利用率和狀態(tài)監(jiān)控指標(biāo)。對(duì)于 GPU,管理員可以使用 GPUStack 實(shí)時(shí)監(jiān)控資源利用率和系統(tǒng)狀態(tài)。對(duì)于 LLM,相關(guān)指標(biāo)則可以幫助開(kāi)發(fā)人員評(píng)估模型的性能并優(yōu)化應(yīng)用。

認(rèn)證和訪問(wèn)控制

GPUStack 為企業(yè)提供身份驗(yàn)證和RBAC(Role-based Access Control)功能。這保證了只有授權(quán)的管理員可以部署和管理大模型,只有授權(quán)的開(kāi)發(fā)人員可以使用大模型,應(yīng)用也可以通過(guò)統(tǒng)一的 API 認(rèn)證授權(quán)訪問(wèn)各種大模型。

加入社區(qū),參與開(kāi)源共創(chuàng)

GPUStack 項(xiàng)目正在快速迭代,計(jì)劃引入對(duì)多模態(tài)模型的支持,更多的 GPU 廠商支持,以及更多的推理引擎支持。我們十分歡迎您一起參與開(kāi)源項(xiàng)目的貢獻(xiàn),也歡迎在我們的 GitHub 倉(cāng)庫(kù)上點(diǎn)亮 Star 關(guān)注我們的最新動(dòng)態(tài)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門(mén)排行

信息推薦