讓生成式 AI 觸手可及：火山引擎推出 NVIDIA NIM on VKE 最佳部署實(shí)踐

陳晨 ? 2024年8月13日 20:36:17 ? 產(chǎn)經(jīng)

技術(shù)行業(yè)近來(lái)對(duì)大語(yǔ)言模型（LLM）的關(guān)注正開(kāi)始轉(zhuǎn)向生產(chǎn)環(huán)境的大規(guī)模部署，將 AI 模型接入現(xiàn)有基礎(chǔ)設(shè)施以優(yōu)化系統(tǒng)性能，包括降低延遲、提高吞吐量，以及加強(qiáng)日志記錄、監(jiān)控和安全性等。然而這一路徑既復(fù)雜又耗時(shí)，往往需要構(gòu)建專(zhuān)門(mén)的平臺(tái)和流程。

在部署 AI 模型的過(guò)程中，研發(fā)團(tuán)隊(duì)通常需要執(zhí)行以下步驟：

環(huán)境搭建與配置：首先需要準(zhǔn)備和調(diào)試運(yùn)行環(huán)境，這包括但不限于 CUDA、Python、PyTorch 等依賴(lài)項(xiàng)的安裝與配置。這一步驟往往較為復(fù)雜，需要細(xì)致地調(diào)整各個(gè)組件以確保兼容性和性能。

模型優(yōu)化與封裝：接下來(lái)進(jìn)行模型的打包和優(yōu)化，以提高推理效率。這通常涉及到使用 NVIDIA TensorRT 軟件開(kāi)發(fā)套件或 NVIDIA TensorRT-LLM 庫(kù)等專(zhuān)業(yè)工具來(lái)優(yōu)化模型，并根據(jù)性能測(cè)試結(jié)果和經(jīng)驗(yàn)來(lái)調(diào)整推理引擎的配置參數(shù)。這一過(guò)程需要深入的 AI 領(lǐng)域知識(shí)，并且工具的使用具有一定的學(xué)習(xí)成本。

模型部署：最后，將優(yōu)化后的模型部署到生產(chǎn)環(huán)境中。對(duì)于非容器化環(huán)境，資源的準(zhǔn)備和管理也是一個(gè)需要精心策劃的環(huán)節(jié)。

為了簡(jiǎn)化上述流程并降低技術(shù)門(mén)檻，火山引擎云原生團(tuán)隊(duì)推出基于 VKE 的 NVIDIA NIM 微服務(wù)最佳實(shí)踐。通過(guò)結(jié)合 NIM 一站式模型服務(wù)能力，以及火山引擎容器服務(wù) VKE 在成本節(jié)約和極簡(jiǎn)運(yùn)維等方面的優(yōu)勢(shì)，這套開(kāi)箱即用的技術(shù)方案將幫助企業(yè)更加快捷和高效地部署 AI 模型。

AI 微服務(wù)化：NVIDIA NIM

NVIDIA NIM 是一套經(jīng)過(guò)優(yōu)化的企業(yè)級(jí)生成式 AI 微服務(wù)，它包括推理引擎，通過(guò) API 接口對(duì)外提供服務(wù)，幫助企業(yè)和個(gè)人開(kāi)發(fā)者更簡(jiǎn)單地開(kāi)發(fā)和部署 AI 驅(qū)動(dòng)的應(yīng)用程序。

NIM 使用行業(yè)標(biāo)準(zhǔn) API，支持跨多個(gè)領(lǐng)域的 AI 用例，包括 LLM、視覺(jué)語(yǔ)言模型（VLM），以及用于語(yǔ)音、圖像、視頻、3D、藥物研發(fā)、醫(yī)學(xué)成像等的模型。同時(shí)，它基于 NVIDIA Triton? Inference Server、NVIDIA TensorRT?、NVIDIA TensorRT-LLM 和 PyTorch 構(gòu)建，可以在加速基礎(chǔ)設(shè)施上提供最優(yōu)的延遲和吞吐量。

為了進(jìn)一步降低復(fù)雜度，NIM 將模型和運(yùn)行環(huán)境做了解耦，以容器鏡像的形式為每個(gè)模型或模型系列打包。其在 Kubernetes 內(nèi)的部署形態(tài)如下：

NVIDIA NIM on Kubernetes

火山引擎容器服務(wù) VKE（Volcengine Kubernetes Engine）通過(guò)深度融合新一代云原生技術(shù)，提供以容器為核心的高性能 Kubernetes 容器集群管理服務(wù)，可以為 NIM 提供穩(wěn)定可靠高性能的運(yùn)行環(huán)境，實(shí)現(xiàn)模型使用和運(yùn)行的強(qiáng)強(qiáng)聯(lián)合。

同時(shí)，模型服務(wù)的發(fā)布和運(yùn)行也離不開(kāi)發(fā)布管理、網(wǎng)絡(luò)訪問(wèn)、觀測(cè)等能力，VKE 深度整合了火山引擎高性能計(jì)算（ECS/裸金屬）、網(wǎng)絡(luò)（VPC/EIP/CLB）、存儲(chǔ)（EBS/TOS/NAS）、彈性容器實(shí)例（VCI）等服務(wù)，并與鏡像倉(cāng)庫(kù)、持續(xù)交付、托管 Prometheus、日志服務(wù)、微服務(wù)引擎等云產(chǎn)品橫向打通，可以實(shí)現(xiàn) NIM 服務(wù)構(gòu)建、部署、發(fā)布、監(jiān)控等全鏈路流程，幫助企業(yè)更靈活、更敏捷地構(gòu)建和擴(kuò)展基于自身數(shù)據(jù)的定制化大型語(yǔ)言模型（LLMs），打造真正的企業(yè)級(jí)智能化、自動(dòng)化基礎(chǔ)設(shè)施。

NVIDIA NIM on VKE 部署流程

下面，我們將介紹 NIM on VKE 的部署流程，助力開(kāi)發(fā)者快速部署和訪問(wèn) AI 模型。

準(zhǔn)備工作

部署 NVIDIA NIM 前，需要做好如下準(zhǔn)備：

1. VKE 集群中已安裝 csi-nas / prometheus-agent / vci-virtual-kubelet / cr-credential-controller 組件

2. 在 VKE 集群中使用相適配的 VCI GPU 實(shí)例規(guī)格，具體軟硬件支持情況可以查看硬件要求

3. 創(chuàng)建 NAS 實(shí)例，作為存儲(chǔ)類(lèi)，用于模型文件的存儲(chǔ)

4. 創(chuàng)建 CR（鏡像倉(cāng)庫(kù)）實(shí)例，用于托管 NIM 鏡像

5. 開(kāi)通 VMP（托管 Prometheus）服務(wù)

6. 向 NVIDIA 官方獲取 NIM 相關(guān)鏡像的拉取權(quán)限（下述以 llama3-8b-instruct:1.0.0 為例），并生成 API Key

部署

1. 在國(guó)內(nèi)運(yùn)行 NIM 官方鏡像時(shí)，為了避免網(wǎng)絡(luò)訪問(wèn)影響鏡像拉取速度，可以提前拉取相應(yīng) NIM 鏡像并上傳到火山引擎鏡像倉(cāng)庫(kù) CR，操作步驟如下：

2. Download the code locally, go to the Helm Chart directory of the code, and push Helm Chart to Container Registry (Helm version > 3.7):

下載代碼到本地，進(jìn)入到代碼的 helm chart 目錄中，把 helm chart 推送到鏡像倉(cāng)庫(kù)（helm 版本大于 3.7）：

3. 在 vke 的應(yīng)用中心的 helm 應(yīng)用中選擇創(chuàng)建 helm 應(yīng)用，并選擇對(duì)應(yīng) chart，集群信息，并點(diǎn)擊 values.yaml 的編輯按鈕進(jìn)入編輯頁(yè)

4. 覆蓋 values 內(nèi)容為如下值來(lái)根據(jù)火山引擎環(huán)境調(diào)整參數(shù)配置，提升部署性能，點(diǎn)擊確定完成參數(shù)改動(dòng)，再繼續(xù)在部署頁(yè)點(diǎn)擊確定完成部署

5. 若 Pod 日志出現(xiàn)如下內(nèi)容或者 Pod 狀態(tài)變成 Ready，說(shuō)明服務(wù)已經(jīng)準(zhǔn)備好：

6. 在 VKE 控制臺(tái)獲取 LB Service 地址（Service 名稱(chēng)為-nim-llm）

7. 訪問(wèn) NIM 服務(wù)

The output is as follows:

會(huì)有如下輸出：

監(jiān)控

NVIDIA NIM 在 Grafana Dashboard 上提供了豐富的觀測(cè)指標(biāo)，詳情可參考 Observability

在 VKE 中，可通過(guò)如下方法搭建 NIM 監(jiān)控：

1. 參考文檔搭建 Grafana：https://www.volcengine.com/docs/6731/126068

2. 進(jìn)入 Grafana 中，在 dashboard 菜單中選擇 import：

3. 觀測(cè)面板效果如下：

結(jié)語(yǔ)

相比構(gòu)建大模型鏡像，基于 VKE 使用 NVIDIA NIM 部署和訪問(wèn)模型有如下優(yōu)點(diǎn)：

● 易用性：NIM 提供了預(yù)先構(gòu)建好的模型容器鏡像，用戶無(wú)需從頭開(kāi)始構(gòu)建和配置環(huán)境，配合 VKE 與 CR 的應(yīng)用部署能力，極大簡(jiǎn)化了部署過(guò)程

● 性能優(yōu)化：NIM 的容器鏡像是經(jīng)過(guò)優(yōu)化的，可以在 NVIDIA GPU 上高效運(yùn)行，充分利用 VCI 的硬件性能

● 模型選擇：NIM 官方提供了多種大語(yǔ)言模型，用戶可以根據(jù)需求選擇合適的模型，部署在 VKE 中僅需對(duì)values.yaml 配置做修改即可

● 自動(dòng)更新：通過(guò) NGC，NIM 可以自動(dòng)下載和更新模型，用戶無(wú)需手動(dòng)管理模型版本

● 可觀測(cè)性：NIM 內(nèi)置了豐富的觀測(cè)指標(biāo)，配合 VKE 與 VMP 觀測(cè)能力開(kāi)箱即用

目前火山引擎容器服務(wù) VKE 已開(kāi)放個(gè)人用戶使用，為個(gè)人和企業(yè)用戶提供高性能、高可靠、極致彈性的企業(yè)級(jí)容器管理能力，結(jié)合 NIM 強(qiáng)大易用的模型部署服務(wù)，進(jìn)一步幫助開(kāi)發(fā)者快速部署 AI 模型，并提供高性能、開(kāi)箱即用的模型 API 服務(wù)。

本文轉(zhuǎn)載自：，不代表科技訊之立場(chǎng)。原文鏈接：http://zl.yisouyifa.com/html/240813/181430904177779.html

陳晨管理團(tuán)隊(duì)

0 0

產(chǎn)經(jīng)

金融APP客戶體驗(yàn)調(diào)查，中國(guó)人保等打造極致操作體驗(yàn)

在數(shù)字化轉(zhuǎn)型的浪潮下,移動(dòng)金融客戶端作為全面數(shù)字化轉(zhuǎn)型的主戰(zhàn)場(chǎng),以用戶為中心,借助科技賦能持續(xù)改善“用戶體驗(yàn)”已成為金融APP重點(diǎn)關(guān)注的戰(zhàn)略目標(biāo)。近期,為貫徹落實(shí)銀行業(yè)保險(xiǎn)業(yè)信息…

陳晨
3小時(shí)前
產(chǎn)經(jīng)

海爾李華剛：用戶共創(chuàng)，海爾麥浪冰箱上市不到半年銷(xiāo)量破40萬(wàn)臺(tái)

　　3月19日，海爾智家在上海舉行了生態(tài)大會(huì)。現(xiàn)場(chǎng)發(fā)言中，海爾集團(tuán)高級(jí)副總裁、海爾智家董事長(zhǎng)兼總裁李華剛表示：“用戶永遠(yuǎn)是第一位的，海爾智家通過(guò)用戶參與內(nèi)容的共創(chuàng)，把用戶從消費(fèi)者變…

科技探索者
4小時(shí)前
產(chǎn)經(jīng)

相約AWE 2025 三星家電產(chǎn)品藝術(shù)與科技交融打造更有AI的家

3月20日至23日，2025年中國(guó)家電及消費(fèi)電子博覽會(huì)（以下簡(jiǎn)稱(chēng)AWE 2025）將在上海新國(guó)際博覽中心隆重舉行。作為全球家電和消費(fèi)電子領(lǐng)域的頂級(jí)盛會(huì)，AWE 2025以“AI科技…

陳晨
4小時(shí)前
產(chǎn)經(jīng)

RTX 5080炙手可熱！看完宏碁暗影騎士·擎7新品你就知道有多炸！

全新一代英偉達(dá)RTX50系顯卡儼然已成為整個(gè)PC乃至科技行業(yè)的關(guān)注點(diǎn)，其 Blackwell架構(gòu)GPU以顛覆性表現(xiàn)點(diǎn)燃AI算力引擎，它可以在更小的內(nèi)存占用下以高達(dá)2倍的速度運(yùn)行創(chuàng)意…

陳晨
4小時(shí)前
產(chǎn)經(jīng)

以AI為紐帶三星Galaxy Z系列手機(jī)帶來(lái)高效、便捷新體驗(yàn)

在智能手機(jī)行業(yè)同質(zhì)化競(jìng)爭(zhēng)日益激烈的環(huán)境下，三星Galaxy Z系列憑借獨(dú)特的折疊屏形態(tài)、不斷深入的本土化創(chuàng)新服務(wù)以及前沿AI技術(shù)的加持，持續(xù)刷新著移動(dòng)交互方式，從而為用戶帶來(lái)更加高…

陳晨
4小時(shí)前
產(chǎn)經(jīng)

獨(dú)創(chuàng)智擎動(dòng)力系統(tǒng)！小熊滾筒智洗艙亮相AWE2025：洗得凈，烘得快

　　在現(xiàn)代生活中，人們追求的不再是簡(jiǎn)單的功能滿足，而是更細(xì)膩的生活方式表達(dá)——便捷中保有儀式感，高效中不失從容感。小熊電器深諳這一趨勢(shì)演變，以用戶為圓心，用產(chǎn)品升級(jí)和場(chǎng)景創(chuàng)新讓品質(zhì)…

若安丶
5小時(shí)前
產(chǎn)經(jīng)

海爾李華剛：并購(gòu)CCR第一個(gè)季度就扭虧為盈

　　3月19日，海爾智家在上海世博中心舉行以“AI生活，智慧萬(wàn)家”為主題的生態(tài)大會(huì)。現(xiàn)場(chǎng)，海爾集團(tuán)高級(jí)副總裁、海爾智家董事長(zhǎng)兼總裁李華剛向大家分享了2024年的機(jī)遇與挑戰(zhàn)，也帶來(lái)了…

若安丶
5小時(shí)前
產(chǎn)經(jīng)

問(wèn)界新M7上海城區(qū)智駕0接管，30萬(wàn)級(jí)SUV誰(shuí)更勝一籌？

近期，汽車(chē)之家發(fā)布了一期問(wèn)界新M7上海城區(qū)零接管的視頻，再次將問(wèn)界新M7推上了熱門(mén)話題。要知道，作為30萬(wàn)級(jí)SUV市場(chǎng)的明星車(chē)型，問(wèn)界新M7憑借卓越的智駕實(shí)力、全面的產(chǎn)品表現(xiàn)以及超…

陳晨
7小時(shí)前
產(chǎn)經(jīng)

拒絕隔夜久泡豆！AWE2025小熊電器早安破壁機(jī)再升級(jí)：更健康更干凈

　　當(dāng)晨露浸潤(rùn)枝頭嫩芽，當(dāng)?shù)谝豢|陽(yáng)光穿透云層，人類(lèi)對(duì)新鮮的追逐從未停歇。即使一杯豆?jié){，因隔夜久泡滋生的酸澀異味和細(xì)菌滋生，都會(huì)在入口的那一刻露出馬腳。如何讓早餐的第一口被鮮香驚艷？…

若安丶
7小時(shí)前
三星Galaxy Buds3系列：為每日通勤注入音樂(lè)能量

城市熙熙攘攘，我們穿梭其中。從家到目的地的兩點(diǎn)一線之間，每天都有很大一段時(shí)間“在路上”。當(dāng)通勤乘坐公交、地鐵等各種公共交通工具的時(shí)候，動(dòng)聽(tīng)的音樂(lè)是最好的陪伴，同時(shí)出色的降噪也能讓我…

陳晨
產(chǎn)經(jīng) 7小時(shí)前
2025 年 2 月頭號(hào)惡意軟件：AsyncRAT 風(fēng)頭漸起，并瞄準(zhǔn)可信平臺(tái)發(fā)起攻擊

AsyncRAT 威脅日益嚴(yán)峻，網(wǎng)絡(luò)犯罪分子繼續(xù)利用合法平臺(tái)逃避檢測(cè)并持久部署惡意軟件 2025 年 3 月，網(wǎng)絡(luò)安全解決方案先驅(qū)者和全球領(lǐng)導(dǎo)者 Check…

陳晨
產(chǎn)經(jīng) 11小時(shí)前
產(chǎn)經(jīng)

技嘉AORUS助力絕地求生冠軍聯(lián)賽（PCL）專(zhuān)業(yè)電競(jìng)賽事

國(guó)內(nèi)頂級(jí)戰(zhàn)術(shù)競(jìng)技賽事——絕地求生冠軍聯(lián)賽(PCL)2025賽季與技嘉AORUS的戰(zhàn)略合作今日重磅官宣!作為國(guó)內(nèi)規(guī)模最大、競(jìng)技水平最高的PUBG職業(yè)賽事,本…

陳晨
11小時(shí)前
產(chǎn)經(jīng)

結(jié)識(shí)AI新伙伴三星Galaxy S25系列品鑒會(huì)在滬舉辦

2025年3月18日，三星Galaxy S25系列媒體品鑒會(huì)在上海舉辦，三星Galaxy S25 Ultra、Galaxy S25+以及Galaxy S25三款新品亮相現(xiàn)場(chǎng)。作為三…

陳晨
11小時(shí)前
產(chǎn)經(jīng)

一鍵聲臨其境，鴻蒙版騰訊新聞背后的“絲滑邏輯”

隨著HarmonyOS NEXT實(shí)現(xiàn)從“基礎(chǔ)適配”到“體驗(yàn)躍升”的進(jìn)階，鴻蒙版騰訊新聞，通過(guò)重構(gòu)隱私安全機(jī)制、深度融合小藝智能體及統(tǒng)一播控、統(tǒng)一分享等能力，持續(xù)進(jìn)行體驗(yàn)迭代和進(jìn)化，…

陳晨
12小時(shí)前
產(chǎn)經(jīng)

焱融存儲(chǔ)YRCloudFile發(fā)布面向AI推理的分布式KV Cache特性

AI 存儲(chǔ)廠商焱融科技宣布，其自主研發(fā)的分布式文件存儲(chǔ)系統(tǒng) YRCloudFile 已成功支持大模型推理場(chǎng)…

陳晨
12小時(shí)前
深度剖析 2025 Unity 游戲行業(yè)報(bào)告：新趨勢(shì)下開(kāi)發(fā)者的機(jī)遇與挑戰(zhàn)

近日，全球領(lǐng)先的實(shí)時(shí)3D開(kāi)發(fā)平臺(tái)Unity發(fā)布《2025年Unity游戲行業(yè)報(bào)告》，為游戲開(kāi)發(fā)者和從業(yè)者揭示了在復(fù)雜多變的市場(chǎng)環(huán)境下，行業(yè)如何通過(guò)優(yōu)化資源、創(chuàng)新技術(shù)和拓展市場(chǎng)，實(shí)現(xiàn)…

陳晨
產(chǎn)經(jīng) 1天前
產(chǎn)經(jīng)

AI影像與春日共舞三星Galaxy Z Fold6踏青出游好搭檔

春暖花開(kāi)之際，大地回春，萬(wàn)物皆顯生機(jī)盎然，大自然卸去冬日的裝扮，換上了生機(jī)勃勃的新顏，每一處景致都宛如一幅精美的畫(huà)卷，吸引著攝影愛(ài)好者的目光。在這個(gè)充滿浪漫氣息的季節(jié)里，三星Gal…

陳晨
1天前
影游旗艦海信E8Q Pro，大屏?xí)r代需要這樣的 “體驗(yàn)標(biāo)桿”

“破內(nèi)卷”是2025開(kāi)年以來(lái)的熱門(mén)詞，而彩電行業(yè)長(zhǎng)期陷入“參數(shù)內(nèi)卷” 與 “體驗(yàn)脫節(jié)” 的怪圈，如何讓用戶 “看見(jiàn)真實(shí)，感受沉浸”？ 3月9日，海信發(fā)布了被定義為“影游旗艦”的20…

陳晨
產(chǎn)經(jīng) 1天前
產(chǎn)經(jīng)

芯片與軟件如何高效協(xié)同，加特蘭的平臺(tái)化實(shí)踐

2025年3月18日，上海，由蓋世汽車(chē)主辦的“第六屆軟件定義汽車(chē)論壇暨AUTOSAR中國(guó)日”正式開(kāi)幕。大會(huì)吸引了超過(guò)500名來(lái)自全球主機(jī)廠、Tier1供應(yīng)商、芯片企業(yè)的技術(shù)專(zhuān)家，圍…

陳晨
1天前
產(chǎn)經(jīng)

金犢獎(jiǎng) | 2025命題發(fā)布 MSI微星創(chuàng)作設(shè)計(jì)獎(jiǎng)

什么是金犢獎(jiǎng)？時(shí)報(bào)金犢獎(jiǎng)（以下簡(jiǎn)稱(chēng)：金犢獎(jiǎng)）創(chuàng)辦于1992年，創(chuàng)辦之初，以莊子·知北游篇「初生之犢, 不畏虎」之意，鼓勵(lì)青年，勇敢表現(xiàn)自己。作為全球華文創(chuàng)意重要競(jìng)賽之一，迄今為止…

陳晨
1天前

發(fā)表回復(fù)

登錄后才能評(píng)論

讓生成式 AI 觸手可及：火山引擎推出 NVIDIA NIM on VKE 最佳部署實(shí)踐

相關(guān)推薦

發(fā)表回復(fù)