久久精品国产亚洲av网站,多姿,做爱AV在线观看,五月乱伦,午夜sese电影

魚泡網(wǎng)首頁推薦職位搜索職位搜索公司校招意外險特種作業(yè)證下載APP

登錄注冊后可以:

直接與老板/牛人聯(lián)系

更精準(zhǔn)匹配求職意向

獲取更多的求職信息

GPU服務(wù)器二線運維工程師,要求十年以上工作經(jīng)驗,碩士及以上學(xué)歷

2.5-3.5萬元/月

該職位于3日內(nèi)新發(fā)布

職位詳情
微信掃碼分享
投訴

運維工程師

2.5-3.5萬元/月

崗位職責(zé):

1.復(fù)雜故障深度診斷

(1)針對搭載NVIDIAH100/H800/H200、AMDMI300等高端GPU的服務(wù)器,快速定位并修復(fù)硬件級故障(如GPU核心損壞、HBM顯存異常、PCIe鏈路中斷),熟練使用示波器、邏輯分析儀等工具進(jìn)行電路級分析。

(2)處理CUDA環(huán)境崩潰、驅(qū)動兼容性沖突等軟件問題,優(yōu)化AI框架(PyTorch/TensorFlow)在多GPU集群中的運行穩(wěn)定性。

2.性能調(diào)優(yōu)與架構(gòu)設(shè)計

(1)基于AI大模型訓(xùn)練/推理場景,通過NVLink/NVSwitch配置、NCCL通信優(yōu)化、內(nèi)存帶寬調(diào)優(yōu)(如HBM2E/HBM3帶寬綁定)提升集群算力利用率,目標(biāo)達(dá)成硬件峰值算力的90%以上。

(2)設(shè)計混合精度訓(xùn)練方案(FP16/FP8/INT8),結(jié)合TensorCore特性實現(xiàn)算子級優(yōu)化(如Conv/GEMM稀疏化),降低訓(xùn)練能耗比。

3.云原生集群管理

(1)主導(dǎo)KubernetesGPU資源調(diào)度系統(tǒng)的落地,實現(xiàn)萬卡級集群的故障自愈(如節(jié)點宕機自動遷移、GPU硬件健康狀態(tài)實時監(jiān)控),保障訓(xùn)練任務(wù)中斷率低于0.5%。

(2)開發(fā)自動化工具鏈(Ansible/Terraform),實現(xiàn)服務(wù)器固件升級、驅(qū)動部署、日志采集的全流程無人化。

4.前沿技術(shù)落地與協(xié)作

(1)參與Blackwell架構(gòu)GPU(如H200)的預(yù)研測試,驗證其在Transformer模型訓(xùn)練中的性能表現(xiàn),輸出硬件選型建議。

(2)與芯片設(shè)計團隊協(xié)作,針對國產(chǎn)GPU(如摩爾線程MTTS80)進(jìn)行驅(qū)動適配和性能調(diào)優(yōu),構(gòu)建國產(chǎn)化算力替代方案。

任職要求:

1.硬件與系統(tǒng)深度經(jīng)驗

(1)5年以上GPU服務(wù)器運維或研發(fā)經(jīng)驗,至少主導(dǎo)過3個以上H100/A100集群的部署優(yōu)化項目,熟悉GPU散熱設(shè)計、機房環(huán)動和電源管理(12VHPWR接口兼容性)。

(2)精通Linux內(nèi)核調(diào)優(yōu)(如NUMA節(jié)點綁定、IRQ親和性),能通過NsightCompute分析CUDA內(nèi)核性能瓶頸,提出寄存器分配、共享內(nèi)存優(yōu)化方案。

2.云原生與分布式技術(shù)

(1)熟練掌握KubernetesDevicePlugin機制,具備GPU虛擬化(如vGPU)和混部場景下的資源隔離經(jīng)驗,曾主導(dǎo)過超大規(guī)模集群(5000+節(jié)點)的穩(wěn)定性保障工作。

(2)熟悉InfiniBand網(wǎng)絡(luò)配置(如ConnectX-6/7網(wǎng)卡),能通過OPA驅(qū)動優(yōu)化RDMA通信延遲至微秒級,支持分布式訓(xùn)練中的跨節(jié)點數(shù)據(jù)同步。

3.正向考核適配能力

(1)具備強結(jié)果導(dǎo)向思維,過往績效中至少3次超額完成技術(shù)指標(biāo)(如集群GPU利用率提升20%以上、故障恢復(fù)時間縮短50%)。

(2)英語流利(CET-6或等同水平),能獨立對接海外團隊完成技術(shù)方案落地,適應(yīng)全球數(shù)據(jù)中心的短期出差(年均20%)。

4.加分項

(1)持有NVIDIA認(rèn)證CUDA工程師(CCE)或Kubernetes認(rèn)證管理員(CKA)資質(zhì)。

(2)參與過開源項目(如KubeEdge邊緣計算、Horovod分布式訓(xùn)練框架)貢獻(xiàn)者優(yōu)先。

崗位亮點:

?接觸全球先進(jìn)的AI算力基礎(chǔ)設(shè)施(如H200GPU集群)。

?參與國家級算力網(wǎng)絡(luò)建設(shè)項目,與中科院、高校聯(lián)合攻關(guān)核心技術(shù)。

?扁平化管理架構(gòu),技術(shù)決策直接影響公司戰(zhàn)略方向。

職業(yè)發(fā)展路徑:

?技術(shù)專家線:高級工程師→GPU架構(gòu)師→AI基礎(chǔ)設(shè)施總監(jiān)(管理50人+團隊)。

?業(yè)務(wù)融合線:技術(shù)顧問→行業(yè)解決方案專家(覆蓋金融/醫(yī)療/自動駕駛/環(huán)保等領(lǐng)域)。

崔先生實名

上海徐匯區(qū)徐匯區(qū)

工商信息

法定代表人:

張津生

成立日期:

2025-02-21

查看全部

項目地點
上海徐匯區(qū)徐匯區(qū)
點擊查看地圖

相關(guān)推薦查看更多 >

徐匯區(qū)

搜索

各大行業(yè)職位任你選

首次驗證通過即注冊魚泡直聘賬號

獲取驗證碼
已閱讀并同意
《隱私政策》《服務(wù)協(xié)議》
登錄/注冊

精選職位推薦

運維網(wǎng)絡(luò)工程師

4000-6000元/月
運維工程師

桌面運維,電腦,打印機,軟件安裝等

面議
運維工程師

上海寶山區(qū)招水電家裝,需要電工,人品好

100-400元/天
水電工1-4天1-2人完工結(jié)算專業(yè)師傅自備工具技術(shù)好
胡先生實名7月22日 06:39

上海青浦區(qū)需要幾個盤扣內(nèi)架,短做的,長干的都行,現(xiàn)金。

面議
內(nèi)架長期
袁先生實名7月22日 06:37
請選擇城市
熱門城市ABCDEFGHJKLMNPQRSTWXYZ
全國