黃世澤（中凱科技股份首席技術(shù)官）受邀參加在“2024全球開發(fā)者先鋒大會”上做視覺大模型在軌道交通應(yīng)用主題報告

中凱科技股份

3月23-24日，“2024全球開發(fā)者先鋒大會”（GDC）在上海徐匯盛大開幕。大會由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展（集團）有限公司、開放原子開源基金會主辦。以“模速空間——開發(fā)者的模力之源”為主題，促進全球范圍內(nèi)最尖端技術(shù)、最熱門議題和最先鋒人才的深入交流與對話，以上海模速空間創(chuàng)新生態(tài)社區(qū)為抓手，不斷優(yōu)化生態(tài)環(huán)境，引導全球頂尖人才向上海匯聚，助推上海成為高科技產(chǎn)業(yè)高地[1]。作為國內(nèi)人工智能發(fā)展高地，上海將支持通用大模型和垂直大模型的研發(fā)，推動大模型在金融、教育、醫(yī)療等典型領(lǐng)域的垂直應(yīng)用。

主會場攝影圖像

陳杰副市長致辭

大會期間，同濟大學交通運輸工程學院黃世澤副教授（中凱科技股份首席技術(shù)官）受邀參加全球開發(fā)者先鋒大會數(shù)字城軌論壇“軌交大模型與可靠性工程”。

主題報告

參與討論

論壇合照

黃世澤副教授（中凱科技股份首席技術(shù)官）在會議上發(fā)表演講“視覺大模型及其在軌道交通弓網(wǎng)視頻處理中的應(yīng)用”，介紹了團隊長期從事的軌道交通智能運維相關(guān)研究，以及將視覺大模型應(yīng)用在軌道交通智能運維的相關(guān)工作，包括將Segment Anything Model（SAM)[2]應(yīng)用于弓網(wǎng)支撐裝置的分割，將Recognize Anything Model（RAM)[3]應(yīng)用于列車運行環(huán)境的感知,以及對視覺大模型本質(zhì)安全的探究。充分利用視覺大模型的優(yōu)勢，從已有的視頻資源中挖掘大量有效信息并進行整合，在不需額外標注的情況下提取場景的語義信息，以輔助軌道交通智能運維工作。

Part.1/ 成功將SAM應(yīng)用于弓網(wǎng)支撐裝置分割

1. 成功將SAM應(yīng)用于弓網(wǎng)支撐裝置分割

根據(jù)《高速鐵路接觸網(wǎng)運行檢修規(guī)則》，接觸網(wǎng)零部件故障可能不會直接引起接觸網(wǎng)跳閘等，但卻導致接觸網(wǎng)系統(tǒng)整體可靠性下降，增加事故隱患，這些零部件及設(shè)備的技術(shù)狀態(tài)直接關(guān)乎高速鐵路接觸網(wǎng)的運行安全。弓網(wǎng)支撐裝置分割效果會直接影響基于計算機視覺的零部件狀態(tài)監(jiān)測的檢測效果，從復雜多變的背景中準確提取弓網(wǎng)支撐裝置是后續(xù)零部件狀態(tài)監(jiān)測的重要基礎(chǔ)。

弓網(wǎng)支撐裝置分割任務(wù)存在像素級數(shù)據(jù)標注工作量大、背景復雜多變、天氣情況多樣、弓網(wǎng)幾何結(jié)構(gòu)多樣的問題，針對存在的難點，團隊提出基于SAM實現(xiàn)對車載視頻的全景分割方法，實驗表明基于SAM模型的半監(jiān)督弓網(wǎng)支撐裝置分割方法效果較好，分割示例如下：

圖：基于SAM的弓網(wǎng)支撐裝置分割效果

Part.2/ 探索RAM對列車運行環(huán)境的感知效果

列車運行環(huán)境感知依賴于傳感器收集數(shù)據(jù)信息并分析，以實現(xiàn)狀態(tài)監(jiān)測和故障診斷，但存在大量“同質(zhì)化”傳感器，同時，受制于成本、空間的限制，難以布設(shè)新傳感器。海量弓網(wǎng)視頻的信息有待發(fā)掘，基于弓網(wǎng)視頻實現(xiàn)列車運行環(huán)境感知可以充分利用現(xiàn)有資源，在不耗費額外資源的前提下實現(xiàn)對于環(huán)境的感知。傳統(tǒng)深度學習方法采用人工構(gòu)建的分類樣本集作為訓練數(shù)據(jù)，耗時耗力，并且難以窮盡所有分類與識別環(huán)境細節(jié)。

基礎(chǔ)模型RAM擁有“識別一切”能力，無需人工標注，可以高精度識別任何常見類別。基于RAM的識別結(jié)果，通過分析標簽時序圖特征整體可以感知列車全過程運行環(huán)境，感知結(jié)果與列車實際運行環(huán)境吻合度較高，示例如下：

圖：列車運行環(huán)境感知示例

未來，團隊將繼續(xù)探究視覺大模型在環(huán)境感知方面的應(yīng)用，研究大模型在不同的視覺語義理解場景中的應(yīng)用，并為軌道交通領(lǐng)域的多模態(tài)融合感知提供研究基礎(chǔ)。

Part.3/ 探究視覺大模型的本質(zhì)安全威脅

團隊聚焦列車行駛環(huán)境感知場景下的對抗樣本攻防問題，圍繞列車（有軌電車）行駛環(huán)境感知對抗樣本攻防目標，障礙物檢測、軌行區(qū)識別以及交警指揮行為姿態(tài)估計場景，解決對抗樣本攻擊下列車行駛環(huán)境可信感知科學問題。針對SAM模型，團隊提出具有提示間遷移性的對抗攻擊方法，攻擊效果如下：

研究表明，SAM等視覺大模型與其他深度學習方法一樣，存在對抗樣本風險，對此，團隊也將聚焦大模型安全性，考慮對抗樣本對于大模型的風險，同步實現(xiàn)對抗樣本防御，為平穩(wěn)度過技術(shù)迭代升級時期提供支撐。

Part.4/ 展望

新一代模型最強的能力是生成，例如，Sora可以生成具有多個角色、包含特定運動的復雜場景。這對于稀缺樣本生成擴充、提供感知算法測試場景、自動構(gòu)建數(shù)字孿生場景均提供了潛在有力的工具。

圖：生成模型的用途場景展望

會議結(jié)束后，中車、卡斯柯等企業(yè)圍繞上述研究的落地展開了進一步交流。未來，探究大模型在軌道交通領(lǐng)域智能運維的應(yīng)用與發(fā)展，將是團隊繼續(xù)追尋的目標，期待各位專家的指導。

中凱科技致力于智能監(jiān)控管理平臺的研發(fā)，實現(xiàn)企業(yè)管理的數(shù)字化，用數(shù)據(jù)為企業(yè)賦能，全面提升企業(yè)管理水平。

同濟大學和浙江中凱20余年持續(xù)合作，未來將探索視覺大模型引入到中凱的監(jiān)控管理平臺。

繼續(xù)滑動看下一個

国产刺激对白国产情侣,成年女人视频色孤视频,亚洲AV人人澡人人人夜,亚洲国产成人综合久久免费

黃世澤（中凱科技股份首席技術(shù)官）受邀參加在“2024全球開發(fā)者先鋒大會”上做視覺大模型在軌道交通應(yīng)用主題報告