国产日韩在线时看高清视频-日韩精品欧美在线视频在线-国产理论剧情大片在线播放-日本一区二区a√成人片

新聞資訊
您3D數(shù)字內(nèi)容定制的優(yōu)質(zhì)合作伙伴
當(dāng)前位置:  首頁 >新聞資訊 >行業(yè)資訊 >查看詳情

一張照片,AI生成了90米真實3D世界! 英偉達Lyra 2.0讓虛擬世界不再“失憶”

來源: 鄭州華匠科技有限公司  日期:2026-05-06 14:18:17  點擊:151  屬于:行業(yè)資訊
 
 

一張照片,AI生成了90米真實3D世界!

英偉達Lyra 2.0讓虛擬世界不再“失憶”

今年4月,英偉達研究團隊正式發(fā)布并徹底開源了Lyra 2.0——一個僅需單張2D照片就能生成可自由探索的大規(guī)模3D世界的AI系統(tǒng)。這項被研究人員與開發(fā)者譽為“終結(jié)AI長視頻環(huán)境連續(xù)性問題核心障礙”的技術(shù),其關(guān)鍵突破在于:AI終于不再“失憶”了。

“造物的畫筆”:一張照片生成可漫游3D世界

 

Lyra 2.0本質(zhì)上是一個生成式3D場景構(gòu)建框架。技術(shù)上,它先將單張背景圖像送入一個擁有140億參數(shù)的視頻擴散模型(Wan 2.1-14B)模擬出攝像機在空間內(nèi)自由移動時的長序列畫面,然后利用前饋重建模塊將這些畫面快速轉(zhuǎn)為包含完整色彩、幾何結(jié)構(gòu)與紋理信息的3D場景。

 

生成的結(jié)果以“3D高斯?jié)姙R(3D Gaussian Splatting)”為主,輔以傳統(tǒng)的表面網(wǎng)格結(jié)構(gòu)。這套技術(shù)路線的關(guān)鍵優(yōu)勢在于:避免了傳統(tǒng)3D重建中多視角采集與復(fù)雜幾何擬合的漫長過程,可以一步到位。

 

英偉達研究實驗室還同步提供了交互式圖形界面(GUI):你可以在生成的3D點云中自由規(guī)劃攝像機路徑,系統(tǒng)會在你走入未知區(qū)域時實時生成新內(nèi)容。

業(yè)界第一道坎:AI一轉(zhuǎn)身就失憶

 

以前的AI生成3D場景有一個老大難問題:虛擬攝像機走遠并回頭后,原本的場景結(jié)構(gòu)會莫名其妙地崩塌或扭曲。

 

在學(xué)術(shù)界,這兩個問題分別被稱作“空間遺忘”與“時間漂移”:

空間遺忘:AI模型的計算窗口存在長度限制。一旦攝像機走遠,先前生成的區(qū)域會從記憶槽中脫落。當(dāng)模型需要再次展示那個區(qū)域時,只好“憑空腦補”,導(dǎo)致場景結(jié)構(gòu)前后矛盾。

 

時間漂移:模型的每一幀畫面都帶有微小誤差。距離越遠,這些誤差會被不斷放大,最終畫面變形到面目全非。

 

這兩個問題嚴(yán)重阻礙了產(chǎn)業(yè)落地,畢竟在機器人訓(xùn)練、自動駕駛仿真、工業(yè)數(shù)字孿生中,虛擬環(huán)境的穩(wěn)定性和連貫性是個硬指標(biāo)。

官方解決方案:給AI“記憶庫”并讓它吃自己的垃圾

 

Lyra 2.0針對上述兩個核心痛點,有兩項截然不同但效果顯著的技術(shù)創(chuàng)新:

 

第一招:引入幀級3D空間信息路由,杜絕“一回頭墻就歪”

 

Lyra 2.0不再依賴于視頻模型的時序畫面上下文,而是將每一幀獨立的3D幾何數(shù)據(jù)單獨存儲。當(dāng)攝像機返回曾經(jīng)探索過的區(qū)域時,AI直接調(diào)取歷史空間位置與幾何坐標(biāo)來恢復(fù)整體環(huán)境,杜絕了因“窗口”限制產(chǎn)生的憑空幻覺。

 

第二招:自增強訓(xùn)練,微誤差不傳代不被放大

 

從原理上講,時間漂移是逐步累積的,傳統(tǒng)模型自己的垃圾信息只會害了自己。Lyra 2.0獨辟蹊徑,在訓(xùn)練階段主動將模型自身產(chǎn)生的瑕疵輸出數(shù)據(jù)混入訓(xùn)練資源,使其在日常生成時就建立抑制誤差放大的糾錯機制,讓每步輸出都能盡量無限接近原始參考,從而在更長的距離里保持連貫。

 

技術(shù)效果相當(dāng)驚艷:基于這雙重策略,Lyra 2.0不僅能生成跨度接近90米的連貫環(huán)境,且在圖像質(zhì)量與攝像機控制等關(guān)鍵指標(biāo)上直接碾壓了GEN3C、Yume-1.5、CaM等6個業(yè)內(nèi)領(lǐng)先競品。

訓(xùn)練機器人,一張照片就夠了

 

對產(chǎn)業(yè)界來說,Lyra 2.0真正劃時代的意義在于:為具身智能與自動駕駛仿真訓(xùn)練鋪平了道路。

 

目前全球具身智能領(lǐng)域(服務(wù)機器人、自動駕駛、工業(yè)機器人等)都面臨訓(xùn)練真實3D場景成本過高的瓶頸——傳統(tǒng)3D構(gòu)建,一個百米街區(qū)往往要數(shù)周手動采集貼模與場調(diào),幾何畸變在所難免。而Lyra 2.0直接降低了這一門檻,它生成的3D虛擬場景無需真實世界海量數(shù)據(jù),只要一張單張照片即可。

 

Lyra 2.0可以無縫輸出到英偉達Isaac Sim物理引擎(這一組合已被全球機器人研發(fā)圈奉為標(biāo)配流程)。配合自帶的網(wǎng)格格式導(dǎo)出,機器人廠商可以在完全虛擬合成的訓(xùn)練環(huán)境中反復(fù)執(zhí)行抓取、移動與導(dǎo)航特訓(xùn),而不用扛著激光雷達滿場地跑數(shù)據(jù),訓(xùn)練周期和成本都有望大幅降低。

 

舉個例子:想訓(xùn)練一個能在商場做貨物配送的服務(wù)機器人,開發(fā)者只需隨手拍一張商場入口的照片,Lyra 2.0就能在幾分鐘內(nèi)把周圍長達90米的空間環(huán)境用AI無中生有出來,機器人在這個虛擬空間內(nèi)就可以反復(fù)試錯、迭代導(dǎo)航策略。

 

NVIDIA祭出殺手锏:不只自身大模型強,還要開源地讓別人更強

除了技術(shù)本身,NVIDIA這次極具攻擊性的策略還體現(xiàn)在商業(yè)化上:100%開源。Lyra 2.0的完整論文、源代碼與模型權(quán)重全部免費開放。

 

完整開源:在GitHub開源代碼庫中,Lyra框架完整可用,并以Apache-2.0寬松開源許可證發(fā)布,用戶可自由修改、發(fā)布甚至集成到商業(yè)產(chǎn)品中。

 

附贈GUI與適配NVIDIA生態(tài):系統(tǒng)附帶官方可視化的圖形界面(GUI)。

 

用戶在界面上任意規(guī)劃路徑,系統(tǒng)即可立即生成虛擬內(nèi)容,并能將最終3D模型直接拖進NVIDIA Omniverse、Issac Sim等主流工業(yè)仿真渲染平臺——完全打通了從照片、3D場景到物理仿真的全域工作流。

 

 寫在最后:物理世界與數(shù)字世界的邊界正在模糊

 

Lyra 2.0的發(fā)布,向業(yè)界發(fā)出一個清晰而強烈的信號:AI在工業(yè)數(shù)字孿生和虛擬世界構(gòu)建領(lǐng)域已進入新的技術(shù)層面。

 

開發(fā)者的門檻降低了:以往一個中型3D環(huán)境需要線下數(shù)周甚至數(shù)月手工三維建模的苦累工序,如今只需單張照片就能搞定。

 

AI具備了真正的物理空間推理能力:從記憶融合到空間重訪,Lyra 2.0解決的是AI理解幾何世界連貫性的基礎(chǔ)難題。

 

正如構(gòu)建Phigent Universe、Sora等初代3D世界模型的先驅(qū)讓AI理解物理世界一樣——Lyra 2.0讓我們看到一個AI不僅能看懂世界,還能一步構(gòu)建超大規(guī)模高連貫虛擬空間的未來。

 

或許再過幾年,在AI生成的數(shù)字世界中進行大規(guī)模機器人訓(xùn)練、無人車仿真路測,會成為每一個普通算法工程師都能輕松上手的日常工作。

 

這一幕,已經(jīng)不遠了。
將文章分享到: