AI 創(chuàng)作，助力動(dòng)畫(huà)影像領(lǐng)域視覺(jué)敘事發(fā)展

《AIGC 電影短片單元啟動(dòng)儀式暨 AIGC 高端論壇現(xiàn)場(chǎng)紀(jì)實(shí)短片》

2024 年第十四屆北京國(guó)際電影節(jié)上，首次開(kāi)設(shè)了 “AIGC 電影短片單元” 競(jìng)賽，中國(guó)傳媒大學(xué)動(dòng)畫(huà)與數(shù)字藝術(shù)學(xué)院及 Ainimate Lab 在華為云的支持下共創(chuàng) AI 動(dòng)畫(huà)短片《致親愛(ài)的自己》，獲最佳影片榮譽(yù)。

雙方基于風(fēng)格化視頻生成、多模態(tài)大模型 CG+CV 等能力，使用連貫鏡頭對(duì)短片人物角色動(dòng)作、表情、場(chǎng)景、道具等進(jìn)行一致和穩(wěn)定刻畫(huà)，推動(dòng)故事情節(jié)發(fā)展，首次實(shí)現(xiàn) AIGC 動(dòng)畫(huà)領(lǐng)域的視覺(jué)敘事突破，并通過(guò)華為云 MetaStudio 開(kāi)放給更多創(chuàng)作者和企業(yè)，開(kāi)辟出可控性 AI 在影視動(dòng)畫(huà)工業(yè)流程的創(chuàng)新應(yīng)用之路，助力我國(guó)影視工業(yè)變革與發(fā)展。

“PPT 動(dòng)畫(huà)” 困境背后 AI 的創(chuàng)作難題

視覺(jué)敘事，也被稱為用視覺(jué)講故事，即通過(guò)眼睛可見(jiàn)就能把一個(gè)故事的前因后果來(lái)龍去脈呈現(xiàn)給觀眾。在影視動(dòng)畫(huà)領(lǐng)域，好作品往往離不開(kāi)獨(dú)具匠心的故事和獨(dú)特的敘事方式。

但當(dāng)前 AI 影片里，故事情節(jié)更多依靠旁白串聯(lián)全篇，這種主要通過(guò)聽(tīng)覺(jué)方式來(lái)捕捉故事畫(huà)面和情節(jié)的內(nèi)容，被業(yè)界稱為 “PPT 動(dòng)畫(huà)”。比如一個(gè)父親與失散已久女兒重逢的場(chǎng)景，鏡頭里可能有女兒揮舞的雙手，驚慌失措的哭喊，也有雙手揮舞間父親抿著唇，憋著氣，眼睛都不敢眨，但逐漸繃緊的身體和蓄滿的眼淚。AI 視覺(jué)敘事能力的缺失，可能讓鏡頭里只剩下蒼白的畫(huà)面，父親的微動(dòng)作和表情不再有，女兒和父親鏡頭的交疊轉(zhuǎn)換不再有，失去情緒表演的遞進(jìn)和感染力，觀眾無(wú)法帶入和共情，作品最重要的劇情、角色表演和敘事都不能完美呈現(xiàn)和被感知。

因此，大量 AI 模型生成的圖片或視頻，畫(huà)面雖然驚艷，但生成內(nèi)容要符合藝術(shù)家創(chuàng)作要求、符合人類對(duì)影片故事情節(jié)的需求，是一個(gè)非常具有挑戰(zhàn)的事情，這也是 AI 真正走進(jìn)影視動(dòng)畫(huà)工業(yè)流程的最大阻礙之一。

全球首個(gè) AI 共創(chuàng)電影節(jié) 這支最佳影片為什么獲獎(jiǎng)？

《致親愛(ài)的自己》由一段藝術(shù)性真人實(shí)拍短片轉(zhuǎn)繪生成，通過(guò)鏡頭時(shí)長(zhǎng)、人物表演、場(chǎng)景細(xì)節(jié)等的一致性和穩(wěn)定性突破，在 AI 動(dòng)畫(huà)影視視覺(jué)敘事方面實(shí)現(xiàn)重大提升，是一次藝術(shù)和技術(shù)的完美結(jié)合和劃時(shí)代碰撞。

2 個(gè)核心技術(shù)方案
風(fēng)格鎖定：不同類型的風(fēng)格化，需要匹配不一樣的基礎(chǔ)參數(shù)，本片通過(guò)上傳具有特定風(fēng)格屬性的原始數(shù)據(jù)，通過(guò)視覺(jué)生成式大模型微調(diào)形成一個(gè)生成式垂域模型，能同時(shí)滿足特定藝術(shù)風(fēng)格的畫(huà)面生成和具體角色的形象植入。

一致性處理：引入基于生成式大模型的視頻運(yùn)動(dòng)模塊，來(lái)增強(qiáng)幀間的動(dòng)態(tài)一致性，同時(shí)使用視頻一致性后處理算法來(lái)消除生成視頻的閃爍和抖動(dòng)。保證影片整體畫(huà)面穩(wěn)定，角色、物品在大幅度運(yùn)動(dòng)狀態(tài)下的一致性。

5 大創(chuàng)新突破
連續(xù)性突破：全片總時(shí)長(zhǎng)超過(guò) 4 分鐘，13 個(gè)分鏡環(huán)環(huán)相扣，最長(zhǎng)分鏡長(zhǎng)達(dá) 50 秒，始終保持場(chǎng)景、人物畫(huà)面連貫流暢；
一致性突破：影片中有大量大幅度舞蹈動(dòng)作，人物與鏡頭運(yùn)動(dòng)軌跡大，角色和道具前后始終保持一致；
可控性突破：風(fēng)格化幅度大，生成結(jié)果脫離原演員樣貌，但始終保持前后是一個(gè)人；
故事性突破：演員表情細(xì)節(jié)、肢體動(dòng)作細(xì)節(jié)要求嚴(yán)格，最關(guān)鍵幾個(gè)要傳達(dá)情緒的鏡頭里，把角色的表情保留下來(lái)，保證作品故事信息有效傳遞；
細(xì)節(jié)突破：色彩及光照陰影精細(xì)化處理，畫(huà)面更生動(dòng)。
此外，本片的后期制作中混音和調(diào)色采用 Audio Vivid(三維菁彩聲) 和 HDR Vivid(菁彩 HDR) 技術(shù)標(biāo)準(zhǔn)制作，畫(huà)面色彩、音樂(lè)效果等也得到大幅提升。

可控性 AI 工具影視動(dòng)畫(huà)工業(yè)化必由之路

影視動(dòng)畫(huà)原創(chuàng) IP 公司面臨的核心問(wèn)題，是產(chǎn)能來(lái)自哪里?，F(xiàn)階段 AIGC 視頻創(chuàng)作過(guò)程中，除了高質(zhì)量數(shù)據(jù)、更智能的模型之外，最大需求點(diǎn)在效率；選擇更成熟穩(wěn)定的工具，可以幫助藝術(shù)創(chuàng)作者高效率生成作品，極大節(jié)省創(chuàng)作時(shí)間。

在本次創(chuàng)作中，華為云為創(chuàng)作團(tuán)隊(duì)提供了基于 MetaStudio 的一站式云上數(shù)字內(nèi)容生產(chǎn)平臺(tái)能力，在云和 AI 的技術(shù)能力加持下，影片內(nèi)容生產(chǎn)方式發(fā)生質(zhì)的躍遷。

視頻從一張張靜態(tài)幀圖片到動(dòng)態(tài)畫(huà)面動(dòng)起來(lái)，需要保持前后連貫性和一致性。相較業(yè)界純 CV（視覺(jué)）生成視頻不理解物理世界軌跡的局限性，華為云 MetaStudio 基于多模態(tài)大模型構(gòu)建 CG+CV 能力，能精準(zhǔn)保留人物信息，保證視頻內(nèi)容在物理世界的合理性。以視頻生成動(dòng)畫(huà)為例，通過(guò)訓(xùn)練 50-100 張?zhí)囟L(fēng)格的圖片，比如油畫(huà)或素描等風(fēng)格，然后輸入視頻即可快速生成該風(fēng)格的動(dòng)漫視頻，并保持視頻中角色的樣貌特征前后一致，而且可以達(dá)到按需生成。

面對(duì)舞蹈等大幅度動(dòng)作產(chǎn)生較大的運(yùn)動(dòng)軌跡時(shí)，視頻生成容易出現(xiàn)合理性問(wèn)題，用華為云?CG+CV 的視頻生成技術(shù)，可以保證人物在大幅度運(yùn)動(dòng)時(shí)的面部輪廓、發(fā)型、體型等視覺(jué)效果都合理恰當(dāng)，前后連貫；而基于可控視頻生成的技術(shù)，才能滿足真正的工業(yè)場(chǎng)景應(yīng)用需求。