OpenAI Sora：距離黑客帝國僅一步之遙

喜歡熬夜的小孩 2024-02-19 09:55:56 瀏覽數(shù) (1870)

反饋

16日，OpenAI 宣布了 2024 年迄今為止最重要的人工智能模型：Sora，這是一種最先進的文本轉(zhuǎn)視頻模型，可以生成不同長寬比的高質(zhì)量、高保真 1 分鐘視頻。Sora領(lǐng)先于該領(lǐng)域的其他任何事物數(shù)英里。它是通用的、可擴展的，而且它也是……一個世界模擬器？

OpenAI不僅介紹了Sora，還發(fā)布了一些令人瞠目結(jié)舌的AI生成視頻供全世界觀看。根據(jù)OpenAI的說法，這些視頻擁有三個顯著特點：它們的時長為60秒，提供單個視頻內(nèi)的多角度拍攝，并且融合了世界模型。本質(zhì)上，OpenAI在視頻生成效果上實現(xiàn)了質(zhì)的飛躍，使Sora與之前的模型大不相同。這一成就不僅僅是技術(shù)上的突破，更是對視頻創(chuàng)作和內(nèi)容展現(xiàn)方式的一次革命。Sora的這些特點展現(xiàn)了OpenAI在模擬現(xiàn)實世界和創(chuàng)造性表達方面的前所未有的能力。

60秒視頻長度：這一特點使得Sora生成的視頻不僅局限于短暫的片段，而是能夠講述更完整的故事，提供更豐富的信息和情感表達。
多角度拍攝：這一功能模擬了真實世界中的攝影技術(shù)，為觀眾提供了從不同視角觀察場景的機會，增加了視頻的立體感和沉浸感。
世界模型融合（incorporate world models）：通過融合世界模型，Sora能夠在視頻中創(chuàng)造出更加復(fù)雜和真實的環(huán)境，使得生成的內(nèi)容不僅僅是視覺上的，還包含了對環(huán)境的深入理解和表達。

OpenAI，通過其在人工智能領(lǐng)域的持續(xù)創(chuàng)新和研究，實現(xiàn)了接近真實的AI視頻生成技術(shù)，主要歸功于其在自然語言處理、深度學(xué)習(xí)、以及生成模型等方面的突破。Sora項目的成功，特別是其能夠生成極其真實和富有想象力的視頻內(nèi)容，標(biāo)志著OpenAI在視頻生成領(lǐng)域達到了一個新的里程碑。下面我們將探討這種AI視頻生成技術(shù)的技術(shù)優(yōu)勢以及它可能對我們的生活乃至整個人類社會產(chǎn)生的影響。

Sora 的黑科技

Sora的技術(shù)究竟包含了哪些突破性的特征，使其能夠如此深刻地理解并構(gòu)建人類的指令語言呢？讓我們來深入探討OpenAI所暗示的“提供模型的多幀預(yù)測”這一突破以及其它相關(guān)技術(shù)特性。

多幀預(yù)測的能力

OpenAI通過社交媒體暗示的“提供模型的多幀預(yù)測”可能意味著Sora具有通過自我學(xué)習(xí)深入、情感化地理解和構(gòu)建人類發(fā)出的通用指令語言的能力。這表明Sora不僅能夠生成單一靜態(tài)畫面，而且能夠預(yù)測并生成一系列連續(xù)的動態(tài)畫面，這些畫面在邏輯上連貫且情感上豐富，為觀眾提供了流暢且連續(xù)的視覺故事。

“通用語言”理解

Sora能夠以極簡的方式生成視頻，只需用英語（或其他語言）描述所需場景，完全繞過了傳統(tǒng)3D視頻生成的復(fù)雜性。這種對人類語言的深刻理解和基于該理解構(gòu)建視頻的能力確實令人印象深刻。視頻生成所需的細節(jié)和深度遠超文本描述，這展示了在從文本到視頻的轉(zhuǎn)換中所體現(xiàn)的指數(shù)級復(fù)雜性和深度。

情感的傳達

AI生成的圖像和視頻在傳達人類情感方面歷來面臨挑戰(zhàn)。然而，Sora模型展示的角色展現(xiàn)出了令人難以置信的自然、合乎邏輯且細膩的情感，這些情感能夠無縫地適應(yīng)它們所處的環(huán)境，仿佛是“帶有靈魂的演員”，比實際的人還要逼真。

“構(gòu)建”現(xiàn)實世界的能力

OpenAI強調(diào)的“世界模型”概念中，Big Ivan認(rèn)為“構(gòu)建”是最關(guān)鍵的方面。真實世界按照特定的物理定律運作，例如對象遵循重力，風(fēng)吹動頭發(fā)，脆弱物品掉落時會按照可預(yù)測的方式破碎。Sora在這一方面展現(xiàn)了接近現(xiàn)實的驚人能力。??? 它發(fā)布的AI視頻展示了金色的拉布拉多狗狗在雪中嬉戲、一只奇異生物玩弄蠟燭，以及人們在日本櫻花季節(jié)悠閑地漫步。這些視頻嚴(yán)格遵循物理定律，展現(xiàn)了與因果完美對齊的無縫過渡和邏輯序列。

Sora的“構(gòu)建”能力能夠?qū)崿F(xiàn)接近真實世界的無限細節(jié)。與傳統(tǒng)3D建模受到幀數(shù)限制不同，Sora能夠無限復(fù)制細節(jié)。結(jié)合其接近真實的感知和聽覺能力，這種構(gòu)建世界的能力確實令人敬畏。

總結(jié)

Sora是一個開創(chuàng)性的人工智能模型，能夠根據(jù)文本提示生成既真實又富有想象力的視頻。作為OpenAI愿景的產(chǎn)物，Sora旨在創(chuàng)造能夠惠及人類并促進創(chuàng)造力發(fā)展的人工智能。Sora擁有多項特性，使其成為一個強大且多用途的工具，包括高度真實感、豐富想象、多樣化和可擴展性等。通過一種名為擴散變換器的創(chuàng)新人工智能架構(gòu)，結(jié)合潛在擴散和變換器技術(shù)，Sora能夠在一個廣泛且多樣化的視頻數(shù)據(jù)集上進行自我學(xué)習(xí)，掌握從數(shù)據(jù)本身學(xué)習(xí)的能力。隨著Sora未來向公眾開放的可能性，我們期待這項技術(shù)將如何繼續(xù)推動視頻創(chuàng)作的邊界，激發(fā)全球創(chuàng)作者的無限潛力。Sora不僅僅是技術(shù)的突破，它是向每個人展示創(chuàng)意無限、想象力無邊界的一扇窗。在Sora的幫助下，每個人都有機會成為故事的講述者，用視頻捕捉和分享世界的無限可能。

人工智能 ChatGPT

0 人點贊