當前位置:首頁 > 資訊 >

OpenAI 文字轉視訊模式 Sora 令人驚嘆,但仍存在弱點

人工智慧公司 OpenAI 於週四推出了其首個文字轉視頻模型,獲得了熱烈反響,不過該公司承認該模型還有很長的路要走。

OpenAI 於 2 月 15 日推出了名為 Sora 的新生成式 AI 模型,據稱該模型可以根據簡單的文本提示創建詳細的視頻、延續現有視頻,甚至基於靜態圖像生成場景。

隆重介紹 Sora,我們的文本轉視頻模型。Sora 可以創建長達 60 秒的視頻,其中包含高度詳細的場景、複雜的攝像機運動以及充滿活力的情感的多個角色。 https://t.co/7j2JN27M3WPprompt:「美麗,白雪皚皚… pic.twitter.com/ruTEWn87vf

- OpenAI (@OpenAI) 2024 年 2 月 15 日

根據 2 月 15 日的部落格文章,OpenAI 聲稱 AI 模型可以產生分辨率高達 1080p 的類似電影的場景。這些場景可以包括多個角色、特定類型的運動以及主題和背景的準確細節。

索拉的工作原理

與 OpenAI 基於影像的前身 DALL-E 3 非常相似,Sora 運行在所謂的「擴散」模型上。

擴散是指生成式人工智慧模型透過產生看起來更像「靜態雜訊」的影片或影像來創建其輸出,然後透過幾個步驟「消除雜訊」來逐漸轉換。

宣布推出 Sora——我們的模型可以根據文字提示創建一分鐘長的影片:https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— 格雷格·布羅克曼 (@gdb) 2024 年 2 月 15 日

這家人工智慧公司寫道,Sora 是建立在 GPT 和 DALL-E3 模型過去研究的基礎上的,該公司聲稱這使得該模型能夠更好地「忠實」地代表用戶輸入。

OpenAI 承認 Sora 仍然存在一些弱點,並且很難準確地模擬複雜場景的物理原理,即混淆了因果關係的本質。

“例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。”

該公司表示,新工具還可能透過混淆左右方向或無法遵循精確的方向描述來混淆給定提示的「空間細節」。

索拉可能會意外地產生物理上難以置信的運動。來源:OpenAI

OpenAI 表示,新的生成模型目前僅適用於“紅隊成員”(網路安全研究人員的技術術語),以評估“危害或風險的關鍵領域”,並選擇設計師、視覺藝術家和電影製作人來收集有關如何推進模型。

2023 年12 月,史丹佛大學的一份報告顯示,使用人工智慧資料庫LAION 的人工智慧圖像生成工具正在接受數千張非法虐待兒童材料的圖像的訓練,這引發了文本到文字轉換的嚴重道德和法律問題。圖像或視訊模型。

X上的用戶“無語”

數十個視訊演示已在 X 上流傳,展示了 Sora 的實際操作範例,而 Sora 目前在 X 上已發布超過 173,000 個帖子,成為熱門話題。

為了展示新的生成模型的能力,OpenAI 首席執行官 Sam Altman 向 X 上的用戶開放了自定義視頻生成請求,這位 AI 負責人總共分享了 7 個 Sora 生成的視頻,從鴨子騎龍回到金毛獵犬在山頂錄製播客。

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) 2024 年 2 月 15 日

人工智慧評論員 Mckay Wrigley 以及其他許多人寫道,Sora 生成的影片讓他「無言以對」。

Nvidia 資深研究員 Jim Fan 在 2 月 15 日發布的 X 貼文中宣稱,任何認為 Sora 只是另一個「創意玩具」(如 DALL-E 3)的人都大錯特錯。

如果您認為 OpenAI Sora 是像 DALLE 一樣的創意玩具,...再想一想。 Sora 是一個數據驅動的實體引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器學習複雜的渲染、「直觀」物理、長期推理和語義基礎,所有這些… pic.twitter.com/pRuiXhUqYR

— 吉姆範 (@DrJimFan) 2024 年 2 月 15 日

在 Fan 看來,Sora 與其說是一個視頻生成工具,不如說是一個“數據驅動的物理引擎”,因為人工智能模型不僅生成抽象視頻,而且還確定性地創建場景本身中對象的物理特性。

雜誌:“加密貨幣是不可避免的”,所以我們“全力以赴”——萬斯·斯賓塞 (Vance Spencer),permabull

猜你喜歡

微信二維碼

微信二維碼