OpenAI 最近推出了一款名為「Sora」的文本轉影片 AI 模型,能夠根據文字指令創建出逼真且富有想像力的場景。
這款模型能夠生成長達一分鐘的影片,同時保持視覺品質和對用戶提示的遵循。不但可以生成各種風格(如真實感、動畫、黑白等)的影片。這些 AI 生成的影片還保有合理的場景和連貫性,少有不符合物理世界的呈現方式。此外,Sora 還具有影片剪輯能力,可以填補剪輯缺失造成的錯誤細節。
雖然目前Sora 仍難以準確模擬複雜場景的物理原理,也可能無法理解具體事例的因果關係。但 Sora 的推出無疑是 AI 領域的一大突破,對於影片創作和內容生成等領域具有重大的潛力。
OpenAI 照例在公司網站公開了 Sora 相關的技術文獻,說明其基礎也是透過 Diffusion Transformer 架構達成,但新聚能科技研究團隊也從專利資訊中發現 Open AI 近期陸續申請了一些專利,顯示其智財的經營模式已從早期透過開源模式快速透市場,轉變成為閉源(只公開論文跟提供API), 甚至將用專利來強化其控制能力。
我們也從 Open AI 近期取得的一件專利,發現Sora對於語言理解的技術可能早在2023年4月就已經完成開發驗證,並終於在一年之後的近日進行成果展現
這件專利號為 US11887367B1 的專利, 揭露了 OpenAI 利用已標記的數位影片資料訓練反向動力學模型 ( inverse dynamics model ; IDM) ,然後以此模型對未標記的數位影片資料的一個或多個模仿至少一個時間步的動作的預測 (視評的旁白),生成至少一個偽標籤。之後就可以再使用這些有偽標簽標記的數位影片資料進一步訓練IDM或機器學習模型。藉此讓我們現在看到的Sora展顯出驚人的語言理解能力。
由於 Open AI掌握了支持影片生成的龐大算力,以及可強化影片與語文關聯的文字生成模型,現在又有了專利權的加持,無異於又加寬了護城河,提高其它跟隨者的競爭門檻。
參考資料:
如果您也希望跟 OpenAI 一樣,可以把上班的工作重點放在策略性的智財布局,而非事務性的文書工作,歡迎報名參加新聚能於3/15舉辦的線上研討會。