【矽谷訊】Google DeepMind 日前正式對外發布其最新一代 AI 影片生成模型 —— Veo 3,這款技術性突破的多模態影像模型,能根據文字指令生成高畫質、連貫性極高的影片畫面,被外界譽為「AI 視覺創作時代的關鍵轉捩點」。Veo 3 不僅展示了 AI 模型對物理現象、攝影語言、甚至藝術風格的深度理解,也代表 AI 影像生成能力正從靜態圖像邁向動態敘事的新紀元。
Veo 3 是 Google DeepMind 長期以來發展多模態生成模型的成果之一,具備以文字、圖片、動作提示為輸入,生成長達數分鐘、解析度高達1080p、且具有時間一致性與邏輯合理性的動態影片能力。透過訓練於大量專業影像與開源影片數據,Veo 能理解複雜的場景構圖、鏡頭語言與情境變化,進而在短時間內產出高度寫實或風格化的影像片段。
在示範影片中,Veo 能夠依照指令如「一隻紅色氣球在巴黎鐵塔前飄浮」、「類似 Wes Anderson 電影風格的街景漫步」等提示,即時產出具備色彩調性、鏡頭運動與敘事邏輯的完整影片,展現 AI 不僅能「看到」畫面,更能「理解」影像。
DeepMind 團隊表示,Veo 3 是目前業界最接近「電影敘事式 AI」的商用級模型,具有三大技術核心突破:
- 物理邏輯一致性建模:Veo 能正確模擬光影、重力、反射與流體運動,避免傳統模型常出現的畫面扭曲與不連貫問題。
- 長序列生成能力:支援連續數十秒以上的影片輸出,並確保角色、背景與動作在時間軸上高度一致。
- 可調式創作風格:用戶可自定義畫風(寫實、動畫、油畫等)、鏡頭語言(廣角、俯拍、移動跟拍等)與敘事節奏,使 AI 創作更符合個人化需求。
Veo 3 的發表,對影像創作產業帶來重大衝擊與啟發。無論是電影導演、廣告創意人、動畫設計師,或社群內容創作者,未來都能透過簡單的語言敘述構想,由 AI 快速生成預覽畫面或全片段草稿,極大提升創作效率與降低製作門檻。
目前,Google 表示 Veo 仍處於內測階段,優先開放給特定創作者社群與研究團隊試用。未來幾個月將視市場與倫理回饋,逐步開放商用 API 與整合至 Google 的創作工具平台,包括 YouTube Shorts 與 Google Workspace 中的創意模組。
值得一提的是,DeepMind 也特別強調 Veo 的「安全與責任設計架構」。模型內建內容過濾機制,避免生成違法、仇恨或成人畫面;並要求使用者在商業使用前標註 AI 生成標籤,確保受眾知情。這也是回應近年來 AI 生成內容在倫理、版權與深偽影像上的高度關注。
產業專家指出,Veo 的登場將加速 AI 與創意產業的融合,改寫傳統影像製作流程,也可能引發新一波影視與社群內容平台的創作革命。某種程度上,未來影像內容的製作者不再需要昂貴的攝影棚或動畫團隊,而只需一段靈感與一台能運行 Veo 的裝置。
從 ChatGPT 寫文字、DALL·E 畫圖,到 Veo 創造影像敘事,人工智慧正快速重塑人類內容生產的方式。Veo 3 的出現,也讓我們離「文字即影像、靈感即電影」的未來世界,又更近一步。



