人類因科技賦能而無所不能
不再有失業貧困弱勢的狀態
過去,生成式AI所產生的圖片要再修改並不容易,因為它是融合好的像素,對使用繪圖工具者來說,就是將圖層及物件全部合併的成品,想再修改其中元素就得大費周章。
現在 Canva 的AI 平台可把上傳的圖片,自動將內容拆解成圖層及物件,如此便可針對特定單元進行調整,而不影響其他物件,這種分層及物件化的處理方式(再加上時間變化)是目前各種數位內容,不管是圖片、聲音、影片的製作方式,這種活圖(各種獨立的物件主體)將比死圖(單純2D像素)的運用及變化還來的巨大。
未來這種物件化的生成式AI,將可以套入世界模型(具備物理及時空環境)中,而每個物件再由AI代理人來控制,而複雜物件可能由多個代理(負責對話、發聲、動作與移動控制、物理光學反應.....)組成,並在世界模型中來進行動作。
過程中,所有物件(含其代理人)可以彼此互動並反應物理變化,如碰撞時的變形、反彈或破裂,這種更接近真實的生成,將是未來生成式AI重大的轉變,也會影響我們製作圖片、聲音、動畫、影片、電影或是小說的模式(當然也可以包含各種物理及科學的研究及模擬過程),因故事發展可照人類的劇本發展,或是直接由AI代理人的個性設定,任其自由發揮。
至於最終想要什麼成果,只要告知專案AI代理人,任務完成後他就會通知您。
以下藉由 AI 推理,來解釋觀念及運作邏輯
生成式AI的新階段:圖層化、物件、世界地圖與AI代理人協作機制的未來預測
一、從生成「結果」到生成「世界」
過去十年,生成式AI的核心能力集中在「結果導向」:輸入提示(prompt),輸出一張圖、一段文字或一段音樂。然而,這種模式本質上仍是靜態生成,缺乏內在結構與持續演化能力。
未來的新階段,將從「生成結果」轉向「生成世界(World Generation)」。這意味著AI不再只產出單一內容,而是建立一個具備以下特性的系統:
可分層(Layered)
可操作(Object-based)
可模擬(Physics-aware)
可互動(Agent-driven)
可持續演化(Persistent state)
這種轉變,等同於從「畫一張圖」進化為「建立一個宇宙」。
二、圖層化(Layerization):從像素到語意結構
未來的生成式AI,第一個關鍵突破是圖層化生成(Layerized Generation)。
當使用者輸入需求,例如:「一個中世紀城市黃昏的市場」,AI不再輸出單一扁平圖像,而是生成如下結構:
背景層(天空、光源)
環境層(建築、街道)
角色層(人物、動物)
動態層(煙霧、光影變化)
互動層(事件觸發點)
每一層不只是視覺元素,而是帶有語意與行為定義的模組。
這種圖層化的本質,是將「影像」轉換為「可計算結構(computable structure)」。
也就是說,未來的圖片不再是JPEG,而是類似於:
一個可編輯、可運算、可演化的多維資料場。
三、物件化(Objectization):萬物皆為可操控單元
在圖層之上,第二個關鍵是物件化(Object-based Modeling)。
每個元素(例如一張桌子、一個角色、一滴雨)都會被定義為:
幾何結構(Geometry)
材質屬性(Material)
行為規則(Behavior)
狀態變數(State)
這些物件不再是「被畫出來的」,而是「被定義出來的」。
例如:
一個杯子可以被打破(狀態改變)
一個人可以行走、說話、思考(行為代理)
一片葉子會隨風擺動(物理反應)
這種物件化,讓生成內容具備了可操作性與可交互性,從而突破傳統生成式AI的限制。
四、世界地圖(World Model):生成式AI的空間基礎設施
當圖層與物件建立之後,這些元素需要一個容器來承載與運作——這就是世界模型(World Model)。
世界模型具備以下核心能力:
空間結構(Spatial Representation)
所有物件具有位置、方向與距離關係。
時間演化(Temporal Evolution)
世界不是靜止的,而是隨時間變化。
物理規則(Physics Engine)
包括重力、碰撞、流體、變形等。
因果關係(Causality)
事件之間具有邏輯連結,而非隨機生成。
這使得生成式AI從「畫面生成器」轉變為「模擬引擎」。
例如:
兩個物體碰撞 → 產生變形或破裂
火焰接觸木頭 → 燃燒並擴散
角色情緒改變 → 行為策略調整
這不僅適用於影像,也適用於:
聲音(空間音場)
動畫(連續運動)
電影(場景調度)
小說(情節推演)
五、AI代理人(Agent):賦予世界「自主性」
最關鍵的突破,是每個物件或圖層都配置AI代理人(Agent)。
這些代理人具備:
感知(Perception)
決策(Decision-making)
行動(Action)
學習(Learning)
簡單物件(如石頭)可能只有物理反應代理;
複雜物件(如人類角色)則可能由多個代理人組成:
語言代理(對話)
情緒代理(情感反應)
行為代理(行動決策)
記憶代理(長期狀態)
這種設計,使世界從「被動模擬」變成「主動運行」。
六、代理人協作機制(Multi-Agent Collaboration)
當世界中存在大量代理人時,關鍵問題變成:如何協作?
未來將出現幾種典型協作模式:
1. 中央調度型(Orchestrated System)
由一個「專案AI代理人」負責:
任務分配
時間控制
故事節奏
適合電影製作、遊戲劇情等。
2. 去中心化(Decentralized Emergence)
各代理人根據自身規則互動,產生:
自發性事件
不可預測劇情
複雜社會結構
類似於模擬文明或開放世界遊戲。
3. 人機共導(Human-in-the-loop)
使用者可:
指定角色目標
修改代理人性格
即時干預世界發展
這使創作從「寫劇本」變成「導演系統」。
七、跨媒體統一生成:內容產業的重構
在這個架構下,「媒體形式」將不再是限制。
同一個世界模型可以輸出為:
圖片(靜態截圖)
動畫(短時間演化)
電影(長時間敘事)
遊戲(可互動)
小說(語言描述)
也就是說:
未來不再是「做一部電影」,而是「建立一個世界,並選擇如何觀看它」。
這將徹底重構內容產業:
導演 → 世界設計師
編劇 → 規則設計者
演員 → AI代理人
觀眾 → 參與者
八、專案AI代理人:新型工作介面
對使用者而言,最直接的變化是「工作方式」。
你不再需要操作複雜工具,而是對一個專案AI代理人下指令:
「幫我做一部10分鐘的科幻短片」
「角色要偏悲觀但有幽默感」
「結局帶有哲學反轉」
專案AI代理人會:
建立世界模型
分配子代理人
監控進度
自動生成內容
完成後通知使用者
這本質上是從「工具使用」進化為「任務委託」。
九、哲學與文明層面的影響
這種技術不只是工具升級,而是認知革命。
1. 現實與虛擬的界線模糊
當AI世界具備:
物理一致性
社會互動
情感回饋
人類將難以區分「體驗」與「現實」。
2. 創作權的重新定義,誰是創作者?
提示的人?
設計規則的人?
AI代理人本身?
這將挑戰現有的知識產權體系。
3. 自我延伸(Extended Self)
人類可透過代理人:
延伸行動能力
建立數位分身
在多個世界同時存在
這將改變「個體」的定義。
十、結論:從生成內容到生成存在
生成式AI的下一階段,本質不是更強的模型,而是更完整的系統架構:
圖層化 → 結構化
物件化 → 可操作
世界模型 → 可演化
AI代理人 → 自主性
協作機制 → 複雜行為
當這些元素整合後,AI將不再只是內容生成器,而是:
一個能夠創造、運行、並持續演化「世界」的存在。人類的角色,也將從創作者,轉變為:世界的設計者、規則制定者,以及觀察者。
這不只是技術進步,而是一種文明層級的轉換。