當計算機科學系副教授韓波教授審視人工智能的發展軌跡時,他看到非凡的前景,但同時也發現一個令人擔憂的盲點。從聊天機械人到臨床診斷,驅動着各行各業的龐大「基礎模型」(Foundation models)已展現出驚人的能力。然而,隨着它們逐步應用於醫療、金融及自動化平台等領域,一個迫切的問題浮現:我們真的能信任它們嗎?
韓教授強調:「可信度不應再是事後補救的措施。」在最近於《IEEE Intelligent Systems》發表的文章中,他為可信機器學習(Trustworthy machine learning)提出一個全面的框架,並指出:「可信度必須是不可或缺的初始設計目標。」
韓教授進一步探討了四個核心支柱:學習(Learning)、推理(Reasoning)、規劃(Planning)與多模態(Multimodality)。
學習的悖論
學習是基礎模型獲取知識的基本方式。標準做法通常包括使用海量數據集進行預訓練,然後再進行微調。然而,韓教授指出一個反直覺的發現:高質量的小型數據集,其表現往往優於低質量的海量數據集。真正的問題在於數據本身帶有雜訊與偏見。
強化學習帶來的挑戰更為複雜。它需要繁瑣的超參數調整、精心設計的獎勵機制,以及無數次的迭代。當中一個極少被討論的關鍵要素是「機器反學習(Unlearning)」,即刻意降低模型產生特定回應的機率。韓教授指出:「研究人員觀察到截然相反的效果。有人發現這會損害模型的泛化能力;也有人認為機器反學習能引導預測走向更具前景的輸出。」若缺乏適當的調整,即使是微小的數據擾動,也可能引發優化崩潰(optimisation collapse)。
推理:從模式到邏輯
基礎模型的推理能力,已從簡單的模式匹配演變為結構化的邏輯推導。相關方法包括基於提示的技術(如思維鏈)、後訓練方法 (post training approaches),以及引入電腦及經驗證的知識數據庫等外部工具。
然而,威脅依然無處不在。對抗性提示(Adversarial prompts)可能迫使模型產生有害的推理模式。此外,模型還必須處理現實世界中隨處可見的雜訊與不完整資訊。除了安全性之外,可解釋性亦至關重要。韓教授指出:「未來需要的是可審核、人類能理解的邏輯路徑,而非黑箱推理。」當人類能夠追溯邏輯鏈在何處出錯時,信任才有可能建立。
規劃:神經符號方案
對於安全至關重要的場景,例如自動駕駛汽車、手術機械人,單靠基礎模型遠遠不足。它們不透明的推理過程及缺乏形式化保證(Formal guarantees)的特性,使其顯得不夠可靠。韓教授倡導發展「神經符號人工智能」(Neurosymbolic AI):將神經網絡的適應性與符號的可驗證性相結合。
他解釋道:「符號表徵負責分解目標並實施約束,神經模型則處理感官輸入。兩者結合,便能支持形式化保證及人類可讀的推理。」像 SayCan 這類系統已展示了這種方法的可行性,利用語言模型將目標轉化為計劃,同時由符號控制器檢查其可行性。
展望未來,直接從基礎模型中學習符號提煉(而非人工設計),將能在保持推理可追溯性的同時,實現具泛化能力的規劃。
多模態的雙刃劍
多模態或許是邁向通用人工智能最關鍵的一步。像 GPT-4V 這類模型能夠同時處理圖像、音訊及文本。然而,這種豐富性可謂一把雙刃劍。
韓教授警告:「多模態可能會顯著放大偏見。模型可能學會將『程序員』與男性形象聯繫起來,使語言偏見與視覺刻板印象互相融合,形成根深蒂固的偏見。」幻覺(Hallucination)是另一個風險——模型可能會生成視覺數據中根本不存在的物件描述。對於具身智能(Embodied AI)而言,感知錯誤更可能導致不良的物理後果,例如工業機械人將人類的手臂誤認為某個零件。
前路
韓教授的核心訴求非常明確:可信度無法在事後修補,必須從底層開始注入。這需要將形式化保證、神經符號機制,以及價值敏感優化(Value-sensitive optimisation)推向機器學習的核心位置。
他寫道:「建立可信的機器學習需要緊密的跨學科協同效應、穩健的分析方法,以及可擴展的工程手段。」我們的目標是打造強大、有原則、透明且符合人類價值的智能系統。
隨着基礎模型從實驗室走向高風險的決策領域,問題不再是我們「能否」建造它們,而是我們「能否」信任它們。韓教授提出的框架,為確保答案為「是」提供了一份清晰的路線圖。
完整研究論文: https://ieeexplore.ieee.org/abstract/document/11278237

下一則新聞
15.06.2026



