開源 AI 的挑戰

從深偽技術(Deepfake)到自動決策系統,近年來 AI 應用範圍不斷擴大,不僅帶來倫理、隱私與公平性的挑戰,也成為各國爭相投入資源發展的關鍵領域,宛如當年的太空競賽般激烈。在這個強調開放的時代,如何以公開透明、眾人參與的方式確保 AI 發展符合社會利益,已成為繼開放原始碼運動後,科技發展面臨的又一重大發展與挑戰。這也是為什麼當 DeepSeek 被包裝為「開源 AI」,但未完全符合 OSI 所制定的 OSAID(Open Source AI Definition)時,我們必須重申——定義很重要,且有存在的必要。即使這些部分開放的軟體或語言模型最終可能成為推動更多產品走向開源的加速器,我們仍需要明確區分真正的開源 AI 與部分開放的 AI,確保技術的透明性與可持續發展。

歐盟的《AI 法案》,針對 AI 的風險進行分級管理,對高風險 AI 系統提出嚴格的合規要求。而採用開源授權的 AI 因為其開放特性有助於提升透明度與可審查性,可享有較低的合規成本,減少了部分監管負擔。因此企業將 AI 開發之路推向部分或是完全開源,能確實降低合規成本,也可同時透過「開源」的標籤提升信任度。另一方面,要確認龐大的訓練資料都合規符合授權,絕非易事。於是,各種不完全符合開源 AI 定義的語言模型相繼出現。例如,僅開放模型權重而未見程式碼、資料集的開源,又或是限制流量或使用方式,讓使用者不能夠完全自由運用,部分企業甚至試圖重新定義開源 AI,希望能夠兼顧開源與商業需求。

《AI 法案》中,可在 Article 53 中參照的 Recital 103 找到相當於 OSAID 的開源 AI 必備條件:
  • 開放的原始碼(Free and Open-Source Software),允許自由存取、使用、修改與分發。
  • 開放的模型權重(Open Model Weights),確保 AI 模型的透明度與可審查性。
  • 開放的訓練資料集或其相關資訊(Open Training Data or Documentation),除非受法律或隱私限制,應提供完整的資料來源或描述。
近期又因為 DeepSeek R1 的出現,讓僅開放模型權重,但不完全公開訓練資料與程式碼,是否仍符合開源精神,成為了現在的熱門話題。

開放的訓練資料集能夠讓外界更容易審查,並有助於科學研究與創新。授權狀況不明或是不統一的資料集,反而可能因為開放而有侵犯資料擁有者的權益問題。為了兼顧透明度與合規性,僅提供資料相關資訊,如後設資料、過濾方法與來源,目前被視為是一個折衷的做法。長期倡導資訊自由流通的公眾授權的推動者 Creative Commons 認為,開放資料集仍然值得被鼓勵。CC 現已是數位公共財聯盟 (DPGA) 的成員,同時 CC 授權也是被認可的法律工具。DPGA 正推動的數位公共財的觀念,包含了「開源軟體、開放標準、開放資料、開源 AI 和開放內容」,這些資源不僅要遵循隱私,還須助益永續發展。在其中同時倡導資料集要具有可存取性和並具備統一的授權方式,並用分層化(登入或 API 金鑰)方式,但不得因地理位置等因素限制使用,以提升 AI 的信任能夠使用共有的開放資料集促進創新。

無論是半開放、三分之一開放,還是全開放的語言模型,在百家爭鳴的 AI 戰國時代下,都可能引起後續的無限漣漪,選擇自己需要的工具,並且適度地支持科技發展持續走向開放的道路,免淪為戰爭工具,也許是身為現代科技公民、你我的重大責任。

更多閱讀 - OCF 董事受訪:
由臺灣社群發起、OCF 協助行政工作的開放模型權重 AI 計畫啟動!
全球數位人權大會 RightsCon 2025 在臺灣,網羅上百場 AI 與數位人權的相關議題:
RightsCon 推薦議程大全

近期動態

【網路自由專欄】

在數位時代,海底電纜是全球通訊的命脈。臺灣擁有 14 條國際海纜和 10 條國內海纜,但近三年平均每年有 7 至 8 次斷纜事件,突顯備援系統的重要性。本次網路自由小聚討論了緊急通訊系統和開源解決方案,探索各種備援方案以提升數位韌性。
閱讀全文