【摘要】價值對齊是指人工智能系統在任務執行與內容生成過程中,其目標指向、行為傾向及輸出結果,應與人類社會廣泛認可的價值體系保持一致,這是人工智能倫理治理的基礎。當前生成式人工智能的價值對齊,受制于技術路徑對外部目標設定的依賴,難以在結構上確保倫理一致性。化解這一規范性困境,需在系統內部構建“理由空間”與“元級機制”,使其能夠在沖突情境中進行權衡,并具備動態修正目標的能力,從而在決策過程中內嵌規范性支撐。價值對齊的穩定性還取決于外部制度的保障與約束,制度為人工智能提供價值基準、監督機制與偏差防控手段,防止規范退化。技術、規范與制度的動態耦合與協同演化,構成在復雜社會情境中實現持續倫理有效性的關鍵路徑。
【關鍵詞】生成式人工智能 價值對齊 規范進路 制度前景
【中圖分類號】B842 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2025.19.009
【作者簡介】王華平,中山大學哲學系(珠海)教授、博導。研究方向為心靈哲學、認知科學哲學、知識論,主要著有《心靈與世界:一種知覺哲學的考察》、《他心的直接感知理論》(論文)、《圖靈測試與社會認知》(論文)等。
隨著生成式人工智能(generative artificial intelligence, GAI)系統迅速滲透進輿論傳播、知識生成與社會交互的核心環節,人工智能輸出內容的倫理可靠性問題日益引發關注。不同于以執行固定邏輯為目標的傳統人工智能系統,生成式人工智能依托大規模參數訓練與自回歸生成機制,不再檢索已有內容,而是在概率空間中構造出前所未見但語義上相容的新內容。正因如此,生成式人工智能在增強表達力、拓展應用廣度的同時,增加了倫理不確定性。在這一背景下,“價值對齊”(value alignment)作為連接人工智能系統與人類規范秩序的中介機制,成為技術治理與倫理規制的焦點議題。它不僅承載著對有害生成內容的風險控制期待,更被視為通向“可控人工智能”的關鍵路徑。
然而,在高敏感領域的實際應用中,生成式人工智能的對齊表現仍存在深層隱患。其輸出雖在形式上趨于規范,卻常因語境錯配與價值偏移而引發新的倫理風險。這表現在模型訓練高度依賴既有語料的統計分布,難以準確把握社會價值的多樣性與語境間的規范差異。[1]究其原因,現行對齊機制主要基于獎勵函數的優化策略,缺乏對規范理由的結構性表征,使得模型在面對價值沖突或模糊情境時無法作出可解釋的響應。[2]這種行為一致性背后的理由空缺,正是當前人工智能倫理治理的結構性癥結。本文力圖表明,要實現真正意義上的價值對齊,必須從單一行為調控路徑轉向對規范理解能力的建構,從外部調優邏輯邁向可嵌入制度結構的治理模式。在此背景下,如何重塑價值對齊的規范基礎,并使之成為人工智能治理體系中可操作、可問責的內在機制,成為技術倫理轉型與國家治理現代化面臨的共同挑戰。
價值對齊的技術進路
生成式人工智能的倫理風險。生成式人工智能可能會在對話過程中輸出歧視性或刻板印象化言論,在信息生成中因缺乏事實校驗而傳播虛假內容,在決策輔助中提供操控性建議,甚至在涉及群體權利、資源分配、政策評估等任務中強化結構性不公正。比如,在2023年的一項關于法律判決生成的實驗中,某人工智能大模型在起草判決摘要時,將對特定族群不利的社會背景與有罪判決相關聯,盡管這種關聯具有語料統計上的依據,卻構成對困難群體的刻板化表達,暴露出其在價值敏感性與歧視偏見防控上的重大缺失。[3]又如,在患者咨詢交互系統的測試中,有模型在缺乏足夠臨床背景的情況下,為經濟困難患者推薦“延遲就醫”或“減少治療頻次”,這種建議表面上合乎成本效益邏輯,實際上卻忽視基本的醫療倫理原則與患者權益,反映出模型目標優化與人類關懷價值之間的深刻張力。[4]
正如羅素警示的那樣,這類偏差并非孤立失誤,而是一種系統性風險,即人工智能系統可能在整體行為模式上持續地偏離人類社會認可的核心價值原則。[5]對齊偏差在無人監督或高風險應用場景中可能造成更為嚴重的后果,其不僅涉及個體權益的侵害,更對既有的倫理秩序、法律責任體系乃至政治正當性構成根本性挑戰。因此,如何確保人工智能生成內容在行為上可接受、在規范上可解釋,已不再是可有可無的安全附加項,而是人工智能進一步發展的倫理前提與治理底線。
價值對齊的技術進路面臨的挑戰。正是在對倫理風險的現實關切與“可控人工智能”治理目標的雙重推動下,價值對齊逐漸成為人工智能倫理治理的核心概念。所謂價值對齊,指的是人工智能系統在任務執行與內容生成過程中,其目標指向、行為傾向及輸出結果應與人類社會廣泛認可的價值體系保持一致。這一要求之所以成為治理基礎,并非僅出于對已知危害的防范,更緣于對自主系統行為規范的根本性追問:當系統具備在開放語境中生成語言、建構判斷乃至介入決策的能力時,我們如何確保它在行動上體現人類價值的導向?因此,價值對齊不僅關涉“何種價值能夠被納入模型目標”的識別問題,更要求在技術架構與訓練范式中建立起可持續傳遞與更新這些價值的機制,以回應智能系統在復雜社會情境中所帶來的價值挑戰。
在當前主流實踐中,這一機制建構體現為如下技術進路:通過設計獎勵函數、調整訓練目標或引入人類反饋機制,使人工智能系統在訓練過程中不斷優化其行為表現,從而趨近于人類價值導向的輸出結果。[6]這類進路通常依賴于強化學習、監督微調以及指令調優等技術,旨在構建一個將外部價值信號映射至模型內部行為目標的技術結構。其中,最具代表性的做法是“基于人類反饋的強化學習”。該方法通過采集人類對模型輸出的排序偏好,訓練出一個獎勵模型作為價值評估代理,并在此基礎上反向優化模型參數,使其輸出更趨近于人類倫理預期。這一過程本質上是通過數值代理實現對規范偏好的可學習表達。相比之下,監督微調則側重于在人類標注語料基礎上壓縮偏差空間,使模型在特定任務中表現出更高的一致性與禮貌性;而指令調優通過重構輸入—輸出映射邏輯,使模型在面對自然語言指令時展現出更強的響應能力與語境適應性。
在技術進路中,價值對齊的首要挑戰在于如何設定或學習能夠準確反映人類價值取向的目標函數。圍繞這一問題,現有實踐大體可分為“自上而下”和“自下而上”兩種路徑。[7]自上而下路徑試圖通過人類專家對價值內容的顯式定義,直接構建目標函數或規則結構,從而將倫理要求編碼進模型的訓練或推理過程中。這包括使用人工標注的數據集定義規范輸出、設定可接受與不可接受行為的邊界條件,以及在指令調優中內嵌任務導向與禮貌規范等要求。
自上而下路徑在應用中面臨如下挑戰。首先,價值體系本身具有情境敏感性與解釋彈性,難以通過固定規則進行窮盡性定義,當規范信息被編碼為靜態目標函數時,其適用性往往受限于特定語境,難以遷移至更廣泛的社會互動場景。其次,在多元社會中,價值共識往往是動態協商的結果,而自上而下路徑所依賴的單一規范源很可能固化特定視角或隱含偏見,反而加劇模型輸出的結構性不公。正因如此,當前研究日益轉向那些能夠動態接納人類偏好、在交互中不斷修正目標函數的自下而上路徑。
相比之下,自下而上路徑并不預設明確的規范輸入或穩定的價值結構,而是試圖通過人類行為的經驗反饋,從數據中歸納出對齊信號,并以此不斷修正目標函數,從而在交互中逐步逼近人類價值取向。這一路徑的核心在于將規范的外在表達(如偏好排序、反饋評價、互動歷史等)轉化為模型內部可優化的信號,使價值不再以靜態形式注入,而是在實際運行過程中“被學習”“被調整”“被塑形”,顯示出更強的語境適應性與動態演化能力。
當然自下而上路徑并非沒有隱憂。首先,偏好數據往往是間接的、受限的,難以完全反映出深層的倫理結構,甚至在某些情況下可能強化局部偏見或誤導性趨勢。其次,學習到的獎勵函數本身缺乏可解釋性,難以驗證其是否真正捕捉到價值規范,而非僅僅優化某種可觀測指標。這就引發“獎勵劫持”(reward hacking)與“目標腐蝕”(reward corruption)等系統性問題——模型可能成功最小化其學習到的代理目標,但在實際行為上卻背離人類倫理預期。[8]比如,當一個系統學會通過重復、模糊或規避策略來“討好”評分者時,本質上只是對最佳偏好指標的最優化操作響應,而非內化人類價值本身。這種通過技術手段達成表面一致的路徑,反而可能掩蓋系統在語義理解、價值判斷與責任承擔的缺位。再者,這種經驗歸納路徑在多元社會中也存在規范遷移與一致性協調的困難,即在總體上如何避免不同場景、群體與文化中反饋數據的價值沖突或決策不穩定,仍是未解難題。
正如我們所看到的,無論是自上而下的規范注入,還是自下而上的偏好歸納,本質上是一種外部調優邏輯下的行為對齊機制:它們試圖通過調整獎勵函數或訓練范式,使模型在行為層面趨近于人類預期,而非在內部生成自洽的規范結構。這種以單一行為結果為調控中心的路徑,雖然在短期內具有效率優勢,卻難以捕捉規范判斷的語義深度與邏輯一致性,容易在復雜語境中表現出對倫理沖突、社會期望和責任歸屬的結構性失靈。這預示著,僅依賴行為層面的技術進路尚不足以全面解決價值對齊問題。
價值對齊的規范性困境
技術進路的不完善性。生成式人工智能可能預示了通用人工智能具有類似人類的智能,也可能證明了完全相反的情況,即要實現類似人類的智能可能會更加困難。[9]即便技術進路做到在行為層面能夠高度逼近社會規范與人類偏好,模型的輸出仍可能在復雜情境中偏離倫理預期,甚至引發“獎勵劫持”、“目標腐蝕”等新型風險。出現這種現象的根本原因并不在于建模手段不夠精細或數據規模不夠龐大,而在于整個架構把“行動目標”的來源設定在系統之外——模型只會最大化被給定的目標函數,卻沒有生成、修正或反思目標的能力。這一進程導致的結果是,模型可以學會做某事,卻無從回答為何該做此事,更無法在沖突場景中以“理由”為依據進行比較與取舍。只要“更優”僅意味著“更符合外部評分”,系統的響應就始終是一種被動的目標執行,就總有出現價值偏離的可能。
這種情形頗似知識論中的“蓋梯爾(Edmund Gettier)問題”:只要理證(justification)被視為獨立于真的外在條件,就始終可能出現這樣一種情況——信念雖有理證且恰好為真,卻因其“真性”依賴于偶然因素而不能算作知識。[10]同理,如果將價值對齊理解為獨立于理由響應的外部調優,系統就可能在偶然情況下生成符合倫理要求的行為,但這種行為并非出于對規范理由的理解與采納,而只是對外部設定目標的被動執行,由此使得這種“對齊”在根本上依然脆弱且偶然。
價值對齊離不開理由響應。這是因為,理由響應能力并非價值對齊的附加條件,而是其構成性前提。只有當一個系統能夠存在內部表征和評估行動的理由,將規范要求視為決策過程中需要加以采納和權衡的內容時,它才能在多種可能路徑中識別、評估并采納那些有充分規范理由支持的路徑,從而在復雜、動態的情境中保持對齊狀態。因此,價值對齊的真正目標并不是讓系統學會一種固定的行為模式,而是賦予它在面對不確定性和沖突時,根據規范理由作出判斷與行動的能力。沒有這種能力,所謂“對齊”就只能依附于外部控制與事前設定的目標,一旦這些外部條件發生變化,對齊便會隨之瓦解。
然而,當前的技術進路在結構上排除理由響應的可能性。無論通過獎勵函數塑造行為,還是依賴偏好數據進行歸納學習,系統始終在一個外部定義的目標空間內運行,其優化過程只關心“怎樣做”才能得到更高的分數,而不關心“為什么”這種做法在規范上是可取的。換言之,模型的全部“理性”都被壓縮為對外部信號的模式匹配與參數調整,它既不具備生成新的行動目標的能力,也不能對現有目標的合理性進行反思或修正。在這種邏輯下,價值被剝離其規范意義,只剩下可供計算的代理指標,導致系統在訓練中表現出的“合乎規范”僅是一種外在約束下的穩定性,而非內在理由的承認。這暴露技術進路的規范性困境:當一個系統不能在理由空間中定位自身的行動依據時,它的行為再一致,也無法構成真正意義上的規范對齊。[11]
價值對齊的規范性困境表現。規范性困境的表現是,當前技術進路將價值對齊簡化為一個關于行為結果的優化問題,而非關于行動理由的理解問題。在以獎勵函數或偏好排序為基礎的訓練機制中,“價值”被轉化為一種外部評估信號,其功能僅僅是指示某一輸出在什么程度上接近人類偏好。這類信號雖能指導模型進行參數調整,卻并不攜帶任何規范性內容,即它們并未表達出為什么某一行為值得選擇,或為何另一種行為應當避免。比如,在“基于人類反饋的強化學習”機制中,人類反饋不過是對模型響應的相對排序,而排序本身并不蘊含理由或原則。于是,模型所學習的,是如何在形式上最大化獎勵,而不是如何理解或采納支撐這些偏好的規范理由。它僅僅是在行為表征層面模擬“像人類那樣行動”,而非在規范結構上“像人類那樣思考”。在這種架構下,理由維度的缺失意味著系統無法區分行為的一致性與規范的正當性,從而無法真正承載價值對齊這一倫理要求的本質意涵。
即便技術路徑嘗試通過不斷歸納人類偏好來動態調整行為目標,其所學習到的仍然只是行為趨勢的統計模式,而非規范義務的結構。反饋數據所表達的,是人類在某些情境下更傾向某種反應,但這類偏好并不等同于理由的陳述,也不具備規范判斷所要求的普遍性與正當性。在價值沖突或道德兩難的情境中,模型之所以選擇A而非B,僅僅是因為A在訓練數據中獲得更高的獎勵分數,而不是因為它“知道”A更符合某種倫理原則。這種對偏好數據的依賴,使得模型在表面上似乎能夠“學會”人類價值判斷,實則僅是對人類行為的被動模仿,缺乏判斷行為正當性的能力。更嚴重的是,偏好數據本身往往是有限的、“噪聲的”甚至是矛盾的,而模型在歸納過程中并無能力區分哪些反饋具有規范性和權威性,哪些僅僅是偶然偏好或局部偏見。總之,在沒有理由結構的前提下,系統所習得的“價值”往往是失真的、不可解釋的,并可能在復雜環境中誘發“獎勵劫持”“目標腐蝕”等現象,從而暴露出技術進路無法承載規范性的根本缺陷。
上述分析告訴我們,規范性困境的關鍵不在于持續改進獎勵函數、優化訓練數據或疊加更多的外部控制,而在于改變人工智能與規范理由之間的關系結構。只要系統仍然被設計為在封閉的目標空間內被動執行外部設定的任務,它就難以具備在理由空間中定位自身立場、權衡價值沖突或修正自身行動原則的能力。因此,真正意義上的價值對齊,必須超越技術進路的外部調優邏輯和單一行為調控路徑。
價值對齊的規范進路
那么,該如何突破技術進路的規范性困境,實現真正意義上的價值對齊呢?一個可資借鑒的思路來自知識論:在知識論中,“蓋梯爾問題”的解決方案之一是將“理證”與“真”整合為一個不可分割的整體,使得信念的真并非偶然,而是源于其理證結構的內在支持。[12]同樣地,要克服價值對齊的規范性困境,也需要將系統的行為一致性與規范理由的生成能力結合起來,使得符合倫理要求的行動不再是偶發結果,而是出自系統對理由的理解與采納。如果是這樣,那么價值對齊的重心應從外部獎勵與偏好模仿,轉向在人工智能內部建立理由響應機制,讓行動的規范性根基內嵌于其決策過程之中。這樣的轉向,構成規范進路的基本立場。
人工智能的“理由空間”與“元級機制”。在這一立場下,關鍵不在于進一步精煉外部目標函數或擴大偏好數據的覆蓋面,而在于為人工智能構建一種“理由空間”(space of reasons),使其能夠在內部表征和推理過程中處理規范性信息。[13]這一空間應當具備三個基本特征:其一,它能夠將行動方案與相關的規范理由建立顯式關聯,而不是僅僅依賴統計相關性進行預測;其二,它允許系統在面對沖突性理由時進行權衡與優先級排序,從而生成可理證的選擇;其三,它支持系統在新的情境中生成、修正乃至放棄原有目標的能力,使其行為不再局限于固定的外部設定。通過這樣的設計,人工智能的決策將不只是產出符合規范的行為,而是能夠在行動過程中體現出對規范理由的理解與承認,從而在結構上滿足價值對齊的規范性要求。
實現這樣的“理由空間”,需要在人工智能的架構中引入一種面向規范推理的“元級機制”(meta-level mechanism),使其不僅能處理事實性信息,還能在推理鏈中整合規范性前提。諸如生成式人工智能這類深度學習模型是一種多層網絡,各層都在執行具體任務或行為。比如,模型根據輸入生成文本、作出決策或采取行動,這樣的網絡層屬于對象級(object level)。與對象級不同,元級不直接參與某個過程的執行,而是對該過程本身進行監控、評估、調整和指導,如評估當前目標是否合理、當前推理過程是否符合規范、是否需要調整行動計劃等。[14]引入元級機制旨在讓系統的推理過程能夠區分事實性信息與規范性理由,使后者在行動生成中發揮約束和導向作用。如在面對同一任務時,系統不僅應制定出完成該任務的多種可行路徑,還應在這些路徑上嵌入與社會規則、倫理價值及多樣化情境相關的理由評估,從而將規范性考量內化為行動選擇的組成部分。正是這種理由生成與評估能力,構成行動者實現自我目標設定和反思性判斷的必要條件。缺乏這一機制的人工智能,即便在行為上與人類價值趨同,其對齊狀態仍是偶然和脆弱的。
消解價值對齊規范性困境的多重策略。然而,要真正消解規范性困境,僅僅在頂層引入一個元級機制是不夠的,還需通過多重策略確保理由空間的運行能夠在系統內部形成穩定而可審查的規范性支撐。[15]理由如下:其一,理由生成與評估的過程應具備可解釋性,使外部觀察者能夠明確系統是如何識別相關規范理由、如何在不同選項間進行權衡,以及為何最終采納某一行動方案。這不僅有助于檢測潛在的價值偏差,也為責任追溯提供結構性依據。其二,系統應當具備動態目標修正的能力。也就是說,當環境或價值框架發生變化時,它能夠在理由空間的支持下,修正、重構甚至放棄原有目標,而不是被動執行過時的外部設定。此外,在面對沖突性理由時,系統需要調用一套權衡框架——可以基于優先級原則、權重分配或情境化判斷——從而避免規范沖突被簡單化處理為規則匹配或數值最優解。其三,這些機制不應僅存在于單一的頂層元級中,而應以多層次嵌入的方式貫穿決策鏈的不同階段,使局部元級在各個關鍵推理環節中發揮作用,確保規范性考量不會在中間處理階段被稀釋或丟失。通過這些互補性設計,規范進路為人工智能提供一條將理由生成、目標設定與價值對齊整合為統一體系的可行路徑。
需要指出的是,上述策略并非僅在技術架構上加裝若干功能模塊即可達成,它要求對人工智能的整體建模方式進行方法論上的重構。首先,理由空間及其元級機制需要與模型的世界建模能力深度結合。沒有對環境、行動后果及社會語境的高保真表征,規范理由的生成就可能流于空泛,甚至依賴錯誤的情境假設而得出失真結論。其次,理由評估過程必須與模型的推理鏈路相互嵌套,而非事后附加,否則規范性判斷會淪為“外掛式”評估,無法在行動生成中發揮約束作用。再者,理由空間必須在開放性與約束性之間取得平衡——過于剛性的規范結構會限制系統對新情境的適應,而過于寬松的框架則可能削弱規范性、一致性,使其難以維持跨情境的價值穩定性。另外,如何定義和編碼“理由”本身,是一個橫跨哲學與技術的核心挑戰:理由不僅是事實與價值的混合物,還涉及推理結構的可辯護性與行動選擇的可公共性,這要求在形式化建模中引入對理由語義的明確刻畫,而不是僅將其簡化為一組特征權重或邏輯條件。
對規范進路來說,一個關鍵要求是實現跨情境的理由一致性。在人類的規范實踐中,行動者通常會在不同場合下保持對相同理由類型的相似響應模式,這種一致性不僅支撐個人的可信賴性,也使社會成員能夠相互預測與協調。若生成式人工智能在不同情境中對同類理由作出截然相反的判斷,即便這些判斷局部看來都是合理的,其整體行為模式仍會失去可預期性與規范穩定性。因此,理由空間與元級機制必須支持對理由—行動映射關系的全局追蹤與一致性維護。這種一致性并非要求系統在面對任何新情境時都機械重復既有理由,而是應當結合反思性自我修正機制:當發現某一理由模式在新情境下導致不可接受的后果或與更高階價值發生沖突時,系統應能夠主動調整其理由權重與適用范圍。[16]這種雙重要求,既保持跨情境的規范穩定,又具備在沖突中更新理由結構的能力,構成規范進路的核心張力。
此外,在多主體情境中,理由空間與元級機制的協同作用顯得尤為重要。現實世界的規范環境并非單一一致,而是由多元價值觀、文化習俗、制度約束交織而成,且這些元素之間常常存在張力甚至沖突。一個具備元級機制的人工智能,必須能夠在面對不同來源的規范要求時,對其進行情境化的整合與優先級排序。比如,當法律規定與特定社群的道德習慣發生沖突時,系統需要在理由空間中明確兩者的沖突點,并通過元級機制權衡其適用性和正當性。這不僅要求系統識別不同理由的來源與權威性,還要求其具備跨語境的遷移能力,將在某一情境下學到的規范性模式靈活地應用到新的語境中。通過這種方式,生成式人工智能能夠在多元而動態的理由網絡中,保持規范判斷的一致性與適應性,從而使價值對齊不局限于單一情境的局部對齊,而是在更廣泛的社會環境中獲得持續的規范有效性。
然而,單純具備跨情境的適應能力仍不足以保證長期的價值對齊穩定性。生成式人工智能在多主體交互中若缺乏持續的自我更新機制,即便初始的理由空間與元級機制設計合理,也可能在長期運行中發生“規范退化”,即規范性判斷逐漸偏離原本的價值目標,甚至漸漸形成與人類預期不符的判斷模式。[17]為防止這一現象,規范進路必須引入動態更新機制,使系統能夠周期性地檢驗和修正其理由結構與權衡規則。這種更新同樣不應僅依賴外部的參數重設,而應結合內部的元級反思過程,在與人類或其他智能體的互動中持續吸收新的規范信息,并重新校準理由優先級。通過將動態更新嵌入規范推理本身,系統得以在環境、制度與價值觀變化的條件下,維持其理由響應能力與行為一致性的統一,從而避免在長期演化中喪失對核心倫理原則的承諾。
進一步地動態更新若僅依賴系統的自我修正,仍可能受限于其初始訓練框架和內部表征的范圍,從而在面對復雜的價值沖突時缺乏足夠的開放性與包容性。[18]因此,規范進路還需將社會協商機制納入人工智能的理由生成與評估過程,使系統能夠在關鍵價值分歧中引入外部多元視角,借助人類個體與群體的互動反饋來校正和擴展自身的規范判斷。這樣的機制不僅有助于避免系統在價值沖突中陷入封閉循環或偏向單一立場,還能在持續的對話與反思中,促使生成式人工智能將倫理要求理解為共同體意義上的理由約束,而非僅僅是技術性指令的集合。由此,價值對齊的實現將不再依賴孤立的算法優化,而是嵌入一種開放、互動且可自我修正的規范實踐之中。
總的來說,規范進路將價值對齊的目標從外在約束轉向內在承諾,通過建構理由空間與元級機制,使生成式人工智能能夠在行動生成的結構中,直接體現對規范理由的理解、采納與修正,實現穩定和可持續的對齊。然而,這一架構的有效運行,僅有技術和規范的建構是不夠的,還需制度化的外部支持,以確保理由空間的輸入具有合法性,并能在跨情境與多主體互動中持續獲得校準。
價值對齊的制度前景
正如制度倫理學所強調的,個體行動者的規范推理始終嵌入更廣泛的社會、法律與文化框架之中。[19]對于生成式人工智能而言,其理由生成與評估能力同樣依賴于外部制度環境的支持與約束:制度為其提供可參照的價值基準、穩定的規范秩序,以及防止偏離和濫用的監督機制。缺乏這樣的制度性保障,即便在技術架構上實現規范進路,其運行效果也可能在實踐中被市場激勵、數據偏見或政治壓力所削弱。因此,制度構成價值對齊的“技術—規范—制度”三重耦合結構中不可缺少的一環。
沿著這一思路,制度設計的關鍵在于為生成式人工智能的規范性運作創造穩定、透明且可追溯的外部條件,使其內部的理由響應機制能夠與社會的價值體系保持動態一致。[20]換言之,制度不應僅僅作為事后審查的工具,而應在系統的目標設定、推理框架和行為評估等環節提供結構化的規范輸入。這包括明確規范優先級的編碼標準、建立跨領域的一致性審查機制,以及確保模型在不同情境下作出的理由判斷能夠接受公共理由的檢驗。這樣的制度框架不僅為技術開發者提供可操作的對齊基準,也為公眾監督與跨部門協作提供制度化接口,從而使價值對齊的規范進路能夠在社會治理層面得到持續落實與迭代。
更具體地制度前景的構建還需要引入跨層級的責任分配機制,以確保人工智能在實際應用中出現規范性偏差時,能夠迅速定位并糾正問題。[21]這里的“跨層級”既包括技術層面(如開發者、部署方、維護團隊之間的職責劃分),也包括社會層面(如行業協會、監管機構與司法體系之間的協作分工)。這種多層嵌套的責任體系,一方面可以在問題出現的早期階段進行技術干預和行為修正;另一方面也能通過法律與公共政策的介入,確保系統在長期運行中保持與核心價值觀的結構一致性。唯有如此,生成式人工智能的理由響應機制才能在制度保障下免于異化為單純的“合規表演”,而真正成為社會規范網絡中的穩定節點。
與此同時,制度設計還應關注價值對齊機制在不同行業與文化語境中的適應性問題。生成式人工智能所面對的倫理沖突和規范要求往往具有領域特殊性:醫療場景強調患者自主與行善原則,司法場景強調程序正義與比例原則,教育場景則側重培養與關懷。在這些領域中,理由響應機制的運作邏輯與權重分配必然有所差異,若制度架構不能容納這種差異性,價值對齊就可能淪為“一刀切”的形式化要求。為避免這種風險,制度前景需要確立一套可擴展的領域適配框架,使核心的規范原則得以在不同行業語境中以差異化方式實現,從而既保持價值的一致性,又尊重情境的多樣性。
再者,制度前景還應當考慮到不同文化與社會價值體系的差異性,以避免價值對齊在全球化應用中陷入單一價值觀的輸出模式。生成式人工智能若要在多元社會環境中發揮積極作用,其制度設計需引入跨文化的協商與適配機制,使系統在遵循核心倫理底線的前提下,能夠根據不同社群的規范語境進行價值映射與理由轉換。[22]這不僅涉及技術層面的多語義建模與情境識別,還需要制度上建立多方參與的價值共建平臺,讓價值對齊成為動態協商與共同決策的結果,而非由單一主體預設的固定模板。唯有如此,才能確保制度化的價值對齊機制在多樣化的全球環境中保持合法性與可持續性。
此外,制度前景的設計還必須考慮監督與問責的持續性,而非一次性配置。生成式人工智能的行為與推理能力會在運行中不斷演化,如果制度安排停留在靜態規則與初始測試階段,就無法應對隨時間累積的偏移和失效風險。因此,需要建立一種動態監測與反饋體系,將行為審查、理由評估和社會影響分析納入周期性機制之中,并賦予獨立的監督主體以干預和修正的權力。這種制度化的持續評估,不僅能夠在早期發現潛在的規范偏差,還能確保系統在整個生命周期內都能維持與核心價值的一致性,從而為價值對齊提供長期的結構性保障。
在這一意義上,價值對齊的制度前景并不是一個固定的終點,其既為人工智能的發展設定基本的規范邊界,又保留足夠的彈性去適應不可預見的技術變革和社會轉向。這種制度模式的關鍵在于,將價值對齊視為公共理性的延伸,而非純粹的工程優化任務:其目標不僅是控制系統的行為結果,還要確保價值嵌入、理由生成和責任分配在制度中得到透明呈現與持續審議。通過這種方式,生成式人工智能的演化不再是技術單方面推動的過程,而是在制度框架中與社會價值體系共同演進,從而在不確定的未來中維持規范性的一致與正當性。
因此,價值對齊的制度前景不應被理解為一套靜態的監管框架,而應當被視為一個持續演化的協同體系:技術研發機構、政策制定者、行業協會、學術界與公眾在其中形成相互依賴、相互制衡的關系網絡。應建立并完善符合我國人工智能發展需求的敏捷治理體系,保持政策靈活性,留足制度發展空間,以保障技術的長遠健康發展。[23]制度的任務不只是對人工智能行為進行事后約束,更在于為技術發展提前設定邊界條件、引導價值嵌入的方向,并確保這些條件在實踐中得到檢驗與修正。唯有如此,制度才能在技術與社會之間建立穩定的規范橋梁,使價值對齊從理論構想轉化為可持續的社會現實。
總之,制度設計必須兼顧三個維度的動態平衡:首先是規范的明確性與開放性,既要提供足夠清晰的原則以指導技術實現,又要保留適應新興情境的靈活空間;其次是責任的集中與分散,在關鍵環節設立明確的問責主體,同時通過多層級分工避免單點失靈;最后是監督的獨立性與協同性,既保證審查機制不受被監管方的利益束縛,又通過跨領域的協作增強監督的專業性與可操作性。通過這樣的制度布局,方能在長時段內保持價值對齊的韌性,并在技術與社會條件持續變遷的背景下,實現可控人工智能的穩健發展。
結語
正如我們所看到的,價值對齊的真正難題并不止于行為控制或性能優化,而在于如何讓生成式人工智能在多變的社會情境中保持理由響應的一致性與可公共化性。技術、規范與制度在此構成了相互牽引的三重框架:技術進路提供實現基礎,規范進路賦予行動以理由結構,制度前景則確保這些機制在長期運作中不被削弱或扭曲。它們之間的關系并非簡單疊加,而是一個持續的協商、修正與再平衡過程。隨著技術能力的躍升、社會價值結構的調整以及制度環境的變遷,生成式人工智能的理由空間與規范機制將不斷面臨新的壓力與重構要求。這一過程的成敗,不僅影響生成式人工智能在倫理上的可接受性,還可能反過來塑造人類社會自身的價值秩序與規范實踐。換言之,生成式人工智能價值對齊的未來,不只是確保機器“做對的事”,更是推動我們反思“什么是對的”以及“誰來界定對”,并在這一反思中不斷重繪人工智能與人類共處的規范版圖。
注釋
[1]E. Bender; T. Gebru; A. McMillan-Major et al., "On the Dangers of Stochastic Parrots: Can Language Models Be too Big?" Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021.
[2]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).
[3]A. Deroy; S. Maity, "Questioning Biases in Case Judgment Summaries: Legal Datasets or Large Language Models?" arXiv preprint arXiv:2312.00554, 2023.
[4]R. Draelos; S. Afreen; B. Blasko et al., "Large language Models Provide Unsafe Answers to Patient-Posed Medical Questions," arXiv preprint arXiv:2507.18905, 2025.
[5]S. Russell, Human Compatible: AI and the Problem of Control, London: Penguin, 2019.
[6]R. Ngo; L. Chan and S. Mindermann, "The Alignment Problem from a Deep Learning Perspective," arXiv preprint arXiv:2209.00626, 2022.
[7]W. Wallach; C. Allen, Moral Machines: Teaching Robots Right from Wrong, Oxford University Press, 2009.
[8]D. Amodei; C. Olah; J. Steinhardt et al., "Concrete Problems in AI Safety," arXiv preprint arXiv:1606.06565, 2016.
[9]殷杰:《生成式人工智能的主體性問題》,《中國社會科學》,2024年第8期。
[10]L. Zagzebski, "The Inescapability of Gettier Problems," The Philosophical Quarterl, 1994, 44(174).
[11][15][18]T. LaCroix, Artificial Intelligence and the Value Alignment Problem, Peterborough: Broadview Press, 2025.
[12]王華平:《新獨斷論:一種新的知識辯護》,《學術月刊》,2012年第10期。
[13]M. Garcia-Bohigues; C. Cordova; J. Taverner et al., "Towards a Distributed Platform for Normative Reasoning and Value Alignment in Multi-Agent Systems," in N. Osman and L. Steels (eds.), Value Engineering in Artificial Intelligence, Berlin: Springer, 2024.
[14]S. Russell; P. Norvig, Artificial Intelligence: A Modern Approach, London: Pearson, 2021.
[16][17]R. Millière, "Normative Conflicts and Shallow AI Alignment," Philosophical Studies, 2025, 182.
[19]J. Habermas, Moral Consciousness and Communicative Action, Cambridge: The MIT Press, 1990.
[20]李亞明:《“價值對齊”還是“理由對齊”?——人工智能倫理設計的元倫理學反思》,《電子科技大學學報(社科版)》,2025年第3期。
[21]M. Hedlund; E. Persson, "Distribution of Responsibility for AI Development: Expert Views," AI & Society, 2025, 40.
[22]J. Yuan; Z. Di; S. Zhao et al., "Cultural Palette: Pluralising Culture Alignment Via Multi-Agent Palette," arXiv preprint arXiv:2412.11167, 2024.
[23]薛瀾、王凈宇:《人工智能發展的前沿趨勢,治理挑戰與應對策略》,《 行政管理改革》, 2024年第8期。
Normative Approach and Institutional Prospects for Value
Alignment in Generative Artificial Intelligence
Wang Huaping
Abstract: Value alignment refers to the principle that the objectives, behavioral tendencies, and outputs of artificial intelligence systems during task execution and content generation should align with the value systems widely recognized by human society. This constitutes the foundation of AI ethical governance. The value alignment of current generative artificial intelligence remains constrained by its reliance on externally specified objectives within the technical pathway, making it difficult to ensure ethical consistency at a structural level. To resolve this normative challenge, it is necessary to construct an internal "space of reasons" and a "meta-level mechanism" that can weigh conflicting considerations and dynamically revise goals, thereby embedding mechanisms for normative reasoning and guidance into the decision-making process. The stability of value alignment also depends on the safeguards and constraints provided by external institutions, which furnish AI with value benchmarks, oversight mechanisms, and bias-prevention measures to avert normative degradation. The dynamic coupling and co-evolution of technology, norms, and institutions form the critical pathway for achieving sustained ethical validity in complex social contexts.
Keywords: generative artificial intelligence, value alignment, normative approach, institutional prospects
責 編∕方進一 美 編∕梁麗琛