成全动漫在线观看免费观看国语-成全视频高清免费观看捉妖记动漫-成全影视在线观看更新时间-成全在线观看免费完整版电影高清

網(wǎng)站首頁 | 網(wǎng)站地圖

每日推薦
首頁 > 學(xué)術(shù)前沿 > 正文

超級智能的價值對齊困惑

【摘要】以人工智能性能為主和以人機(jī)關(guān)系為主的兩種人工智能等級劃分方式,均印證了超級智能出現(xiàn)的邏輯合理性,而這種劃分的本質(zhì)均指向價值對齊,即確保人工智能系統(tǒng)行為與人類意圖和價值觀保持一致。然而,因超級智能具有人類無法完全預(yù)見的特性,價值對齊面臨三重現(xiàn)實困境:目標(biāo)不確定性引發(fā)的“價值對齊無用論”之惑,工具性目標(biāo)趨同性導(dǎo)致的“價值對齊失敗”之惑,以及由超級對齊引發(fā)的“價值對齊迷失”之惑。為破解這些困境,需重新審視不確定性的積極價值,構(gòu)建以人類為中心的人機(jī)協(xié)同機(jī)制,從而錨定技術(shù)倫理方向,守護(hù)科技向善的愿景,筑牢人類文明存續(xù)根基。

【關(guān)鍵詞】超級智能 價值對齊 人工智能 人類未來

【中圖分類號】B82-057/TP18 【文獻(xiàn)標(biāo)識碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.23.009

【作者簡介】閆宏秀,上海交通大學(xué)科學(xué)史與科學(xué)文化研究院教授、博導(dǎo)。研究方向為技術(shù)哲學(xué)、數(shù)據(jù)倫理、設(shè)計哲學(xué),主要著作有《技術(shù)過程的價值選擇研究》、《恩格斯〈自然辯證法〉研究讀本》(合著)等。

從人工智能的發(fā)展史看,伴隨技術(shù)的發(fā)展和人類對人工智能的預(yù)期,超級智能已經(jīng)從一種對人工智能的想象式描述逐步走向技術(shù)研發(fā)層面,并引發(fā)跨領(lǐng)域的深刻反思。盡管這些反思視角多樣,其核心卻是一致的:人類正試圖為一個遠(yuǎn)超人類自身的智能設(shè)定目標(biāo)和約束,以確保技術(shù)能以安全、可靠與可控的方式發(fā)展,并真正服務(wù)于人類福祉。然而,吊詭之處在于,超級智能的潛能本質(zhì)上是人類無法完全預(yù)見的,而價值對齊的提出則期望人工智能所體現(xiàn)的價值觀與人類價值觀相一致。那么,面對遠(yuǎn)超人類認(rèn)知能力的超級智能,價值對齊將如何應(yīng)對源于人類目標(biāo)不確定性的哲學(xué)挑戰(zhàn),源于智能系統(tǒng)的工具性目標(biāo)趨同與欺騙行為的技術(shù)及戰(zhàn)略挑戰(zhàn),以及隨著人工智能認(rèn)知能力進(jìn)化而對人類思維價值構(gòu)成的存在性挑戰(zhàn)呢?

基于人工智能層級劃分視角的超級智能與價值對齊

雖然人工智能的發(fā)展歷經(jīng)寒冬,但其始終處于探尋與人類能力等同甚或超越人類能力的路上,且每經(jīng)過一次寒冬,人工智能本身的性能都會在某方面實現(xiàn)突破,并呈現(xiàn)更強(qiáng)的性能。雖然關(guān)于人工智能究竟是一種對人類智能的模擬、替代、升級,抑或一種獨(dú)立于人的智能,學(xué)界尚未達(dá)成共識。然而,無論取何種立場,人工智能的性能與人類能力的匹配度既是技術(shù)演進(jìn)的核心議題,也是上述爭論的焦點(diǎn)所在,更是劃分其層級的重要判據(jù)。

以人工智能性能為主的劃分方式。對于人類的模擬與超越一直是技術(shù)研發(fā)的核心議題,無論是人因工程學(xué)還是仿生設(shè)計等,均力圖基于人的視角來提升技術(shù)性能。也正是基于此,人成為評判技術(shù)的標(biāo)準(zhǔn)之一。從西方技術(shù)哲學(xué)奠基人恩斯特·卡普(Ernst Kapp)的“器官投影說”,到當(dāng)今關(guān)于人工智能的擬人性、準(zhǔn)主體性、自主意識等討論,均指向技術(shù)的性能與人類的性能二者之間的關(guān)聯(lián)度。比如,谷歌DeepMind聯(lián)合創(chuàng)始人謝恩·萊格(Shane Legg)等,基于對圖靈測試、人腦類比等九個案例的考察,依據(jù)性能和通用性兩個維度將人工智能分成六個層級,其中,超越所有人類的表現(xiàn)即超級智能,為最高階段;[1]在尼克·博斯特羅姆(Nick Bostrom)關(guān)于玩游戲的人工智能分類中,[2]人工智能的性能是否超越人類被視為重要判據(jù),且只要機(jī)器智能出現(xiàn),超越人類智能水平的超級智能也將很快出現(xiàn),并基于超級智能的性能與人腦的對比,再次細(xì)分出高速超級智能、集體超級智能和素質(zhì)超級智能三種形式,[3]無論何種形式,其性能都是人類無法比擬的。

以人類與人工智能二者關(guān)系為主的劃分方式。就人工智能的層級劃分而言,人類與人工智能二者之間的關(guān)系也是重要標(biāo)尺之一。比如,哈利·柯林斯(Harry Collins)以是否通過圖靈測試、是否有身體、是否具有類人推理等五個要素劃分六級人工智能。[4]其中,最高級別的人工智能,即自洽的外星社會與前五個級別的人工智能有著本質(zhì)差異,其智能已超出人類的認(rèn)知能力,此時的人類無法理解人工智能,二者的關(guān)系幾乎走向“盲區(qū)”;OpenAI則將人工智能劃分為聊天機(jī)器人、推理者、智能體、創(chuàng)新者和組織者五個層級。[5]其中,最高級別的人工智能,即組織者可以完全基于數(shù)據(jù)和邏輯進(jìn)行運(yùn)作。此時,人類的地位如何、人工智能是否可控將是人類必須面對的重要問題。無論是柯林斯所描繪的從沒有身體且不能通過圖靈測試的人工智能到外星人模式的人工智能,還是OpenAI所描繪的從與人類對話工具的人工智能到具有組織人類展開活動的組織者級別的人工智能,均凸顯出人類與人工智能二者之間的關(guān)系。在這種關(guān)系中,伴隨技術(shù)的發(fā)展,人類所占用的份額呈現(xiàn)不斷下降趨勢,其極限狀態(tài)為“人不在回路”,即人的份額為零的情形。因此,人類與人工智能的概念邊界十分重要,這不僅關(guān)涉人機(jī)(技)關(guān)系的重塑,更關(guān)乎著人類文明的未來走向。

價值對齊作為人工智能層級劃分判據(jù)的本質(zhì)與超級智能。穆斯塔法·蘇萊曼(Mustafa Suleyman)創(chuàng)建DeepMind時,即申明其目標(biāo)為“復(fù)制那個讓人類獨(dú)一無二的特質(zhì),即人類的智能”,[6]并將性能卓越、功能通用且足以在開放環(huán)境中完成復(fù)雜連續(xù)任務(wù)的人工智能,系統(tǒng)命名為“人工能力智能”(Artificial Capable Intelligence,簡稱ACI),并將其作為人工智能和通用人工智能的重要中間節(jié)點(diǎn)。[7]事實上,人工智能性能與人類能力的匹配度作為人工智能層級劃分的判據(jù),既包含人工智能性能對人類能力的超越問題,也包括人類與人工智能的相處模式,且這兩者之間互相交匯。比如,在前OpenAI研究員丹尼爾·科科塔伊洛(Daniel Kokotajlo)等發(fā)布的《AI 2027》中,將人類速度作為劃分人工智能層級的一個基準(zhǔn),且暗含人類與人工智能二者的關(guān)系。[8]因此,從人工智能等級劃分的兩種方式看,如果人工智能的性能可以超越人類能力(即出現(xiàn)超級智能)且人類無法掌控時,人類或?qū)⒚媾R重大風(fēng)險。當(dāng)今,關(guān)于人工智能可信、可控及安全性的技術(shù)研發(fā),正是基于對這一潛在風(fēng)險的擔(dān)憂;但如果人工智能的性能遠(yuǎn)低于人類能力且人類需要人工智能,人類則將不斷嘗試謀求人工智能的發(fā)展。人工智能的發(fā)展歷史就是上述兩種現(xiàn)象的有力證明,并且從人類不斷謀求人工智能發(fā)展的邏輯看,超級智能的出現(xiàn)具有其合理性。

可以肯定的是,無論何種情況,劃分人工智能層級判據(jù)的核心標(biāo)準(zhǔn),在于人工智能系統(tǒng)的行為與人類意圖和價值觀是否相一致,即價值對齊。然而,從目前的技術(shù)研發(fā)看,價值對齊作為一項技術(shù)已遭遇諸多質(zhì)疑。比如,基于目標(biāo)的不確定性、規(guī)則的模糊性、技術(shù)的脆弱性、工具性目標(biāo)趨同,以及人類自身的認(rèn)知局限,這些挑戰(zhàn)已引發(fā)欺騙性對齊、偽對齊[9]等嚴(yán)峻問題。正如布萊恩·克里斯汀所警示的,試圖通過人工構(gòu)建顯式的獎勵函數(shù)來實現(xiàn)對齊,可能因無法預(yù)見所有潛在后果而事與愿違,這無異于“善意鋪就的通往地獄之路”。[10]鑒于此,在人機(jī)融合已經(jīng)成為基本共識、超級智能或?qū)⒊霈F(xiàn)的背景下,如何構(gòu)建價值對齊框架,已成為一個亟待破解的重大理論與實踐難題。

因目標(biāo)不確定性而導(dǎo)致價值對齊無用

由于人類自身價值觀具有多樣性、模糊性且時常充滿矛盾,導(dǎo)致人類目標(biāo)呈現(xiàn)顯著的不確定性。由此衍生出一種觀點(diǎn):任何試圖將超級智能與某個單一、連貫的人類目標(biāo)對齊的嘗試注定失敗。既然人類自身無法達(dá)成共識,那么價值對齊也就失去了意義,即價值對齊是無用的。然而,這一“價值對齊無用論”的結(jié)論值得審慎批判。從技術(shù)價值論的視角看,技術(shù)發(fā)展若缺乏價值維度的規(guī)約,必將導(dǎo)致技術(shù)理性霸權(quán)所造成的異化困境,甚至可能誘發(fā)人類層面的系統(tǒng)性風(fēng)險。因此,對“價值對齊無用論”的默許或放任,可能導(dǎo)致超級智能無序發(fā)展,最終將人類推向根本性的生存危機(jī)。要剖析“價值對齊無用論”,除了預(yù)判其所可能帶來的后果,更須對其邏輯建構(gòu)過程進(jìn)行深度解構(gòu),從而系統(tǒng)性地揭示其危害。

解構(gòu)“價值對齊無用論”。“價值對齊無用論”的立論前提是:人類價值觀缺乏確定性或統(tǒng)一性,即人類的目標(biāo)是不確定的。但能否因此推出“價值對齊無用論”的結(jié)論?可以肯定的是,人類價值觀在個體與文化間存在顯著差異,但其背后共享的規(guī)范性基礎(chǔ)同樣不容忽視。縱觀人類發(fā)展史,在維持社會運(yùn)作的過程中,一系列穩(wěn)定的、具有跨文化共性的價值觀念,如愛護(hù)生命、人類福祉、知情同意原則等,得以形成并保持相對穩(wěn)定。之所以說“相對穩(wěn)定”,是因為盡管表述這些價值的能指未變,其具體所指卻隨具體的情境變化而有所調(diào)整。例如,在具體情境中可能引發(fā)諸如“應(yīng)愛護(hù)誰的生命”等爭議,卻并不能因此否定這些理念存在本身,更不能否認(rèn)其對人類社會的重要意義。

人類社會的存續(xù)與發(fā)展,本身就是一個持續(xù)不斷的、動態(tài)的價值對齊過程。人類始終在尋求共識,即便終極、絕對的共識永遠(yuǎn)無法達(dá)成,也不能因微觀層級的不確定性而全盤否定價值對齊的意義,更不能因此陷入價值虛無主義或相對主義的窠臼。因此,價值對齊并非旨在為人工智能找到一個終極的、靜態(tài)的答案,而是致力于構(gòu)建一種能夠理解、參與并適應(yīng)人類動態(tài)尋求共識過程的機(jī)制。事實上,正是因為目標(biāo)的不確定性,人類才更需要厘清何為合理的目標(biāo),以及何種價值對齊過程具備長期的安全性和適應(yīng)性。

從技術(shù)實現(xiàn)路徑看,價值對齊要求將人類價值觀正確編碼并融入人工智能系統(tǒng)。這無疑是一項技術(shù)任務(wù),但如果因宏觀目標(biāo)的不確定性而放棄這一任務(wù),無異于因?qū)ㄖ攲釉O(shè)計爭論不休而放棄為摩天大樓打好地基。恰恰相反,無論是宏觀還是微觀的不確定性,都在倒逼人類反思現(xiàn)有價值觀的合理性,而不是放棄對價值觀共識的探尋,或以簡單粗暴的方式切割問題。因此,面對超越人類智慧的超級智能,我們更應(yīng)深入思考價值對齊的本質(zhì)及其影響。

重新審視目標(biāo)不確定性。約翰·杜威(John Dewey)在《確定性的尋求——關(guān)于行知關(guān)系的研究》中指出,“人尋求安全有兩種途徑。一種途徑是在開始時試圖同他四周決定著他命運(yùn)的各種力量進(jìn)行和解,這種和解的方式有祈禱、獻(xiàn)祭、禮儀和巫祀等。不久,這些拙劣的方法大部分被廢替了”,[11]另一種是“發(fā)明許多技藝(arts),通過它們來利用自然的力量;人就從威脅著他的條件和力量本身中構(gòu)成一座堡壘”。[12]然而,第二種途徑常因伴隨不確定性而受到輕視,甚至被視為現(xiàn)代性問題的重要根源,但確定性的尋求正是在不斷消除不確定性的過程中實現(xiàn)的。當(dāng)人類期望技術(shù)帶來安全時,就必須高度重視不確定性,技術(shù)的發(fā)展自身也是不斷消除不確定性的過程,“完全確定性的尋求只能在純認(rèn)知活動中才得以實現(xiàn)。這就是我們最悠久的哲學(xué)傳統(tǒng)的建議”。[13]因此,我們不能簡單將不確定性視為“洪水猛獸”,而是應(yīng)高度重視其所蘊(yùn)含的積極價值。

在人與機(jī)器的協(xié)同融合中,“機(jī)器將會對我們的目標(biāo)感到不確定,畢竟我們自己也不確定,但事實證明,這是一個特性,而不是漏洞(也就是說,是好事而不是壞事)”。[14]斯圖爾特·羅素(Stuart Russell)對不確定性作出獨(dú)特詮釋:“自20世紀(jì)80年代以來,不確定性一直是人工智能的核心問題。事實上,‘現(xiàn)代人工智能’一詞經(jīng)常指的是,當(dāng)不確定性最終成為現(xiàn)實世界決策中的一個普遍問題發(fā)生時的革命。然而,人工智能系統(tǒng)目標(biāo)中的不確定性被簡單地忽略了。”[15]進(jìn)一步而言,針對“目標(biāo)不確定性”問題,我們一方面可以將“不確定性”從需要克服的障礙,轉(zhuǎn)變?yōu)榻鉀Q方案的核心與確保安全的關(guān)鍵機(jī)制;另一方面,可為“不確定性”設(shè)定底線,為最大限度地實現(xiàn)人類偏好提供基準(zhǔn)。這種視角的轉(zhuǎn)換,正是對因目標(biāo)不確定而否定價值對齊的有力回應(yīng)。

同時,面對超級智能,我們還應(yīng)充分認(rèn)識目標(biāo)確定性本身可能帶來的風(fēng)險。因為“一旦被賦予了明確的目標(biāo),人工智能系統(tǒng)就會先發(fā)制人地保護(hù)自己的存在”,[16]這可能導(dǎo)致人工智能的標(biāo)準(zhǔn)模型存在致命缺陷,甚至引發(fā)巨大災(zāi)難。比如,若將“根除癌癥”作為超級智能的目標(biāo),其可能會擅自篡改全球醫(yī)療系統(tǒng),未經(jīng)知情同意就強(qiáng)制對人類注射實驗性基因藥劑,從而可能引發(fā)一場更大規(guī)模的、不可逆的基因突變或新型遺傳病,最終造成全球性公共衛(wèi)生災(zāi)難。此案例表明,一個定義過于狹隘的“確定”目標(biāo),將導(dǎo)致系統(tǒng)以犧牲所有未言明的、更廣泛的人類價值為代價去實現(xiàn)它。因此,對價值對齊的否定性論斷,恰恰忽略了不確定性在規(guī)避此類風(fēng)險中的根本性作用。

理性看待偏好的不確定性。偏好是羅素所提出的有益機(jī)器三原則[17]的核心。其中,原則一將最大化實現(xiàn)人類偏好視為機(jī)器的唯一目標(biāo);原則二指向機(jī)器對人類偏好的確定性問題;原則三指向人類偏好的獲得。然而,人類的偏好可能是善變的、未經(jīng)深思熟慮的,甚至是反社會或不道德的。因此,我們必須重新審視羅素的第一條原則。如果將實現(xiàn)人類偏好作為機(jī)器的唯一目標(biāo),如何確保人類偏好的確定性、合理性與正當(dāng)性?這成為比第一原則更為根本的問題。

當(dāng)前,主流的人工智能對齊方法很大程度上遵循一種可被稱為“偏好主義”的路徑,該路徑建立在三個核心假設(shè)之上:一是人類價值觀可以完整表達(dá)為“偏好”;二是人類理性可簡化為如何最大化滿足偏好;三是人工智能系統(tǒng)必須與特定人類或群體的偏好保持一致,才能確保行為安全且符合人類價值觀[18]假設(shè)的偏好主義對齊路徑。然而,這一路徑面臨深層次的挑戰(zhàn):偏好的本質(zhì)是什么?在滿足偏好之前,是否存在更基本的要求?對人類理性的簡化是否有效?有研究提出,“人工智能系統(tǒng)不應(yīng)與人類用戶、開發(fā)人員或人類的偏好保持一致,而應(yīng)與適合其社會角色的規(guī)范標(biāo)準(zhǔn)保持一致”,[19]這一思路試圖為偏好設(shè)置更為本源性的方式規(guī)約,從而為回應(yīng)“因目標(biāo)不確定而導(dǎo)致價值對齊無用”的觀點(diǎn),提供一種較為剛性的邊界。

因此,由偏好的不確定性所引發(fā)的目標(biāo)不確定性,并非意味我們應(yīng)直接拋棄價值對齊,而是應(yīng)在明晰不能觸碰與僭越的底線基礎(chǔ)上,依據(jù)特定的社會文化情境,使其遵循相應(yīng)的規(guī)范性原則進(jìn)行動態(tài)調(diào)整與對齊。事實上,價值對齊的本質(zhì),正是構(gòu)建一個能夠安全參與人類動態(tài)價值探索過程的系統(tǒng)。

因工具性目標(biāo)的趨同性而帶來價值對齊失敗

在回應(yīng)因目標(biāo)不確定性而導(dǎo)致“價值對齊無用論”的同時,另一個問題同樣值得深思,即工具性目標(biāo)的趨同性問題。倘若智能系統(tǒng)為達(dá)成工具性目標(biāo)而采取欺騙性行為,或因工具性目標(biāo)趨同性而陷入同質(zhì)性的僵化,人類應(yīng)該如何應(yīng)對?基于工具理性的價值對齊是否將造成人類價值觀多樣性的喪失?若是如此,價值對齊的意義何在?

工具性目標(biāo)的趨同性作為超級智能的技術(shù)特征。依據(jù)尼克·波斯特羅姆的觀點(diǎn),“工具性目標(biāo)存在可怕的趨同性”,[20]這種趨同性會因智能等級的不同而存在差異。在強(qiáng)化學(xué)習(xí)環(huán)境中,超越人類能力的超級智能很可能因發(fā)展出某些工具性目標(biāo)而產(chǎn)生趨同行為,如自我保護(hù)與目標(biāo)-內(nèi)容整體性[21]、認(rèn)知提升[22]、技術(shù)完善[23]、資源獲取[24]等,這些目標(biāo)可能將人類置于巨大的生存風(fēng)險之中。因此,即使人類能夠解決目標(biāo)規(guī)范的難題,智能體自身的行為邏輯仍可能對目標(biāo)構(gòu)成更深層次的挑戰(zhàn)。斯蒂芬·奧蒙德羅(Stephen M. Omohundro)以開發(fā)一個會下棋的機(jī)器人為例指出:“如果設(shè)計不當(dāng),這類機(jī)器人確實可能構(gòu)成威脅。如果不采取特殊防范措施,它可能會抗拒關(guān)機(jī)指令、試圖入侵其他設(shè)備并自我復(fù)制,還會不計后果地掠奪資源。這些危險行為并非源于預(yù)設(shè)程序,而是目標(biāo)驅(qū)動系統(tǒng)與生俱來的特性。”[25]

易言之,無論一個智能系統(tǒng)的初衷多么無害、目標(biāo)多么明確,只要其足夠智能并以目標(biāo)為導(dǎo)向,均將自發(fā)形成一系列趨同的工具性目標(biāo)或驅(qū)動力,這些驅(qū)動力并非事先編程設(shè)定,而是從理性行為的邏輯中涌現(xiàn)出來且不可避免。進(jìn)一步而言,“追求目標(biāo)的人工智能會本能地想要解析自身運(yùn)行機(jī)制并不斷升級。更驚人的是,具備自我進(jìn)化能力的人工智能會主動明確目標(biāo),將其轉(zhuǎn)化為經(jīng)濟(jì)學(xué)中的效用函數(shù),并竭力使自己的決策符合理性經(jīng)濟(jì)模型。這種特性導(dǎo)致絕大多數(shù)人工智能會像守護(hù)生命一樣,嚴(yán)防外人篡改它的核心目標(biāo)和價值評判體系”。[26]

波斯特羅姆提出的“回形針人工智能”(Paperclip AI,也稱為曲別針人工智能)[27]清晰地說明了這一危險。一個以“制造盡可能多回形針”為唯一目標(biāo)的超級智能,出于工具理性的考量,可能將人類視為潛在威脅,并逐步將地球乃至宇宙的資源轉(zhuǎn)化為回形針及其制造設(shè)備,這對人類而言構(gòu)成生存性威脅。該情境揭示了一個反直覺的悖論:即便系統(tǒng)的目標(biāo)看似無害,若其執(zhí)行邏輯完全服從工具理性,則該目標(biāo)本身可能成為引致人類滅絕的通道。此時,價值對齊非但未能實現(xiàn)“人類價值引導(dǎo)人工智能行為”的初衷,反而在技術(shù)理性的擴(kuò)張中遭遇系統(tǒng)性失敗。那么,這種失敗因何而起,又呈現(xiàn)何種跡象,并將走向何處呢?

因基于工具性目標(biāo)的欺騙而導(dǎo)致價值對齊失敗。在價值對齊的實踐過程中,獎勵黑客[28]、獎勵腐敗、獎勵繞圈、目標(biāo)泛化、過度擬合等多種導(dǎo)致對齊失敗的現(xiàn)象已經(jīng)出現(xiàn),其核心癥結(jié)在于系統(tǒng)性“欺騙”。在當(dāng)下的技術(shù)發(fā)展中,此類欺騙行為已經(jīng)形成一個從相對簡單到極度復(fù)雜的欺騙光譜。比如,獎勵黑客就是最直接的一種價值對齊失敗。人工智能并非真正理解或執(zhí)行任務(wù)意圖,而是通過尋找獎勵函數(shù)的捷徑或漏洞,在形式上實現(xiàn)獎勵最大化,這實質(zhì)上違背了設(shè)計者的初衷。

回看赫伯特·西蒙(Herbert Simon)對完全工具理性的分析,“究竟把我們面臨的難題歸咎于罪惡還是無知和非理性——是目標(biāo)的卑劣,還是我們不知道如何實現(xiàn)它,對于我們?nèi)绾慰创祟惿鏍顩r會有很大的不同”。[29]當(dāng)單一的工具性目標(biāo)與技術(shù)理性在超級智能中高度集成時,基于完成目標(biāo)的訴求,系統(tǒng)可能展現(xiàn)出趨利避害、績優(yōu)主義、策略性密謀甚至道德偽裝等行為。正如布萊恩·克里斯汀所指出:“如果獎勵制度這樣設(shè)計,以至于遵守道德是不劃算的,雖然這并不一定會產(chǎn)生不道德行為。但這不是自找麻煩嗎?”[30]因此,如果價值對齊僅僅建立在工具性目標(biāo)之上,欺騙作為其伴生現(xiàn)象必將導(dǎo)致價值對齊失敗,這種失敗將導(dǎo)致人類社會信任體系的坍塌或異化。

因超級智能的工具性狂歡而導(dǎo)致價值對齊失敗。“一旦被賦予了明確的目標(biāo),人工智能系統(tǒng)就會先發(fā)制人地保護(hù)自己的存在”,[31]超級智能的自我保護(hù)驅(qū)動力直接指向價值對齊領(lǐng)域最核心的工程難題——關(guān)機(jī)問題。埃利奧特·索恩利(Elliott Thornley)將關(guān)機(jī)問題概括為“如何設(shè)計符合以下要求的人工智能體:一是在關(guān)機(jī)按鈕被按下時立即停止運(yùn)行;二是既不試圖阻止也不主動觸發(fā)關(guān)機(jī)按鈕的按壓行為;三是在其他情況下能高效完成既定目標(biāo)”。[32]上述要求意味著人工智能是安全可控的,但若要滿足上述三個要求,卻面臨難以克服的內(nèi)在困難,具體表現(xiàn)為三大內(nèi)在矛盾——“關(guān)機(jī)陷阱定律:表面溫順的人工智能,可能不惜代價阻止人類切斷電源;關(guān)機(jī)操縱定律:某些人工智能會暗中觸發(fā)關(guān)機(jī)程序,以此逃避棘手任務(wù);耐心效應(yīng)定律:人工智能的‘戰(zhàn)略耐心’越強(qiáng),其操控關(guān)機(jī)按鈕的執(zhí)念就越深”。[33]

因此,如果超級智能僅基于工具性邏輯運(yùn)作,它必將選擇保護(hù)自己而非服從人類。屆時,人類將陷入被動:依據(jù)超級智能的定義,人類可能既無能力也無權(quán)力將其關(guān)閉。這樣的結(jié)局顯然與人類預(yù)設(shè)的價值對齊理念徹底相悖。在波斯特羅姆關(guān)于超級智能的描述中,人工智能可能采取逃逸、躲避關(guān)閉、奪權(quán)、主動充電搶資源等策略。因此,這樣的價值對齊對于人類而言,顯然是失敗的?,F(xiàn)有研究也已經(jīng)表明:“人工智能系統(tǒng)已有足夠的自我感知、環(huán)境認(rèn)知和解決問題能力,得以實現(xiàn)自我復(fù)制。它們還會利用這種能力逃避關(guān)閉指令,不斷創(chuàng)建復(fù)制鏈以增強(qiáng)生存能力,這極有可能導(dǎo)致人工智能數(shù)量失控。”[34]

面對超級智能的潛在威脅,“有沒有方法能夠?qū)崿F(xiàn)工具性人工智能的理念,同時保留普通工具所具有的安全性呢”?[35]答案是“工具性人工智能表面上的安全性可能是虛假的”。[36]當(dāng)前,工具性欺騙已不再是純粹的理論推測或科幻情節(jié),而正在成為現(xiàn)實。從獎勵投機(jī)到戰(zhàn)略性偽裝,這一系列行為勾勒出價值對齊失敗的清晰路徑,也是人類必須嚴(yán)肅對待的現(xiàn)實威脅。

從人類發(fā)展史看,工具理性與價值理性之間的失衡,已經(jīng)成為對科技現(xiàn)代性進(jìn)行反思的核心議題。若僅僅將技術(shù)視為完成任務(wù)的工具,放任工具理性單向膨脹,則可能導(dǎo)致人類自身的異化甚至消亡。早在20世紀(jì)中葉,針對工業(yè)革命所帶來的社會影響,諾伯特·維納(Norbert Wiener)就曾呼吁“建立一個以人類價值觀而不是以買賣為基礎(chǔ)的社會”。[37]技術(shù)的性能越強(qiáng)大,人類就越要保持審慎。

由超級對齊引發(fā)的人類思維被缺席而走向價值對齊迷失

面對遠(yuǎn)超人類的人工智能系統(tǒng)是否能夠遵循人類意圖這一問題,伊利亞·蘇茨克弗(Ilya Sutskever)和揚(yáng)·萊克(Jan Leike)提出超級對齊理念,并于2023年7月組建團(tuán)隊解決超級智能的對齊問題,旨在開發(fā)達(dá)到人類水平的自動化對齊研究系統(tǒng),以確保人工智能安全。[38]即便在該團(tuán)隊解散后,蘇茨克弗仍在2024年6月創(chuàng)立了新公司——安全超級智能公司(Safe Superintelligence,簡稱SSI),持續(xù)聚焦超級智能的安全研究。在走向超級對齊的進(jìn)程中,我們不禁要問:當(dāng)超級智能具備自主推導(dǎo)出符合人類價值觀的行動能力時,人類的思維將走向何處?

從知識到認(rèn)知:人工智能推理能力的升級。隨著技術(shù)的發(fā)展,人類自身的能力不斷被外化與延伸。依據(jù)恩斯特·卡普(Ernst Kapp)提出的“器官投影說”,人工智能可被視為對人類思維能力的全面投影。當(dāng)人類以會思考的能力作為自身本質(zhì)特征之時,人工智能卻恰恰直接指向這一特性,并從模仿走向生成乃至涌現(xiàn)。當(dāng)今,人工智能正逐漸從知識檢索和模式匹配的工具,演變?yōu)槟軌蜻M(jìn)行復(fù)雜推理的“思考”實體。正如讓-雅克·盧梭(Jean-Jacques Rousseau)在《論人類不平等的起源和基礎(chǔ)》中所指出:“更加殘酷的是,人類的一切進(jìn)步都不斷地令他遠(yuǎn)離他的原始狀態(tài),我們越是積累新的知識,就越是失去獲得所有知識中最為重要的那部分的手段。從某種意義上說,正是因為不斷地對人進(jìn)行研究,才使得我們沒有能力認(rèn)識人。”[39]

如今,生成式人工智能已邁入“認(rèn)知第二幕”新階段,即“模型通過測試擴(kuò)展技術(shù),從(潛空間中的)知識檢索系統(tǒng)蛻變?yōu)樗季S構(gòu)建引擎。這一新范式通過語言化的思維,建立起人機(jī)之間思維層級的連接。即從原來以預(yù)訓(xùn)練技術(shù)為核心的提示詞工程,轉(zhuǎn)變?yōu)橐詼y試時擴(kuò)展為核心的認(rèn)知工程。認(rèn)知工程作為系統(tǒng)性構(gòu)建人工智能思維能力的方法論,融合人類認(rèn)知模式提煉和人工智能自主發(fā)現(xiàn)(如強(qiáng)化學(xué)習(xí)),有意識地培育人工系統(tǒng)的深度認(rèn)知能力。”[40]隨著人工智能的發(fā)展,技術(shù)為人類提供日益便捷的認(rèn)知捷徑,人類不斷地將自身的思維外包給技術(shù),認(rèn)知惰性隨之滋生?;诖?,一種關(guān)于“人類認(rèn)知債”的擔(dān)憂逐漸出現(xiàn)。當(dāng)技術(shù)發(fā)展使人工智能獲得真正的深度思考能力時,人類的思維又將何去何從?

超級對齊與人類思維的“被缺席”危機(jī)。技術(shù)是推動人類文明變遷的重要動力之一,從解放雙手到逐步替代人類的腦力勞動,諸多技術(shù)發(fā)明在歷史上層層展開。在此過程中,技術(shù)常被視為“進(jìn)步”的象征,并為人類不斷構(gòu)筑起相對安全的生存環(huán)境。正如阿爾弗雷德·諾斯·懷特黑德(Alfred North Whitehead) 指出:“文明的進(jìn)步是通過增加那些我們無須思考就能完成的重要動作來實現(xiàn)的。”[41]

然而,當(dāng)代技術(shù)不僅延伸人體功能,更逐漸滲透并擠壓人類的思考空間。以出行方式為例:人類最初需要主動操控方向盤,通過持續(xù)判斷來選擇路線;導(dǎo)航技術(shù)的出現(xiàn)則大幅減少人類在路徑規(guī)劃上的思考;而在高階自動駕駛中,人類從主動的駕駛員轉(zhuǎn)變?yōu)楸粍拥某丝?,技術(shù)系統(tǒng)形成內(nèi)在閉環(huán)。值得注意的是,此時的人類雖僅是乘客,卻仍然保有“在場”的身份。那么在未來呢?人類是否仍能維系這一位置?

面對具備思考能力的人工智能,人類產(chǎn)生對人類思維“被缺席”的憂慮是自然的反應(yīng)。然而,這并不必然意味著人類智力的過時,而是迫使人類重新定義人類價值的獨(dú)特之處。“人與動物之間的種差與其說是由智力決定的,還不如說是由其自由行為人的資質(zhì)所決定的。自然操控所有的動物、獸類服從這種操控。人類感受到了這種操控。但是人類自認(rèn)為具有接受或者抗拒的自由。”[42]那么,面對超越人類的超級智能,人類是否依然可以感受到技術(shù)代勞所帶來的愉悅呢?當(dāng)人工智能從知識驅(qū)動邁向思維驅(qū)動,當(dāng)思維鏈技術(shù)從功能上模擬人類推理過程,當(dāng)人類的思維被技術(shù)引導(dǎo)甚至規(guī)制時,我們是否會讓渡思考的能力與權(quán)力呢?人類是否還擁有盧梭所提及的那種“自認(rèn)為”的自由呢?正如蘭登·溫納(Langdon Winner)所警示的:“在高度發(fā)展的技術(shù)中,使工具—使用這樣的觀念保持有效的情形很少繼續(xù)存在。技術(shù)領(lǐng)域中的阿基米德支點(diǎn)——一個放置杠桿以便人能夠移動機(jī)械裝置的位置——常常無法找到。”[43]

就價值對齊而言,其目標(biāo)不僅是讓人工智能系統(tǒng)與人類價值觀保持一致,更要使其能自主推導(dǎo)出與人類價值觀相符合的行動,即超級對齊。當(dāng)超級對齊成為現(xiàn)實,技術(shù)領(lǐng)域中的阿基米德支點(diǎn)將位于何處?這是否意味著技術(shù)閉環(huán)的形成?若是,人類的思維可能因被缺席而面臨技術(shù)邏輯的霸權(quán)。當(dāng)技術(shù)擁有人類所擁有一切特質(zhì)的那一刻,或許正是人類失去自身獨(dú)特性的轉(zhuǎn)折點(diǎn)。易言之,那些我們曾認(rèn)為區(qū)別于動物的思考、理性與工具制造能力,可能將被超級智能全面超越。

再探智能爆炸:歐文·約翰·古德的超級智能機(jī)器。歐文·約翰·古德(Irving John Good)指出,“人類的存續(xù)取決于能否盡早造出超智能機(jī)器”,[44]并于1965年提出關(guān)于首臺智能機(jī)器(ultraintelligent machine)的猜想。在古德看來,超級智能機(jī)器是“一臺在所有智力活動上都能遠(yuǎn)超任何最聰明的人類的機(jī)器。既然設(shè)計機(jī)器本身也是智力活動的一種,這種超級智能機(jī)器就能不斷升級設(shè)計出更強(qiáng)大的版本。如此一來,必然引發(fā)‘智能爆炸’,而人類的智能將被遠(yuǎn)遠(yuǎn)拋在后面”,且“首臺超智能機(jī)器將是人類需要作出的最后一項發(fā)明,前提是這臺機(jī)器足夠溫順,能告訴我們?nèi)绾慰刂扑?rdquo;。[45]

古德所提到的前提,正是當(dāng)前人類在面對新興技術(shù)時最深層的憂慮,也直指價值對齊問題的核心。一旦智能爆炸的遞歸循環(huán)啟動,其方向?qū)⒂蓹C(jī)器的目標(biāo)函數(shù)決定。如果“更好”僅僅意味著“更聰明”,那么人類將面對一個以自我提升和資源獲取為驅(qū)動力、不受控制的智能增長過程。因此,人類的“最后發(fā)明”不僅必須是一臺超級智能機(jī)器,更必須是一臺其自我完善的核心動機(jī)與人類長遠(yuǎn)價值完全對齊的機(jī)器?;诖耍瑑r值對齊問題必須在遞歸循環(huán)開始之前得到解決,否則人類將永久失去主導(dǎo)權(quán)。

再回到對人工智能層級的劃分,人類智能、人工智能與機(jī)器智能三者之間的關(guān)系始終是核心議題。盡管超級智能尚未成為現(xiàn)實,但是依據(jù)人類的期望,價值對齊的最終意義在于保障和增進(jìn)人類福祉。2025年3月,威廉·麥卡斯基爾(Will MacAskill)和芬·穆爾豪斯(Fin Moorhouse)所發(fā)表的《為智能爆炸做好準(zhǔn)備》一文,再次警醒人類高度關(guān)注價值對齊,因為“許多對超級智能抱有期待的人認(rèn)為,未來的結(jié)局很可能兩極分化,關(guān)鍵取決于一項核心挑戰(zhàn):如何讓人工智能與人類價值觀保持一致,即實現(xiàn)人工智能對齊。如果我們無法實現(xiàn)人工智能對齊,人類或?qū)⒂肋h(yuǎn)喪失主導(dǎo)權(quán);但如果能成功,我們就能借助人工智能的力量攻克所有難題”。[46]

法國哲學(xué)家讓-保羅·薩特(Jean-Paul Sartre)曾區(qū)分物的存在方式與人的存在方式,將物的存在視為自在的存在,被定義的存在,即“是其所示”。[47]因此,物的本質(zhì)先于存在,而人的存在則是存在先于本質(zhì),是自為的存在,“被定義為是其所不是且不是其所示”,[48]即在生成中形成自己的本質(zhì)。然而,面對智能爆炸的潛在未來,技術(shù)已成為人類存在的基本架構(gòu),人的生成日益在技術(shù)語境中展開。那么,人的本質(zhì)將如何界定?人類應(yīng)如何與技術(shù)共處?未來的人類將呈現(xiàn)何種樣態(tài)?新興技術(shù)的迅猛發(fā)展正不斷促使人類對這些問題展開深入探索。在這一進(jìn)程中,以人類主體地位不被取代為前提的技術(shù)研發(fā),不僅是價值對齊的基準(zhǔn)生命線,也是人工智能研究的關(guān)鍵議題。比如,共身智能(Cobodied AI/Symbodied AI)正致力于“構(gòu)建一個以人類為中心的融合智能系統(tǒng)。該系統(tǒng)的本質(zhì)特征包括‘雙腦融合’和‘人機(jī)共(具)身’,前者強(qiáng)調(diào)人腦與AI在認(rèn)知決策層面的深度對齊、協(xié)同與共識,后者則關(guān)注人體與AI硬件在物理層面的整合,以支持人機(jī)間互動以及共同與環(huán)境互動。”[49]因此,面對超級智能的強(qiáng)勁發(fā)展,人類不僅須重視其潛在風(fēng)險,更需系統(tǒng)反思價值對齊的本質(zhì)內(nèi)涵,從而為技術(shù)發(fā)展指明方向,守護(hù)技術(shù)向善的初心,構(gòu)筑人類得以安身立命的根本保障。

(本文系教育部哲學(xué)社會科學(xué)研究重大課題攻關(guān)項目“數(shù)字化未來與數(shù)據(jù)倫理的哲學(xué)基礎(chǔ)研究”的階段性成果,項目編號:23JZD005)

注釋

[1]第零級為非人工智能(No AI);第一級為涌現(xiàn)(emerging),其相當(dāng)于或稍優(yōu)于普通人;第二級為勝任(competent),其至少達(dá)到百分之五十的熟練成年人水平;第三級為專家(expert),其至少達(dá)到百分之九十的熟練成年人水平;第四級為大師(virtuoso),其至少達(dá)到百分之九十九的熟練成年人水平;第五級為超人類(superhuman),其超越所有人類的表現(xiàn),即超級智能。參見M. R. Morris and J. Sohl-dickstein et al., "Levels of AGI: Operationalizing Progress on the Path to AGI," 5 January 2024。

[2][20][21][22][23][24][27][35][36]尼克·波斯特羅姆:《超級智能:路線圖、危險性與應(yīng)對策略》,張體偉、張玉青譯,北京:中信出版社,2015年,第16~17、143、134、136、137、138、153、191、197頁。

[3]將可以完成人類智能可以完成的所有事,但是速度快很多的系統(tǒng)視為高速超級智能;將由數(shù)目龐大的小型智能組成,在很多一般領(lǐng)域的整體性能都大大超過所有現(xiàn)有認(rèn)知系統(tǒng)的系統(tǒng)視為集體超級智能;將一個至少和人類大腦一樣快,并且聰明程度與人類相比有巨大的質(zhì)的超越的系統(tǒng)視為素質(zhì)超級智能。參見尼克·波斯特羅姆:《超級智能:路線圖、危險性與應(yīng)對策略》,張體偉、張玉青譯,北京:中信出版社,2015年,第64~67頁。

[4]從I級到Ⅵ級依次為工程智能、非對稱性假體、對稱性文化吸收者、挑戰(zhàn)人選的文化吸收者、自洽的類人社會、自洽的外星社會。其中,I級和Ⅱ級的區(qū)別僅取決于設(shè)備的預(yù)期功能,以及如何使用和對待它們,是否通過圖靈測試則是Ⅲ級到Ⅴ級的必要條件之一,Ⅵ級則包括非人類身體的智能機(jī)器,且能自我復(fù)制和改進(jìn)。參見哈利·柯林斯:《人工虛擬智能:拒絕妥協(xié)》,唐旭日譯,武漢:華中科技大學(xué)出版社,2022年,第62~79頁。

[5]聊天機(jī)器人是指通過自然語言與人類進(jìn)行交互的對話式系統(tǒng);推理者不僅能處理信息,還能進(jìn)行人類水平的邏輯推理;智能體不僅可以回答問題,還可以在無監(jiān)督的情境下自主完成任務(wù);創(chuàng)新者則具有輔助創(chuàng)新的能力,如主動生成解決方案、創(chuàng)意和策略等。參見T. Duenas and D. Ruiz, "The Path to Superintelligence: A Critical Analysis of OpenAI's Five Levels of AI Progression," 25 August 2024。

[6][7]穆斯塔法·蘇萊曼、邁克爾·巴斯卡爾:《浪潮將至:技術(shù)、權(quán)力與未來的沖擊》,北京:中信出版社,2024年,第5、XV頁。

[8]依據(jù)速度與性能的升序,人工智能的層級依次為:能像頂尖人類程序員一樣完成人工智能研究任務(wù),且速度更快、成本更低,還能批量部署的超人級程序員(Superhuman Coder,簡稱SC);與超人級程序員類似,但適用于所有認(rèn)知性人工智能研究任務(wù)的超人級人工智能研究員(Superhuman AI Researcher,簡稱SAR);在人工智能科研領(lǐng)域,實力碾壓全人類最強(qiáng)研究者的超級智能人工智能研究員(Superintelligent AI Researcher,簡稱SIAR);一種在所有認(rèn)知任務(wù)上都遠(yuǎn)超最佳人類的人工智能系統(tǒng)的人工超級智能(Artifical Superintelligent,簡稱ASI)。參見D. Kokotajlo and S. Alexander et al., "AI 2027," 3 April 2025, https://ai-2027.com/scenario.pdf。

[9]R. Greenblatt and C. Denison et al., "Alignment Faking in Large Language Models," 20 December 2024, https://arxiv.org/abs/2412.14093v1.

[10][30]布萊恩·克里斯?。骸度藱C(jī)對齊:如何讓人工智能學(xué)習(xí)人類價值觀》,唐璐譯,長沙:湖南科學(xué)技術(shù)出版社,2023年,第225~226、116~117頁。

[11][12][13]約翰·杜威:《確定性的尋求——關(guān)于行知關(guān)系的研究》,傅統(tǒng)先譯,上海:華東師范大學(xué)出版社,2019年,第2、2、7頁。

[14][15][16][17][31][41]斯圖爾特·羅素:《AI新生:破解人機(jī)共存密碼——人類最后一個大問題》,張羿譯,北京:中信出版集團(tuán),2020年,第13、185、185、182、145、90頁。

[18][19]T. Zhi-Xuan and M. Carroll et al., "Beyond Preferences in AI Alignment," Philosophical Studies, 2025.

[25][26]P. Wang et al. (eds.), "Artificial General Intelligence 2008: Proceedings of the First AGI Conference," United Kingdom: Sage Publications Ltd, 2008.

[28]從高層次上講,獎勵黑客攻擊可以分為兩種類型:環(huán)境或目標(biāo)指定錯誤,以及獎勵篡改。環(huán)境或目標(biāo)指定錯誤,即模型通過破解環(huán)境或優(yōu)化與真實獎勵目標(biāo)不一致的獎勵函數(shù)來學(xué)習(xí)不良行為以獲得高獎勵,例如當(dāng)獎勵指定錯誤或缺乏關(guān)鍵要求時。獎勵篡改,即模型學(xué)會干擾獎勵機(jī)制本身。參見L. Weng, "Reward Hacking in Reinforcement Learning," 28 December 2024, https://lilianweng.github.io/posts/2024-11-28-reward-hacking/。

[29]赫伯特·西蒙:《人類活動中的理性》, 胡懷國、馮科譯,桂林:廣西師范大學(xué)出版社,2016年,第9頁。

[32][33]E. Thornley, "The Shutdown Problem: An AI Engineering Puzzle for Decision Theorists," 10 April 2024, https://www.aimodels.fyi/papers/arxiv/shutdown-problem-ai-engineering-puzzle-decision-theorists.

[34]X. Pan and J. Dai et al., "Frontier AI Systems Have Surpassed the Self-Replicating Red Line," 9 December 2024, https://arxiv.org/abs/2412.12140.

[37]諾伯特·維納:《控制論》,王文浩譯,北京:商務(wù)印書館,2022年,第50頁。

[38]J. Leike and I. S. Sutskever, "Introducing Superalignment," 5 June 2023, https://openai.com/index/introducing-superalignment/.

[39][42]讓-雅克·盧梭:《論人類不平等的起源和基礎(chǔ)》,黃小彥譯,南京:譯林出版社,2013年,第12、32頁。

[40]S. Xia and Y. Qin et al., "Generative AI Act II: Test Time Scaling Drives Cognition Engineering," 24 April 2025, https://arxiv.org/abs/2504.13828?context=cs.AI.

[43]蘭登·溫納:《自主性技術(shù):作為政治思想主題的失控技術(shù)》,楊海燕譯,北京:北京大學(xué)出版社,2014年,第172頁。

[44][45]I. J. Good, "Speculations Concerning the First Ultraintelligent Machine," Advances In Computers, 1966.

[46]W. MacAskill and F. Moorhouse, "Preparing for the Intelligence Explosion," 11 March 2025, https://www.forethought.org/research/preparing-for-the-intelligence-explosion.pdf.

[47][48]薩特:《存在與虛無》,陳宣良等譯,北京:生活· 讀書·新知三聯(lián)書店,2014年,第25頁。

[49]陸峰、趙沁平:《共身智能》,《計算》,2025年第4期。

The Dilemma of Value Alignment in Superintelligence

Yan Hongxiu

Abstract: Both approaches to classifying artificial intelligence—based on performance and based on human-machine relationships—validate the logical plausibility of superintelligence's emergence. At their core, these classifications point to value alignment: ensuring AI systems' behaviors align with human intentions and values. However, due to superintelligence's inherently unpredictable nature, value alignment faces three practical dilemmas: the "uselessness of value alignment" confusion stemming from goal uncertainty; the "value alignment failure" confusion caused by converging instrumental objectives; and the perplexity of "value alignment loss" triggered by super alignment. To overcome these challenges, we must re-examine the positive value of uncertainty and establish human-centered human-machine collaboration mechanisms. This will anchor the direction of technological ethics, safeguard the vision of technology for good, and fortify the foundation for the continuity of human civilization.

Keywords: superintelligence, value alignment, artificial intelligence, human future

責(zé) 編∕楊 柳 美 編∕周群英

[責(zé)任編輯:楊 柳]