【摘要】大數據、算法作為智能科技的關鍵組成部分,本身并不是天然“價值中立”的,而是不同程度地內蘊著一定的主體價值觀。在借助深度學習等算法對各類數據進行采集、存儲、分析與應用,并據此實施自動化評價和決策時,往往產生多種形式的偏見和歧視,有時甚至以數據、算法為中介加劇既有的社會偏見和歧視現象。與農業、工業時代流行的社會歧視現象相比較,數據、算法歧視因具有鮮明的高新技術色彩而更具革命性和顛覆性,對被歧視對象的影響更加深入,危害更大。當務之急應在充分利用大數據技術、算法技術造福人類的同時,采取具有前瞻性的、系統務實的治理方略,逐步消除各種數據、算法歧視現象,促進社會公平正義。
【關鍵詞】人工智能 數據歧視 算法歧視 社會公正
【中圖分類號】B82-057/TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2026.04.009
【作者簡介】孫偉平,上海大學智能哲學與文化研究院院長,馬克思主義學院教授,博士生導師。研究方向為價值哲學、智能哲學,主要著作有《事實與價值:休謨問題及其解決嘗試(修訂本)》《大變革時代的哲學》《信息時代的社會歷史觀》《價值差異與社會和諧——全球化與東亞價值觀》等。
習近平總書記在二十屆中央政治局第二十次集體學習時強調,全面推進人工智能科技創新、產業發展和賦能應用,完善人工智能監管體制機制,牢牢掌握人工智能發展和治理主動權。[1]邁入數字智能時代,隨著以大數據驅動和深度學習算法為代表的新興技術快速發展和廣泛應用,社會公正這一古老而常新的價值訴求,面臨著一系列全新的問題和挑戰。大數據、算法作為智能科技的關鍵組成部分,本身并不是天然“價值中立”的,而是不同程度地內蘊著一定的主體價值觀。在借助深度學習等算法對各類數據進行采集、存儲、分析與應用,并據此實施自動化評價和決策時,往往產生多種形式的偏見和歧視,有時甚至以數據、算法為中介加劇既有的社會偏見和歧視現象。勒普瑞等人指出:“喂養算法的數據中存在的歧視、算法設計者和參與者的個人偏見,使算法決策繼承并再現了已有的社會歧視模式,從而加深了流行的不平等現象。”[2]對此,我們需立足大數據與算法技術的基本特征、形成機理和發展趨勢,運用價值哲學的理論和方法進行深入分析,有針對性地探索祛除數據和算法歧視、實現數據和算法公正的適當路徑。
數據的“非價值中立性”與數據歧視
“大數據”(big data)通常指規模巨大到無法在短時間內分析、擷取、加工和處理,卻能從中提取出巨大價值的數據。維克托·邁爾-舍恩伯格、肯尼思·庫克耶指出:“大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方法。”[3]隨著數字智能時代的到來,“大數據”(包括“信息”“知識”等)不僅成為最為常見且關鍵的經濟和社會資源,而且成為人工智能算法產生和發展的基本支撐。無論是算法的設計、編寫和完善,還是生成式人工智能的預訓練、訓練和應用,大數據都具有不可或缺的基礎性意義。
某些科學主義者的頭腦中一直盤踞著一個“堅定的”信念,即“事實與數據不會說謊”。他們常常憑直覺認為,大數據是客觀事實的數字化表達,是“價值中立”或“與價值無涉”的,是沒有“被價值污染”的可靠資料。然而,這卻是一種過于樂觀、自欺欺人的“想當然”,是一種未經理性反省和邏輯追問的粗糙的信念。
實際上,大數據涉及的對象十分豐富、復雜。從類型方面看,大數據包括符號、文本、圖片、音頻、視頻等,及其混合表達。從內容方面看,大數據不僅包括事實與對事實的認知與判斷,而且包括價值與對價值的評價與判斷,譬如“為富者必不仁”“饑寒起盜心”之類主觀性的價值判斷。誠然,沒有人會認為價值與價值判斷是“價值中立”或“與價值無涉”的;而斷言事實與事實判斷是客觀的,是“價值中立”或“與價值無涉”的,實際上也站不住腳。因為世界上根本就不存在“與人無關”的“純客觀”的“事實”,甚至不存在一種單純的僅僅表達事實的語言;事實認知和判斷作為一項“人為的”和“為人的”目的性活動,往往滲透著一定的價值和價值判斷,并且總體上服務于主體的價值目的、利益與需要。[4]
除了大數據的內容本身,大數據的采集、存儲、加工、應用過程更加復雜,更難做到“價值中立”或“與價值無涉”。從價值哲學的視角看,我們生活的世界既是一個事實世界,更是一個價值世界。人們采集、存儲、加工、應用的大數據,本質上都是秉持某種價值觀的人的活動的產物,都或隱或顯地內蘊著一定主體的價值觀。而且,任何人在任何情況下都不可能擺脫“價值”,即使有人想純粹客觀地把握一個事物或事件,原原本本地“占有”其全部數據,也幾乎是不可能的,難免發生信息或數據“滲漏”“冗余”“扭曲”等情況。在價值因素如影隨形的情況下,哪些數據可能進入人們的視野,哪些數據可能被采集、存儲,哪些數據可能受到特別的關注,哪些數據可能被人用來支撐自己的主觀判斷,等等,往往與特定的價值主體和主體因素相關。而由于文化傳統、經濟狀況、社會地位、利益與需要、素質與能力不盡相同,不同的價值主體往往具有不同的立場,存在不同的“價值尺度”和價值傾向性,且其價值立場、“價值尺度”和價值傾向性必然在數據的選擇、提取、加工、應用等過程中表現出來。
在社會生活特別是社會交往中,受社會歷史因素的影響,特別是受主體狀況的影響,不同價值主體活動的數據“呈現力度”不可能完全一致,甚至可能存在明顯的差異性。從目前大數據采集、存儲的具體情況來看,與強勢主體相關的數據往往比較容易受到關注,易被智能系統采集,而這些數據則表現出與之相應的價值傾向性?;跉v史與現實原因,如歷史傳承的連續性、經濟和技術條件,以及數字鴻溝之類因素的影響,目前各種數據庫采集、存儲的大多是發達國家和地區、大城市、成功群體等的數據,而部分發展中國家以及欠發達地區、偏遠鄉村、弱勢群體等方面的數據,則受限于其經濟條件和社會地位,加之數據采集難度比較大,常常會被選擇性地忽略,相關的數據缺失、數據不完整、數據錯漏、數據更新不及時等情況較為嚴重。由于事實上缺乏部分數據,或者由于大數據本身的“非價值中立性”和“失真”,在分析、加工處理過程中,難免造成對部分群體不同程度的漠視、排斥、偏見和歧視。例如,早期的一些機器學習算法在進行人臉識別時,用于算法設計、編寫、訓練的照片大多是西方白人,導致算法存在明顯地偏向白人的“審美偏好”,有時這些算法很難準確識別其他人種面孔的特征。
值得警惕的是,與特定主體相關的一些社會性因素可能人為地“污染”數據,有意無意地制造和加劇數據歧視。例如,從政治意識形態的視角看,以美國為首的部分西方發達國家自覺或不自覺地將他們的價值觀包裝成所謂“普適價值”,通過“價值觀滲透”“價值觀外交”“價值觀結盟”“為價值觀而戰”等方式,強行在全世界推廣。這些國家利用自身在經濟、政治、軍事、技術等領域的強勢地位和話語權優勢,往往將附帶自身價值觀的數據標榜為客觀的、具有說服力的數據,令相應的數據被過分關注、人為強化、優先對待,而與他們的價值觀不盡相同,甚至相悖的數據則可能被人為忽視、惡意篡改,或者被選擇性地進行加工。又如,在資本主導的經濟和社會結構中,大數據的“非價值中立性”更易受到資本和市場的嚴重干擾。資本的本性和邏輯是賺取超額利潤,受資本控制的數字企業、數字平臺對大數據的采集、存儲、加工和使用,必然服從并服務于資本家的利益和資本增殖的邏輯。其總是盡可能多地關注、挖掘有利于資本增殖的數據資源,千方百計地發掘、拓展其商業價值。“資本家利用數據資源非現實性、分享增值性、非稀缺性、非排他性和共享性的特性,創造全新的資源提取和壟斷機制”[5],不斷生產、完善其數字產品和服務,賺取歷史上聞所未聞的超額利潤。例如,他們利用數字平臺的優勢,以提供服務需要為借口,甚至以平臺、產品和服務的使用權相威脅,無償“掠奪”用戶的數據資源,包括各種涉及個人隱私的數據。資本通過對大數據資源的支配與占有,以平臺壟斷、大數據殺熟、業務拓展等手段使資本增值,無償占有數據生產者的剩余價值,形成一種獨特的數據剝削機制。
總之,邁入數字智能時代,大數據的“非價值中立性”與無處不在的隱私泄露、數據歧視現象,已成為社會大眾難以規避的挑戰。特別是在經濟、政治、技術等方面處于相對弱勢地位的普通民眾,更是憂心忡忡。相較于農業時代與工業時代,普通民眾的憂慮具體集中在以下四方面:一是擔心相關部門、企業等在自己不知情的情況下過度采集個人數據,敏感信息或隱私被偷窺,損害自己的人格、尊嚴和社會形象;二是擔心在關乎自身權益的問題上“被代表”,使用他人的或者附帶他人價值觀的數據,或者虛假的、不完整、過時的數據“代表”自己,并據此形成不利于自身的評價和決策;三是擔心相關部門、企業等非法存儲、買賣個人數據,或者超授權使用個人數據,造成隱私數據的泄露,或者被人用于電信騷擾、網絡敲詐等違法活動;四是擔心相關部門、企業等運用日益強大的大數據技術,分析個人數據并進行精準“畫像”,人為地影響、操控自己的思想、心理和行為,甚至以“大數據殺熟”之類的手段定向損害自身合法權益。廣大民眾雖然心存緊張、焦慮,卻難以擺脫已成潮流的數字化生存,故而在前所未有的表面上豐富多彩的“新生活”中,常常陷入矛盾、無奈和無助的尷尬境地。
算法的“非價值中立性”與算法歧視
算法是以大數據為基礎資源、以任務為目標導向的計算機運行程序。在科學主義者乃至普通社會大眾的心目中,算法作為當代高新科技的典型形式,理應是客觀的、“價值中立”的、值得信賴的。然而,如果我們深入算法形成的機理和各種各樣的算法進行考察,就會發現情況并非如此簡單,算法中內蘊的包括欺詐、霸凌、歧視之類的問題并不鮮見。波爾格休斯認為:“盡管算法決策看似理性、中立和無偏私,但也可能導致不公平和非法歧視。”[6]凱西·奧尼爾指出:“目前,公共和私人部門運用算法模型作出的決策正在導致對社會弱勢群體的結構性排斥和歧視,許多設計糟糕的算法模型正在加劇、惡化弱勢群體的生存境遇。”[7]
近年來,雖然計算機輔助編程技術不斷取得突破,生成式人工智能的自主學習、自主升級能力不斷增強,但目前算法仍然主要由一定的價值主體設計、編寫和訓練,是相應主體活動的產物和主體意志的體現。“工程師是技術的立法者,他們會根據不同的價值判斷設計出不同的算法,或者選擇不同的算法來解決問題。”[8]無論算法的設計創意、算法代碼的編寫,還是訓練算法的數據的甄選和標注、算法的預訓練和訓練,以及具體的應用與基于反饋(包括用戶、監管部門等的反饋)的修改完善,都必須對標工程師等價值主體的“主體尺度”,如相應主體所應遵守的國際、國內和地方規則(包括宗教戒律、政策法規、道德規范、文化習俗、鄉規民約等),至少做到不突破底線的基本的“價值觀對齊”。這決定我們不可能撇開相應的價值主體及其文化價值觀,討論算法歧視與社會公正問題。
由于算法的主體依附性,一定主體的價值立場及其所秉持的價值觀——包括內蘊信仰、信念、理想、原則、標準和具體規范的政策、法律、道德、風俗習慣等——是否先進和合理,其具體的歷史價值評價、選擇與決策活動是否恰當,直接影響算法的設計、編寫、訓練和調適過程,影響算法是否公正以及公正的程度,影響算法中是否可能有意或無意地“輸入”一些歧視性內容。這正如杰米·薩斯坎德指出:“隱藏在所有技術背后的大多數算法不公正,實際上可以追溯到人的行為和決定——從軟件工程師到使用谷歌搜索的用戶,都可能是其中的一分子。”[9]
問題的關鍵是,在歷史與現實中,人們的價值觀是復雜、多元和動態的,存在著不可勝數的差異、矛盾和沖突。不同的價值主體因為歷史文化傳統、物質生活環境、經濟發展水平的差異,加之自身的立場、利益、需要與能力不盡相同,所以主張、接受和認同的文化價值觀也難以一致。相關價值主體在設計、編寫一定的算法解決問題時,其文化傳統、知識結構、價值觀念、思維方式、風俗習慣等主體性因素可能有意或無意地輸入算法,導致算法中存在或隱或顯的價值觀傾向,其中就可能隱藏各種各樣的歧視性后果。比較常見的情況是,相關的價值主體將自身篤信、認同的價值觀理解為所有人都信奉、認同的普適性的價值觀,想當然地將其作為一定算法的價值原則、價值規范和價值標準。更令人憂心的情況是,居心不良的組織或個人可能在算法中輸入違背人類基本價值觀和“底線倫理”的內容,可能導致智能系統的評價、決策與行為出現反人類、反社會的惡劣傾向,最終對人的人格、尊嚴、根本利益乃至生命安全產生嚴重后果。
當今世界存在不同的宗教、民族、國家、組織、群體,也存在陣營對立、階層分化和利益沖突,這一切正在深刻地影響算法的價值觀對齊。盤點目前的各種算法,其對一些強勢主體(如發達國家、跨國企業、富裕階層、精英群體等)的考量,遠遠高于對一些相對弱勢的主體(如發展中國家、小微企業、貧困階層、弱勢群體等)的關注,其中內蘊的“算法偏見”“算法歧視”司空見慣。例如,有些國際機構、地區組織和企業研發的經濟發展指標、社會發展指數、國民幸福指數等,明顯體現西方發達國家的立場,及其倡導的基于自身利益的價值觀。又如,一些職位招聘算法系統存在不加掩飾的傾向性——刻意規避向特定弱勢人群推送高薪崗位招聘信息,這些群體包括殘疾人、精神障礙者、教育程度較低者、刑滿釋放人員及其他各類邊緣群體等。這種算法層面的篩選與排斥,本質上人為剝奪這類群體獲取勞動權益、爭取晉升機會的平等權利,加劇了社會資源分配的失衡。
特別是,邁入數字智能時代,比工業資本更加強勢的數字資本為了實現快速增值,也會處心積慮地在算法上“做文章”,從而以隱蔽的方式窺探用戶,以“巧妙”的方式操縱用戶,讓算法成為“實現利潤最大化的工具”[10]。數字平臺公司可能基于唯利是圖的“資本邏輯”,利用從各種渠道收集、購買的消費者大數據,動態分析用戶的個體偏好、消費習慣、支付能力、信用狀況等,對不同的用戶進行“畫像”?;诰珳?、動態的“用戶畫像”,平臺可能按照宗教信仰、民族特性、階層差異、文化程度、年齡結構、性別特征、經濟實力、消費習慣等對用戶進行分類,進而編制包含歧視性內容的算法,有針對性地開展“算法推送”,干預、影響用戶的知情權、選擇權和決策權。有些企業打著“以消費者為中心”“滿足消費者的個性化需要”的旗號,刻意實施“差異化定價”“大數據殺熟”之類的有針對性的市場營銷。例如,為特定人群或相對富裕的消費者精心設計奢侈的“定制型服務”,刻意規避那些維權意識較強的消費者,卻故意損害不喜歡斤斤計較的“老好人”消費者的權益,處心積慮地誘騙老年人等容易上當受騙的群體。資本對技術(數據和算法)、市場的精心操控所導致的各種歧視,已經成為社會公眾最為憤怒的社會亂象。
隨著智能科技的發展,算法越來越復雜,而且日漸具有自主學習、自主升級的能力,這令算法是否可能“自以為是”“自作主張”的問題逐漸凸顯,大模型造假、欺騙人類,以及尋求權力的行為令人們深為擔憂。這是因為,即使人們最初設計、編寫的算法是公正、友善的,但由于算法是一個深不可測的“黑箱”,具有普通大眾難以理解和掌握的非透明性、不可解釋性、人機隔閡等高新科技屬性,相關算法中暗藏的不確定性和風險,以及可能出現的潛在的、難以預料的后果,普通大眾很難弄清其中的基本原理、運行邏輯和具體危害。這些算法如此復雜,而且仍在不斷迭代,花樣翻新,普通大眾易落入特定算法精心設計的“圈套”,或者在被算法“自以為是”的引導中完成某些行為,有時即使忽略、損害自身權益,可能也渾然不知。算法決策的這種非透明、“非人性”,難以理解和預測的特性,令普通大眾的權益和行為模式日益偏離自我掌控的軌道。特別是,一旦智能系統取得實質性突破,通過了著名的“圖靈測試”,在經濟、政治、社會、文化等領域獲得越來越多的管理、決策權力,那么并不一定認同我們的價值觀、卻越來越強大的智能系統如何決策,如何行動,如何歧視或歧視哪些特定個體、群體或者組織的評價和決策,又可能造成哪些新的社會歧視和不公——此類風險和挑戰,正在成為智能社會建設中的新隱患。
總之,在社會信息化、智能化進程中,算法的主體依附性、“非價值中立性”和“黑箱”所導致的風險和挑戰,包括算法霸凌、算法操控、算法偏見、算法歧視等,令普通大眾處于越來越弱勢、越來越無助的地位,基本的權益可能在不同程度上受到忽視和侵害。而且由于“人機隔閡”等原因導致的算法相對人而言的非透明性、不可解釋性等,導致各種算法問題很難被及時發現,這些問題的解決面臨重重挑戰。在這場顛覆性的科技、經濟、政治、社會和文化變革中,普通大眾很難跟上算法的創新迭代速度,從而難免心生不安,產生一種前所未有的無力感、無奈感,甚至產生前所未有的恐懼感、絕望感。
數據、算法歧視的特點與治理方略
大數據技術與算法技術是數字智能科技的兩個主要組成部分。正如大數據與算法是相互關聯、相互影響的,數據歧視與算法歧視也存在或隱或顯、或淺或深的關聯、互動關系。大數據本身的“非價值中立性”和相伴而生的各種歧視性問題,不僅可能影響算法的設計、編寫、預訓練和訓練過程,而且可能不同程度地影響算法的應用和基于反饋的完善過程。杰米·薩斯坎德指出:“不良數據的問題對機器學習算法來說尤其突出,因為機器只能依據其面對的數據來學習。”[11]波爾格休斯指出:“如果一個算法系統是基于有偏見的數據進行訓練的,那么該系統就有重現這種偏見的風險。”[12]也就是說,如果缺少相應價值主體的必要的數據,或者數據不完整、不準確和沒有及時更新,甚至出現數據混淆、篡改、偽造的情況,那么,無論是算法的設計和編寫,還是算法的應用和檢驗,乃至于算法的“訓練”和提升都可能受其影響,產生或加劇形形色色的不可靠、不公正,甚至不可控的歧視性結果。與此同時,大數據的規模越來越龐大,結構越來越復雜,其挖掘、采集、存儲和加工已經遠超單純的人類工作的承擔能力,必須開發強大的專業化的算法工具。而算法的主體立場、主體尺度和存在的各種問題,特別是“非價值中立性”和算法歧視,又可能反過來影響數據的采集、篩選、存儲和加工過程,導致新的數據歧視,或者加劇原有的數據歧視。數據歧視與算法歧視或隱或顯地相互影響,甚至相互強化的關系,令數字智能時代社會歧視的祛除、社會公正的維系變得更加復雜。
與農業、工業時代流行的社會歧視現象相比,數據、算法歧視因為具有鮮明的高新技術色彩,而更具革命性和顛覆性。首先,數據、算法歧視無所不在,形式越來越豐富多樣。農業、工業時代的社會歧視通常依據的是宗教、種族、性別、學歷、職位、財富等顯形特征,類型相對單一;而由于大數據、算法技術功能強大,應用廣泛,它可以全面地,也可以有選擇地采集人的幾乎一切活動信息,如家庭背景、成長經歷、醫療記錄、社交記錄、金融信息、消費記錄、網絡活動、出行軌跡、娛樂活動記錄等,通過深度“挖掘”一個人全面的、深層次的特征設計算法,從而令數據歧視與算法歧視幾乎無孔不入,滲透到越來越廣泛的領域,表現形式也越來越多樣化,令人防不勝防。其次,數據、算法歧視的針對性越來越強,甚至能夠實現針對單一個體。依據大數據中豐富的背景資料和詳盡的個人信息,基于算法技術的人工智能體變得“比一個人自己更加了解自己”。如果為人利用,那么很容易使特定對象遭受威脅。例如,利用一個人的敏感信息實施恐嚇和敲詐。又如,通過“大數據殺熟”之類的方式開展市場營銷。一旦被人用大數據和算法技術鎖定,在技術上處于相對弱勢的普通用戶很難逃避,也很難維護自己的合法權益。再次,數據與算法歧視相較于傳統社會歧視,更具隱蔽性,也更難被察覺與甄別。以往基于顯性特征的歧視,已被各類政策法規明確禁止,且公眾對此類歧視較為熟悉、敏感度高,具備較強的防范意識。但數據與算法歧視卻隱藏在技術壁壘森嚴、不透明的高新技術背后,往往刻意規避政策法規明令禁止的行為,轉而巧妙隱匿于看似無明顯惡意的復雜程序之中,或是利用政策法規尚未明確規制的“監管空白”。這種隱蔽性使得普通大眾難以及時發現自身遭受歧視,即便歧視行為被偶然察覺,相關責任主體也常能憑借技術復雜性高、證據獲取難度大等特征逃避社會譴責與法律制裁。最后,隨著數字技術的持續迭代,數據與算法歧視不斷花樣翻新,且各類歧視行為相互關聯、彼此強化,對被歧視對象的影響愈發深入,可能造成的權益損害也日趨嚴重。其中,處于社會底層、缺乏話語權與維權能力的弱勢群體,面臨的歧視風險更高,可能遭受的侵害程度也更為深重。
進入數字智能時代,面對表現形式復雜多變、社會影響更為惡劣的數據、算法歧視,直面社會大眾的緊張、焦慮情緒,我們必須在充分利用大數據技術、算法技術造福人類的同時,采取具有前瞻性的務實的系統治理方略,維護社會公平正義。
第一,確立國民的價值主體地位,通過普遍交往和對話協商逐步形成有關公正、歧視的價值共識。什么是公正?公正的判斷是否存在不同的標準?什么是歧視?怎樣判斷是否存在歧視以及歧視的程度?諸如此類問題是聚訟不斷的哲學難題。在歷史與現實中,分屬不同的宗教或種族、文化譜系、意識形態、經濟階層、學歷背景等的群體,對于公正或者歧視可能存在不盡相同的理解,有時觀點甚至可能針鋒相對,這是大數據和算法中存在社會不公、歧視問題的根源。只有確立國民的價值主體地位,而且各價值主體秉持寬容和合作理念,通過普遍交往確認各自的地位、利益和需要,通過對話、協商不斷消除分歧,求同存異,才能在尊重差異的基礎上達成共識,逐步形成基本的公正、歧視共識,為大數據技術和算法技術的公正價值觀對齊奠定堅實的基礎,為消除數據歧視和算法歧視提供必要的前提。
第二,建立健全數據采集、存儲、加工、應用的政策和法規,促進大數據技術的公正、合規使用。“偏見和公平問題是數據正義的關鍵。”[13]大數據事關每一個人的切身權益,事關算法設計、編寫、訓練和應用的效果,事關整個社會的信息化、智能化進程,必須堅持智能向善的原則,在依法保護個人隱私和數據安全的前提下,強化大數據技術的公正、合規應用。算法歧視在相當程度上來自支撐大模型設計和加工的數據,消除算法歧視也需要通過對大模型的修正、數據的校對來實現,這就要求“喂養”“訓練”算法的數據沒有被不良價值觀“污染”、經得起嚴格的價值觀審查。因此,政府、企業和相關組織等必須依法采集、存儲、加工和使用數據,采集的數據應該完整,數據分類必須科學,數據的標注和應用必須不斷提高質量;同時,不得侵犯公共安全、個人隱私和知情同意權,不得非法地、歧視性地采集、存儲、加工、分析和使用(壟斷、誤用、濫用等)數據。當然,每個價值主體都應該強化自己的數據權利、義務和隱私意識,及時更新、完善自己的個人數據,善于運用各種數據庫提升自己的工作和生活質量;而當個人數據權利和隱私受到威脅和侵害時,應該及時采取措施維護個人權益,為公正而有效率地推進大數據建設貢獻自己的力量。
第三,實施系統的算法“價值觀對齊”工程,確保智能系統擁有一顆“良芯”,遵守全人類共同價值觀特別是公正價值觀。在算法設計、編寫時,應該立足價值哲學對公正價值觀進行專業化、多維度分解,將相關的價值原則和規范盡可能“傳導”“內嵌”到算法之中;并且,通過不斷的預訓練和訓練,特別是不斷的應用反饋,令算法持續地自主改進,甚至通過自主學習而不斷提升。需要注意的是,目前“有多少智能,往往就有多少人工”。特別是在早期人工智能算法的發展過程中,人的因素就顯得更加重要。因此,在算法規制或者“價值觀對齊”過程中,應重點關注設計、編寫、訓練、規制人員,有的放矢地強化其價值自覺和公正意識,不斷清理、排除突破底線的數據、算法歧視行為,從而實現事半功倍的治理效果。同時,算法的產生、應用和規制是一個復雜的過程,必須對可能影響算法設計、編寫、應用的宗教和政治勢力、“資本”及其代言人、特權階層和各種精英群體等,從技術、政治、經濟、道德和法律層面加以約束,防止他們通過或明或暗的技術手段,將特定的價值立場、自私的利益訴求,特別是對普通大眾的歧視性內容嵌入各種算法程序。
第四,建立動態的價值觀審查機制和技術評價、檢測、監督機制,通過不斷糾偏、糾錯和完善來端平“公正砝碼”。大數據、算法的公正性目前在很大程度上取決于人們的價值意識、價值觀,以及價值觀對齊的專業認知和技術能力。然而,相關的算法關注的往往只是具體任務的完成、具體目標的實現以及相應的系統安全,既缺少價值觀方面的專業性支持和業務審查,更由于算法本身的高科技特性(如非透明的“黑箱”現狀)而缺乏必要的監督、檢測手段和有效的糾錯機制。因此,一方面,應要求算法公開、透明、可解釋和應用后果可預測,要求算法“內嵌”人類的基本價值共識,確保不突破政策、法律和倫理底線;另一方面,應動態審核和評估各種數據庫和算法模型,及時清除大數據和算法中存在的社會歧視現象,并對嚴重違背基本價值共識和相關政策法規的行為依法進行懲處。
結語
數智時代,大數據與算法技術以前所未有的深度和廣度融入社會運行的肌理,成為重塑生產生活方式、驅動社會發展的核心力量。然而,技術的躍進并非全然伴隨著公平正義的自然實現,數據與算法的“非價值中立性”催生的歧視現象,如同智能文明進程中的暗礁,不僅侵蝕著個體的合法權益,更沖擊著社會公正的根基。從數據采集環節的結構性缺失,到算法設計中潛藏的價值偏向;從資本邏輯主導下的“用戶畫像”,到技術壁壘造成的“算法黑箱”,這些歧視形式愈發隱蔽、影響愈發深遠,給社會治理帶來了全新挑戰。
面對技術發展中的這一必然階段,我們既要保持理性包容的態度,認識到新興技術的完善本就是一個循序漸進的過程,不應因階段性的負效應而否定其巨大的進步價值,更不能苛求絕對的公正。數字智能科技作為人類文明發展的重要成果,其初衷是提升社會效率、增進人類福祉。同時,社會公正作為人類永恒的價值理想,是衡量智能文明成色的核心標尺。而數據與算法歧視本質上是技術外衣下的價值失衡,若放任其蔓延,必將加劇社會分化,侵蝕信任基礎,最終阻礙數字智能社會的健康發展。
治理數據與算法歧視,注定是一場歷史性、過程性的系統工程,需要社會各方凝聚共識、協同發力。在價值層面,應確立全體人民的價值主體地位,通過普遍交往與對話協商,在尊重差異的基礎上形成關于公正與歧視的基本共識,為技術發展劃定價值邊界。在制度層面,需健全數據全生命周期管理的法律法規,規范數據采集、存儲、加工、應用的各個環節,確保數據來源完整、分類科學、使用合規,從源頭遏制數據歧視的滋生。在技術層面,要推進算法“價值觀對齊”工程,將全人類共同的公正價值觀內嵌于算法設計之中,強化技術人員的價值自覺與公正意識,同時建立動態的算法審查、檢測與監督機制,打破“算法黑箱”,實現算法的透明化、可解釋性。
數字智能文明的構建,既是技術創新的過程,也是價值重塑的過程。消除數據與算法歧視,不僅是對技術缺陷的修正,更是對社會公正的守護。當每一個群體的聲音都能被傾聽,每一個個體的權益都能被保障,大數據與算法才能真正成為促進社會公平正義的有力工具。為此,應以價值引領技術,以協同破解難題,在數字智能科技發展的道路上持續深耕,逐步構建起公平正義、普惠共享的新型智能系統,塑造高度發達、公正和諧的新型智能文明,讓技術進步真正服務于人的全面發展與社會的共同繁榮。這既是時代賦予我們的使命,也是智能文明永續發展的必由之路。
(本文系國家社會科學基金重大項目“生成式人工智能的價值觀對齊研究”的階段性成果,項目編號:25&ZD025)
注釋
[1]《習近平在中共中央政治局第二十次集體學習時強調 堅持自立自強 突出應用導向 推動人工智能健康有序發展》,2025年4月26日,https://www.gov.cn/yaowen/liebiao/202504/content_7021072.htm。
[2]B. Lepri et al., "Fair, Transparent, and Accountable Algorithmic Decision-making Processe," Philosophy & Technology, 2018(31).
[3]維克托·邁爾-舍恩伯格、肯尼思·庫克耶:《大數據時代》,盛楊燕、周濤譯,杭州:浙江人民出版社,2013年,第9頁。
[4]孫偉平:《事實與價值——休謨問題及其解決嘗試(修訂本)》,北京:社會科學文獻出版社,2016年,第147~170頁。
[5]孟飛、程榕:《如何理解數字勞動、數字剝削、數字資本?——當代數字資本主義的馬克思主義政治經濟學批判》,《教學與研究》,2021年第10期。
[6][12]Frederik and J. Z. Borgesius, "Strengthening Legal Protection Against Discrimination by Algorithms and Artificial Intelligence," The International Journal of Human Rights, 2020, 24(10).
[7]凱西·奧尼爾:《算法霸權:數學殺傷性武器的威脅》,馬青玲譯,北京:中信出版社,2018年,第113頁。
[8]K. Felicitas; K. V. Overveld and M. Peterson, "Is There an Ethics of Algorithms?" Philosophy & Technology, 2011(13).
[9][11]杰米·薩斯坎德:《算法的力量:人類如何共同生存》,李大白譯,北京日報出版社,2022年,第232、233頁。
[10]阿里爾·扎拉奇、莫里斯·E. 斯圖克:《算法的陷阱:超級平臺、算法壟斷與場景欺騙》,余瀟譯,北京:中信出版社,2018年,第100頁。
[13]A. L. Hoffmann, "Where Fairness Fails: Data, Algorithms, and the Limits of Antidiscrimination Discourse," Information, Communication & Society, 2019(7).
責 編∕韓 拓 美 編∕周群英
Data, Algorithmic Discrimination and Its Governance Strategies
Sun Weiping
Abstract: As key components of intelligent technology, big data and algorithms are not inherently "value-neutral". Instead, they are permeated with and embody specific subjective values to varying degrees. When collecting, storing, analyzing and applying various kinds of data through algorithms such as deep learning, and then making corresponding automatic evaluation and decision, it often produces various forms of prejudice and discrimination, and sometimes even aggravates the existing social prejudice and discrimination through data and algorithms. Compared to the social discrimination prevalent in the agricultural and industrial eras, data and algorithmic discrimination possess distinct high-tech characteristics. This makes them more revolutionary and disruptive, and consequently, they exert a deeper impact and cause greater harm to the targeted subjects. As a matter of urgency, while fully leveraging big data and algorithmic technologies to benefit humanity, we must adopt forward-looking, systematic, and pragmatic governance strategies to gradually eliminate various forms of data and algorithmic discrimination, striving to realize basic social justice.
Keywords: artificial intelligence, data discrimination, algorithmic discrimination, social justice