中國日報網5月9日電(信蓮)在信息化時代,憑借著對強大預測技術的使用,大數據業務正逐漸成為越來越多機構轉型過程中的核心資產,但大數據的流行也令依托其而生的決策機制成為了研究人員們關注的重點。基于大數據所做的決策真能做到絕對的“公正無私”嗎?在專注研究大數據對公共生活以及社會產生影響的一些研究人員看來,這個問題的答案似乎并不是肯定的。
據美國CNBC網站5月9日報道,日前,紐約大學就組織了一場這方面的研究活動,該活動關注的重點包括大數據在機器學習過程中的運用,以及數據挖掘技術在幫助公眾以及私營企業管理者進行決策的過程中引發的問題等。
報道稱,參與該研究活動的專家包括政策研究者、技術員以及新聞記者等等。這些人集中探討了大數據在幫助人們依托事實做出決策的同時,是如何“無心地”設定了具有偏見性、歧視性的規則,從而催生相對應的篩選過程的。
在這一場景中,所謂的規則其實也就是通常我們所說的“算法”,即為了實現某一特定目標而催生的一系列在程序代碼設定下運作的數學計算。批評人士認為,許多的算法其實都蘊含著偏見,并在不斷強化其內置的假設。
目前政府機構已經開始審查因大數據的應用而催生的一些道德問題。上周,美國白宮發布的一份報告就認為,如果運用不得當,一些數據的收集極有可能潛在地引發對公民權利的侵犯,該報告呼吁應盡快建立對話機制,以確定如何在將對發揮技術潛力的同時,盡可能地縮小侵犯公民隱私、引發不公正待遇等方面的風險。
本次研究活動參與者之一、同時現任普林斯頓大學信息技術政策研究中心(the Center for Information Technology Policy at Princeton University)研究員的梭倫·巴羅卡(Solon Barocas)在2014年發表的名為《大數據的差異性影響》的報告中就指出,“推崇數據挖掘等依賴算法的技術的人們認為,這類的決策過程完全摒棄了人類偏見,但事實上,算法到底有多準確,完全要看數據本身。”
巴羅卡研究的正是機器學習等領域在實際應用中產生的影響,以及其可能引發的道德以及認知問題。他還強調,數據的挖掘很有可能受到上一次決策過程的影響,或者反映一些社會廣義范圍內存在的偏見。
換句話來說,巴羅卡認為,機器學習的系統,就是在運用人類所設計的算法計算人類所制造的數據,因此,每一個數據中都有可能蘊含著這份數據制造者所懷有的一些潛在偏見。
在因大數據而生的“歧視”中,最經常被引用的一個案例來自于哈佛大學數據隱私實驗室(Data Privacy Lab at Harvard University)負責人拉坦婭·斯威尼(Latanya Sweeny)所進行的一項研究,該案例引用了在互聯網上搜索一些特定姓名時,包括谷歌等渠道所反饋給搜索人的結果。斯威尼發現,比較生僻、容易和黑人聯系在一起的名字,搜索后顯示結果中包含的逮捕記錄數量,要明顯高于用白種人常見名搜索所得。谷歌隨后修正了這一問題,但他們究竟是如何做到的,這一點從來沒有對外公開過。
大數據的廣泛應用,在過去幾年里還引發了其他一些對于該技術使用不當以及具備偏見性的指控,這些指控來自于方方面面。這其中也包括執法部門使用的犯罪預測技術等等。很顯然,在一些人眼中,運用大數據技術給人們帶來的便利,需要和使用該項技術解決社會問題時可能引發的風險放在一起均衡地考慮。
但大數據技術的推崇者們認為,問題其實并不在于“大數據歧視”,只是因為數據專家們誤讀了數據挖掘和統計學習所得的結果。他們認為,大數據帶來的福利,要遠比它所引發的擔憂重要。
“在我學術研究以及從事咨詢的生涯中,我已經見證了無數個運用大數據進行決策、分析,給企業、機構以及消費者帶來便利的案例,”紐約大學斯特恩商學院商業分析中心(Center for Business Analytics at New York University's Stern School of Business)主任德亞·高斯(Anindya Ghose)表示,“說句實話,我不太能理解那些大數據技術的批評者們兜售的數據分析應用有多‘恐怖’的觀點。”
“對那些批評者,以及對我們心存警惕的人們,我要說一句,處理好你的情緒,大數據分析將常青不朽,”高斯說。
(編譯:涂恬 編輯:陳姝)