弘毅講堂

    蔡肖兵:從科學哲學視角下看“大數據”

    發布日期:2014-04-29 作者:    編輯:陳海兵    審核:    點擊:[]

       當你懷疑自己得了流感怎么辦?大多數美國人會在第一時間選擇上谷歌對流感癥狀進行搜索。谷歌一個研究小組5年前曾在《自然》雜志上宣布了一個令人矚目的成果。該小組可以追蹤美國境內流感的傳播趨勢,而這一結果不依賴于任何醫療檢查。他們的追蹤速度甚至比疾控中心要快的多:谷歌的追蹤結果只有一天的延時,而疾控中心則需要匯總大量醫師的診斷結果才能得到一張傳播趨勢圖,延時超過一周。
      谷歌流感趨勢的成功,很快就成為了商業、技術和科學領域中最新趨勢的象征,也把我們帶入一個大數據的時代。那么什么是大數據?我們應該怎么看待大數據呢?
      4月25日,中國社會科學院哲學所副研究員蔡肖兵從科學哲學的角度,對“大數據”起源、發展特點、運用的利弊進行了講解。政治學院、科研處舉辦了這次活動。
      蔡肖兵引用維基百科對“大數據”定義進行了闡述,“大數據”是指所涉及的數據量規模巨大到無法通過人工,在合理的時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。根據定義,蔡肖兵提醒師生,“大數據”更加側重于對數據的篩選,智能化的整合,而不在于數據大。
      蔡肖兵認為,谷歌流感趨勢預測的高準確度和高時效性充分反映了“大數據”4V特點,即Volume(量)、Velocity(速)、Variety(多變)以及Veracity(真實性)。尤其是美國《連線》雜志得出“數據已經大到可以自己說出結論”的論點,再次引起世界關注。
      然而,令人意外的是,近年來,谷歌在預測流感卻頻頻失敗,這一問題引起了業界的廣泛討論,一直廣受歡迎的“大數據”分析為什么會出錯呢?
      “‘大數據’出錯是由于樣本誤差和樣本偏差引起的,很多人關注的是數據之間的聯系,而不是產生聯系的原因。”蔡肖兵認為,找準數據是“大數據”分析的前提。進行分析時,數據并非越大越好,相反,當選取的數據源存在問題時,選取的數據越大,引發的問題也就越大。
      蔡肖兵表示,我們在運用“大數據”的過程中,用戶信息的隱私性和安全性難以保障。例如,當我們運用谷歌進行檢索時,谷歌也在對我們進行檢索。它知道我們在什么時間、地點、對什么東西感興趣,大量用戶信息一旦泄露后果將不堪設想。
      “大數據”的種種弊端引發了相關部門的恐慌。置身信息時代的我們應該如何去理解“大數據”呢?
      蔡肖兵認為,我們不能對“大數據”一概而論,要客觀全面看待問題。“大數據是‘襁褓中’的新生科學,就像嬰兒一樣在學習走路時會跌倒,也需要大人的幫助。因此,我們既要吸收批評者的意見,讓大數據有對傳統的繼承,又要有所突破,讓它更好的服務我們的生活。”
      人物簡介:蔡肖兵,中國社會科學院哲學所副研究員,主要研究方向為科學哲學、物理學哲學、科學技術與社會。中國自然辯證法研究會理事,中國自然辯證法研究會科學基礎與信息網絡專業委員會主任委員兼秘書長。

     

    蔡肖兵做講座 

    關閉