2021中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會今日于貴陽開幕。自2015年5月第一屆數(shù)博會舉辦以來,每年這個時候各路豪杰幾千人都會聚集貴陽,出席者多為政商重量級的嘉賓,彰顯了會議的高規(guī)格。
自從2011年大數(shù)據(jù)在中國受到關(guān)注以來,每年與此相關(guān)的會議和講座接連不斷,大家也都事事必談大數(shù)據(jù)。2015年11月,黨的十八屆五中全會公報提出要實施“國家大數(shù)據(jù)戰(zhàn)略”,開啟了我國大數(shù)據(jù)建設(shè)的新篇章??墒窃鯓佑行褂脭?shù)據(jù),如何讓數(shù)據(jù)產(chǎn)生價值,如何在數(shù)據(jù)領(lǐng)域獲得投入產(chǎn)出,這些雖事關(guān)國運,卻是很多人都講不明白的事。
2021數(shù)博會圍繞年度主題“數(shù)智變物致新”,組織“一會、一展、一發(fā)布、大賽及系列活動”。圖為2021數(shù)博會工業(yè)APP融合創(chuàng)新大賽總決賽在貴陽開賽。(圖片來源于2021數(shù)博會官網(wǎng))
上個世紀80年代出現(xiàn)了個人計算機,軟件開發(fā)變得熱門;90年代互聯(lián)網(wǎng)開始興起,數(shù)據(jù)庫在企業(yè)中被廣泛使用,辦公實現(xiàn)自動化。新世紀CRM,ERP流行,互聯(lián)網(wǎng)應(yīng)用得到了爆炸式的增長,電子商務(wù)、社交媒體和移動互聯(lián)網(wǎng)也隨之出現(xiàn),所有這些技術(shù)進步、業(yè)務(wù)發(fā)展都帶來一個同樣的結(jié)果,就是數(shù)據(jù)無法控制地大量增加?,F(xiàn)在人們的一切行為幾乎都會留下數(shù)據(jù)痕跡,比如使用手機軟件消費、出行等等,我們生活在了一個大數(shù)據(jù)時代。
數(shù)據(jù)記錄了很多事情發(fā)生的過程和狀態(tài)。而一件事情的發(fā)生會受到很多因素的影響,這些因素的內(nèi)在聯(lián)系是什么,如何影響到了事情的發(fā)展,都可以用數(shù)據(jù)記錄下來。人們就是希望通過對數(shù)據(jù)的分析,找到事情發(fā)生的來龍去脈,以便預(yù)測將來的發(fā)展。為此,人們找到了很多的方法研究數(shù)據(jù),像統(tǒng)計分析的方法、計量經(jīng)濟學(xué)和時間序列、運籌學(xué)、概率論和機器學(xué)習(xí)的方法、可視化技術(shù),還有各種輔助的計算機技術(shù)和算法。數(shù)據(jù)分析可以在各行各業(yè)得到具體的應(yīng)用,還可以作為一種主要方法進行科學(xué)研究,也能開辟新的應(yīng)用建立新的行業(yè)。
數(shù)字化是企業(yè)升級換代的基礎(chǔ),對數(shù)據(jù)的利用是實現(xiàn)智能化的前提。(圖片由本文作者提供)
大數(shù)據(jù)和計算機技術(shù)、互聯(lián)網(wǎng)一樣,具有普適性和通用性,各行各業(yè)都需要,不但傳統(tǒng)行業(yè)需要,而且是新興行業(yè)的依托。大數(shù)據(jù)技術(shù)的出現(xiàn),使得物聯(lián)網(wǎng)、云計算、人工智能得以落地變成現(xiàn)實。所以,大數(shù)據(jù)是真正自計算機時代、互聯(lián)網(wǎng)時代后,能夠撐得起一個時代的技術(shù)。
大數(shù)據(jù)技術(shù)確實是給各行各業(yè)帶來了實實在在的利益。但是,是不是每個人都能夠理解大數(shù)據(jù)的一些實質(zhì)性的問題呢?
舉這樣一個例子:一年中,當人們游泳的次數(shù)增加的時候,吃冰棍的數(shù)量也會增加;游泳次數(shù)減少的時候,吃冰棍的數(shù)量也會減少。那么,這兩件事情是否有關(guān)系,誰引起了誰的變化?其實游泳與吃冰棍沒有任何因果關(guān)系,它們之間是相關(guān)性關(guān)系。它們同時變化的原因是天氣的變化,這是人們的常識。大數(shù)據(jù)中,很多變量之間的關(guān)系都是這種相關(guān)關(guān)系(不知道是什么原因引起的),而不是因果關(guān)系,因此,不能簡單下結(jié)論誰引起了誰的變化。這是大數(shù)據(jù)對人們思維方式的影響。
計算機和互聯(lián)網(wǎng)世界將我們帶到了數(shù)據(jù)世界,數(shù)據(jù)世界的未來就是智能化世界。(圖片由本文作者提供)
英國統(tǒng)計學(xué)家辛普森在1951年提出了一個悖論,即在某個條件下的兩組數(shù)據(jù),各自研判時,都具有某種傾向性,而合并研判,卻可能得出相反的結(jié)論。比如,兩個院系都有女生錄取比例高的問題,但是把兩個院系的所有學(xué)生合并以后,再計算卻是男生的錄取比例高。如果是比較兩個產(chǎn)品的銷售情況,就不能僅僅看單一地區(qū)的銷售比例,而是要看總體的比例。要全面考慮問題,不可輕易下結(jié)論。
1936年美國民主黨總統(tǒng)富蘭克林-羅斯福任滿一屆,參加下一屆的總統(tǒng)大選,當時共和黨的候選人是阿爾佛雷德-蘭登。著名的《文學(xué)文摘》通過對240萬人的民意測驗,預(yù)測共和黨的候選人蘭登將當選。而一家由喬治-蓋洛普新成立的輿論研究所,只對5000人進行了問卷調(diào)查,卻準確地預(yù)測了民主黨的羅斯福會勝出。為什么大的數(shù)據(jù)沒有得出正確的判斷?因為這240萬都是富人,他們的意見不具有普遍性,而5000個數(shù)據(jù)卻是來自社會各個階層,具有普遍性?!段膶W(xué)文摘》使用了錯誤的數(shù)據(jù)。
谷歌流感趨勢GFT是谷歌從2008年推出預(yù)測流感的項目。谷歌的依據(jù)是特定關(guān)鍵詞的相對搜索量和特定事件之間存在相關(guān)性。GFT利用這些搜索數(shù)據(jù)可以近乎實時地對全球當前的流感疫情進行估測。大數(shù)據(jù)為研究人類行為和人與人之間大規(guī)模的互動提供了新的方式。然而,由于大數(shù)據(jù)的搜集做不到像經(jīng)過嚴謹科學(xué)試驗得到的“小數(shù)據(jù)”那樣,因此分析解讀大數(shù)據(jù)是一件十分復(fù)雜的事。
2013年2月,《自然》雜志發(fā)文指出,GFT預(yù)測的流感樣病例門診數(shù)超過了美國疾病預(yù)防控制中心CDC根據(jù)全美各實驗室監(jiān)測報告得出的預(yù)測結(jié)果的兩倍,偏差太大。因此,用戶的搜索行為并不僅僅受外部事件影響,它還受到很多其它因素的影響。做數(shù)據(jù)分析不是數(shù)據(jù)量越大越好,模型科學(xué)地選擇變量很重要。
大數(shù)據(jù)利用好了,是收益;利用錯了,就會做出錯誤的判斷。除了要具備對大數(shù)據(jù)本身的認知,也要走出大數(shù)據(jù)項目建設(shè)的一些誤區(qū)。
一種是認為投資大數(shù)據(jù)來錢慢,不掙錢,安于現(xiàn)狀,不思進取;另外一種是做大數(shù)據(jù)急功近利,不尊重科學(xué),搞形式主義、政績工程。
有人看不到大數(shù)據(jù)投資帶來的利益,缺乏長遠的眼光,因此,遲遲不在這個領(lǐng)域下功夫,不投資基礎(chǔ)設(shè)置,不投資人才,不做規(guī)劃。企業(yè)數(shù)字化是大數(shù)據(jù)的基礎(chǔ),企業(yè)數(shù)字化可以提高自動化效率,積累數(shù)據(jù),為智能化做準備。
2017年,華為接受數(shù)字化轉(zhuǎn)型的建議,構(gòu)建了與消費者和渠道互通的數(shù)字化平臺,使得華為能夠應(yīng)對外部環(huán)境的變化,經(jīng)受住了各種打擊。日本上個世紀八、九十年代的輝煌是制造業(yè)的輝煌,當時日本的GDP能夠達到美國GDP的69.6%多。后來,除了美國的打壓外,日本對互聯(lián)網(wǎng)產(chǎn)業(yè)關(guān)注不夠,使得日本錯過了互聯(lián)網(wǎng)時代,也使得中國這個后來者今天達到了日本GDP的3倍多。這是一個深刻的教訓(xùn),中國是萬萬不可錯過大數(shù)據(jù)時代的。
大數(shù)據(jù)是通往智能化的必由之路。沒有大數(shù)據(jù),就沒有人工智能,就沒有物聯(lián)網(wǎng),就沒有智能制造,就沒有傳統(tǒng)行業(yè)的升級換代,沒有現(xiàn)代生物制藥、基因工程的研究等等,也就沒有中國現(xiàn)代化的未來。因此,我們一定要通過各種方式普及大數(shù)據(jù)知識,推進大數(shù)據(jù)的建設(shè)。
聲明:本網(wǎng)站偶爾轉(zhuǎn)載的文章出于非商業(yè)性的教育和科研目的供大家參考和探討,并不意味著支持其觀點或證實其內(nèi)容的真實性。版權(quán)歸原作者所有,如轉(zhuǎn)載稿涉及版權(quán)等問題,請立即聯(lián)系我們刪除。