中國工程院院士李德毅:大數(shù)據(jù)挖掘帶動的變遷
5月29日消息,2014第十八屆中國國際軟件博覽會在北京展覽館開幕。本屆軟博會以軟件引領(lǐng)信息消費,助力經(jīng)濟(jì)轉(zhuǎn)型升級為主題,充分展示軟件業(yè)在促進(jìn)信息消費、提高百姓生活質(zhì)量、提升社會各行各業(yè)信息化水平等方
5月29日消息,2014第十八屆中國國際軟件博覽會在北京展覽館開幕。本屆軟博會以“軟件引領(lǐng)信息消費,助力經(jīng)濟(jì)轉(zhuǎn)型升級”為主題,充分展示軟件業(yè)在促進(jìn)信息消費、提高百姓生活質(zhì)量、提升社會各行各業(yè)信息化水平等方面的最新成果。中國工程院院士李德毅做了題為《大數(shù)據(jù)挖掘帶動的變遷》的主題演講。

中國工程院院士 李德毅
以下是演講實錄:
各位來賓、各位同仁、我們工程院在大數(shù)據(jù)時代面對著挑戰(zhàn),今天我就講講這個問題!我們的數(shù)據(jù)要有一定的結(jié)構(gòu),我們來看看在大數(shù)據(jù)時代軟件工程遇到了什么挑戰(zhàn)?軟件工程師來說,數(shù)據(jù)是按照數(shù)據(jù)結(jié)構(gòu)來寫的,大數(shù)據(jù)時代有沒有可能程序繞著數(shù)據(jù)轉(zhuǎn)呢?科學(xué)應(yīng)該怎么做,在這個大數(shù)據(jù)時代軟件科學(xué)應(yīng)該怎么做,數(shù)據(jù)挖掘應(yīng)該怎么做?數(shù)據(jù)挖掘是軟件的代名詞,大數(shù)據(jù)通常來自三個方向,總體來說是自然界大數(shù)據(jù),很大很大,我們那么多衛(wèi)星圍著地球轉(zhuǎn),每天下來的數(shù)據(jù)很多。第二生命大數(shù)據(jù)。最重要的是人們尤其關(guān)心的是社交大數(shù)據(jù)。今天一個報告在3分鐘之內(nèi)就可能被全世界的人們所知道。PB時代是對科學(xué)的挑戰(zhàn),更是對包括數(shù)據(jù)挖掘在內(nèi)的任職科學(xué)的挑戰(zhàn),也是對軟件工程的挑戰(zhàn)。
我們看奧巴馬就職的社交場所,這么多面孔,每一個面孔下都有一個故事,這個故事正在發(fā)生著,如果我們可以走便天下的話,我們可以找到奧巴馬的人際關(guān)系,一個人在社會上生存有很多方方面面,這些方面我們是技術(shù)無法做到的,人臉是數(shù)據(jù)安全的很重要的識別器,怎么識別呢?人們想了很多辦法,就人臉我們就想到了攝像頭,北京市80萬個攝像頭,我們每天都在攝像頭的監(jiān)督下開車、購物。身份認(rèn)證、年齡識別、情感計算、親緣發(fā)現(xiàn)、性別識別、地區(qū)和民族識別。如果我有一家全家福,你能通過這個發(fā)現(xiàn)誰是女婿,誰是兒媳婦嗎?人臉之間的相似形,人臉的易變性,圖像本身的質(zhì)量,特征提取中需要提取的特征屬性和數(shù)量,我們能用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)表征嗎?誰是他?這是社交網(wǎng)絡(luò)中基本的問題,計算機(jī)在發(fā)展過程中我們是怎樣對付這樣的數(shù)據(jù)的?我起了一個題目叫做山不轉(zhuǎn),水在轉(zhuǎn)。早間圖形給我們提出了很好的計算模型,當(dāng)時我們把計算機(jī)分了三檔,第一是CPU加上操作系統(tǒng),這是計算機(jī)的命根子,還有一個是內(nèi)存和外存,全球的虛擬化,在操作系統(tǒng)里很重要,當(dāng)時我們叫做輸入輸出,這就構(gòu)成了我們計算時代,構(gòu)成了我們IT時代。這個龍頭是CPU和操作系統(tǒng),這些計算的虛擬化我們要關(guān)心具體的計算。所以就是早期計算的虛擬化,導(dǎo)致現(xiàn)在的云計算。把內(nèi)外存儲叫做存儲,在交互單元里有技術(shù)存儲、呼叫的迭代關(guān)系,因此我們現(xiàn)在的交換機(jī)、服務(wù)器等等都叫計算機(jī)。
計算對軟件付出了很大的努力,尤其是高性能計算機(jī)。我們認(rèn)為計算在前20年中起到了主導(dǎo)作用,它的標(biāo)志速度就是摩爾速度。跟這個時代相對應(yīng)的是結(jié)構(gòu)化數(shù)據(jù),軟件加程序加數(shù)據(jù)加存檔,這個數(shù)據(jù)應(yīng)該是結(jié)構(gòu)化數(shù)據(jù)才能被運行起來。我們想到偉大的科學(xué)家,埃德加佛蘭克,提出關(guān)系模型,以關(guān)系代數(shù)為核心運算,用二維表形式表示實體和實體間的聯(lián)系。只要談到數(shù)據(jù)庫沒有不談關(guān)系數(shù)據(jù)庫的。關(guān)系數(shù)據(jù)庫有嚴(yán)格的頂層設(shè)計,為構(gòu)建良式關(guān)系!幾個關(guān)系結(jié)合成一個關(guān)系,對這樣的關(guān)系進(jìn)行運算,只要在關(guān)系數(shù)據(jù)中總可以通過SQL語言滿足條件的結(jié)果唯一挖掘出來。關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫的形式化理論和約束。先有頂層設(shè)計和數(shù)據(jù)結(jié)構(gòu),后填入清洗后的數(shù)據(jù)。數(shù)據(jù)圍繞結(jié)構(gòu)轉(zhuǎn),數(shù)據(jù)圍繞程序轉(zhuǎn)。用戶無需關(guān)心數(shù)據(jù)的獲取、存儲、分析以及提取過程,更無需關(guān)心數(shù)據(jù)結(jié)構(gòu)的內(nèi)部組織形式。我曾經(jīng)是國際上數(shù)據(jù)庫小組的成員。如果有一個TD級的管理,甚至要50個小時為時間點,結(jié)構(gòu)化數(shù)據(jù)面臨著挑戰(zhàn),挑戰(zhàn)一,過于刻苦,無法表示原生態(tài)的大數(shù)據(jù)怎么辦!挑戰(zhàn)二,隨著數(shù)據(jù)的增大,關(guān)系代數(shù)運轉(zhuǎn)的性能急劇下降!

責(zé)任編輯:葉雨田
免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強(qiáng)電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點