新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 院士觀點:計算驅動當今的發現和創新

院士觀點:計算驅動當今的發現和創新

—— 王堅院士在“2023中國計算機大會”的講演摘編
作者:迎九時間:2023-12-30來源:電子產品世界收藏

2023 年10 月,2023(2023 中國計算機大會)在沈陽召開,中國工程院院士、之江實驗室主任、阿里云創始人王堅博士做了“的科學發現和科技創新”主旨講演,認為20 世紀是電驅動的時代,現在是的時代。云計算將是未來趨勢,于是王堅院士等人當年創辦了阿里云。過去的很多思想是靠假設來驅動的,數據最重要的作用是幫助人們產生新的假設。是計算密集型、數據驅動和基于模型的完美結合。

本文引用地址:http://www.7menf.com/article/202312/454368.htm

1 20世紀是電氣化驅動的

之前的科學發現和創新是被什么驅動的?圖1是美國工程院對20 世紀最偉大的工程技術發明做的調查,可見第一項是電氣化。

表1 20世紀最偉大的工程技術發明

1703905027416450.png

如今,電氣化已非常普遍。例如,人們在依靠照明的會議室里召開“2023 中國計算機大會”,如果沒有電氣化,這是無法完成的。如果仔細看表1,也很有意思,像激光、互聯網、計算機等排在電氣化之后,而你再往深層次想象,如果沒有電氣化,可能后面很多的發明都不會存在,所以電氣化對人類社會的推動是非常巨大的。

2 今天是數據驅動的時代

計算能否像電氣化一樣,扮演著超過人們今天想象的對社會發展起著根本推動的角色?

回顧歷史,20 世紀就是一個被電驅動來做創新的時代。從1882 年開始,電第一次作為一種公共服務被提供的時候,世界就發生了一次巨變。

電力作為一種公共服務是由愛迪生倡導的,盡管他發明的是直流電,最后交流電替代了直流電作為了公共服務的標準。但是不管怎樣,愛迪生的發明仍然被認為是電力革命的里程碑,因為使得電力可以被有效地傳輸和使用。之后,因為有了電氣化,全世界的城市發生了一次天翻地覆的變化。所以電氣化推動了城市的進步。關于數據驅動,如果把計算放到一個更廣的視野里來看,數據驅動究竟要改變什么?

關于數據非常有意思:世界上所有城市只占了地球表面積的2%~3%,但是今天容納了大概全球60% 的人口,預計到2025 年將容納80% 的人口,這意味著更多的人會到城市里來,不管你愿意不愿意,不管城市病有多嚴重,但是一個很挑戰的事情就是世界上所有城市消費了超過74% 的世界能源。從發展的角度來看,我們面臨的挑戰可能比想象的要大、緊迫。

當年IBM 首次提出smart city(注:源自IBM 的“智慧地球”),人們翻譯為智慧城市,實際上叫“靈巧城市”更為恰當。里面有一個數據,對一座城市而言,大概有35% 以上的水是被漏掉的(注:即使打開水龍頭把水放掉都不算漏掉)。所以可以設想一下,一家水廠35% 的水就無聲無息地消失了,但是人們拿它沒有任何辦法。這個問題并沒有隨著技術、信息化技術的發展被解決掉。

根據愛爾蘭的調查,該國2018 年約有46% 的水從自來水管網被漏掉。多么驚人的資源浪費!希望2021年能夠把漏水量降到38%,到了2030 年這個比例降到25%,即1/4 的水被管網漏掉。

所以人們認真想一下,這個世界面臨的挑戰比我們在某一個領域看到的挑戰要大得多。

根據這個數據,你會發現,漏水的多少跟一座城市發展的水平沒有關系。因此,人們平時講綠色、可持續發展,面臨的挑戰或數字可能是超乎想象的。

那么再回到它的原點,也就是說這些問題都帶來了電氣化的問題,所以人們可以人們看到圖1 的水平紅線,我們平時講到2050 年或2060 年,我們要達到碳中和水平的碳排放量。

所以人們看到一件很有意思的事情:事實上,今天的碳排放量是隨著1850 年以后電氣化大規模普及而帶來的,之后呈這樣一條指數型的曲線上去。所以人們認真想一下,如果我們要在2050 年把它回到碳中和狀態,要有一條更陡的曲線把它降下來。

為什么要談數據驅動的科學發現和創新?

人們認真想一想,從1950 年到今天,這條碳排放的曲線能這樣爬上來,從另外一個角度,也是得益于科技的創新和發現。

1703905133885834.png

圖1

所以這是一個非常有意思的分水嶺,是科技和創新的發現,使得人類消耗自然資源的能力被極大地提升了,造成了今天的碳排放量水平。從另外一個角度,撇開我們所有的觀念的話,我們得問一個非常嚴肅的問題:在接下去的二三十年,我們能不能用更短的時間、更快的速度把碳排放量降下來?那么就得靠我們平時常講的數字化。

人們設想一下,計算和數字化的關系就是電和電氣化的關系,這就是為什么要談到計算驅動的科學發現和創新,最后的結果使得我們有機會在2050 年或2060 年把碳排放量能降到我們今天希望的碳中和的水平。

從這個角度講,給這個學科帶來一次非常難得的機會。如果設想一下今天的數字化跟100 年前的電子化來相比,計算在這里扮演的角色就是非常值得期待的。預計:計算驅動(Computing-driven)的計算是會在21 世紀接下來的100 年重新發明所有的事情,包括城市在內。

3 “計算”的內涵和外延

有三個詞很重要,它們是有關系的。Computing( 計算) 的含義是非常豐富的。如果去看文獻,可以看到Computing( 計算) 是早于Computer (計算機)這個詞,即計算是早于計算機這個詞出現的。所以在王堅院士的語境里,Computing( 計算) 這個詞包含了三個很有意義的組成部分。

在今天的人工智能環境的語境下,computing ( 計算) 可以看想象成這三個詞的綜合:① computational intensive, 王堅院士對這個詞斟酌了很久,認為指“計算”密集型,盡管到了中文的翻譯, 此“ 計算(computational)” 非彼“ 計算(Computing)”。② 數據驅動。③基于模型。

從計算密集型角度,人們會想到超算。摩爾定律(圖2)顯示了計算是怎么發生、發展的,其速度超過任何一個領域的速度。

image.png

圖2 摩爾定律示意圖

同樣很有意思的是人們很熟悉的,今天做人工智能的時候,會談到英偉達的A100 和H100 顯卡。如果把時間稍微拉長一點,會發現英偉達GPU 從3 億個晶體管(GeForce 7800)到今天800 億個晶體管(H100),增長速度是非常驚人的。在早期集成電路出來的時候只有2 個晶體管,英特爾在70 年代初的第一個芯片只有2000 多個晶體管。所以可以設想一下,從一只手就能數出來的數量,到人生一輩子都數不完的800 億個晶體管,計算的物理基礎發生了非常大的變化(圖3)。

1703905288726847.png

圖3

2006 年Jeannette Wing 提出一個想法,盡管沒有流行起來:Computational Thinking,慢慢改變了人們的思維。所以“計算”是非常值得深思的,中文一個詞“計算”很難反映深刻的內涵和外延(圖4)。

image.png

圖4

2007 年Gordon Bell( 美國微軟灣區研究中心高級研究員,高性能和并行計算領域先驅) 講“計算”這件事情,講到 HPC 計算會被挑戰的時候,他在PPT 里寫了這么一句話,可能云的服務能夠慢慢來支持高性能計算(HPC)。人們會發現,當計算發展到一定程度時,關于云的思考就會被自然而然地帶出來。所以計算computational,即使到今天還是值得我們認真地來思考。

4 從假設驅動到數據驅動

人們比較熟悉的,當年有一個所謂的第4 范式,叫做數據驅動科學發現。曾經扮演一個非常重要作用的人叫Jim Gray,他當年在微軟研究院工作,他個人也很傳奇,在2007 年一次出海后就消失了,也沒有證據消失在哪里。

他的書《The Fourth Paradigm——Data-Intensive Scientific Discover》 ( 第四范式——數據密集型科學發現) 是在他身后出版的。很有意思的是他生前最后一次講演就是關于數據驅動。

那么這里就有一個問題,在數據驅動以前的科學研究到底是由什么來驅動?

王堅院士認為:很多的科學發現,或者今天的很多思想是靠假設來驅動的。

所以王堅院士的觀點是什么?數據驅動不是拿數據來證明或者解決你的假設,數據最重要的作用是幫助你來產生新的假設。所以到了一個新的科學發現的階段——數據驅動的科學發現。

這句話很抽象,但在一些學科的發展過程中有非常有意思的例子。例如英國著名天文學家Fred Hoyle 爵士曾在1948 年時設想從外太空看地球是什么樣,他的假設是:一旦有人從外太空拍攝一張地球的照片,一種前所未有但無可辯駁的全新觀念就會誕生。1972年人類第一次到太空拍攝了地球的照片,人們才有一個概念叫藍色地球。這張照片從根本上改變了一件事情:突然發現不是一點點地研究地球,而是應該把地球當作一個整體來研究。因此出現了地球系統科學。人們看到了三條主軸線:地球系統科學的出現跟一些機構有關系,跟一些研究也有關系,但很有意思的是覺得跟這張照片緊密相關。

所以數據會改變很多今天我們自己不會注意到的東西。

可見,無論是假設驅動還是數據驅動,都會改變我們很多想法。

人們可能知道哈勃望遠鏡和很多天文學的研究,但是當王堅院士在看這些文獻的時候,有一句話是深深打動他的,哈勃從一個沒有任何認知的地方去拍照,而給我們帶來了對宇宙的一種全新的認識。這就是為何是數據驅動、不是假設驅動的科學發現和創新的時代。

望遠鏡第一次出來的時候大概也是類似狀態,那時并不是因為知道太陽系是什么樣子,只不過是因為有了望遠鏡,讓我們慢慢清楚太陽系是怎么工作的。所以數據會深深地改變我們對很多事情的看法。

再回到模型,也是很有意思的。人工智能從1947年開始到今天,此“人工智能”已非“彼人工智能”,方法論、邏輯、假設等不一樣。已到了一個基于模型的時代。

如圖5,盡管只總結到了2020 年。ChatGPT 是在2022 年底、2023 年初突然火爆起來的。如圖5 會發現,很多年前人們對于模型的收斂已經到了GPT 上,只不過人們并沒有意識到其會這么徹底改變我們對這么一個學科/ 領域的重新的認識。

1703905473536766.png

圖5

所以從這個角度,GDP 在2022 年底、2023 年初火起來是有一點后知后覺的。

從圖5 可以看到,其實很早就應該火起來。當然結果就是中間穿插了一件事情,就是AlphaFold(注:2018 年DeepMind 公司開源的人工智能系統, 借助AlphaFold 可以更準確地預測蛋白質的形狀。)出來的時候, 當時一篇文章中有這么一句話,biology’s ImageNet Moment(生物學的ImageNet 時刻)(如圖6)。

1703905542101526.png

圖6

從事計算機學科的人會非常驕傲的,ImageNet 在那時推動了很多事情的發展,現在會有人把它作為一個非常重要的思考/ 研究的方式。這句話的本質是:未來的研究要基于平臺,ImageNet 就是平臺的一個非常重要的代表。ImageNet 是集計算(computational)、數據驅動、模型為一體的載體,只是那時人們簡單的把它想象成一個數據集。

總結一下什么叫“生物學的ImaginNet 時刻”,就是GDT+ 的時候。這是我們第一次能夠把理論框架收斂、集中的方法上。

今年英偉達的CEO 黃仁勛說:ChatGPT 是AI 的iPhone 時刻。套用了前面的那句話。所以這個時候很多事情、關系發生了一些有趣的變化。

當模型走在一起的時候,黃仁勛又說了另外一句:最后人工智能和超級計算怎么被人們用?最后還是要回到云的服務(圖7)。

image.png

圖7

吻合了。2009 年王堅院士開始做云計算,到今天看是非常幸運的,因為這個領域里的技術有機會變成一項非常重要的產業,而且這個產業還有很長的生命周期,就像當年電氣化一樣。這既是云計算的幸運,也是計算的幸運。

5 原始創新更重要

不過,一講到今天的人工智能和云計算,人們就會談到英偉達的A100 卡、H100 卡,很多人會覺得無卡就無能為力。參加2023 的有很多學生,王堅院士想對學生和科研人員說,所有的創新都是人創造的。例如GeForce 7800 卡( 圖8)。大概是2006 年的卡,它是第一個把CNN 算法跑在了GPU 卡上, 速度比CPU 快了4倍。但這張卡在當年是張什么卡?在中關村的所有網吧里都有,不是被禁運的,更不是只有少數人買得起的,因此是所有人能用的卡,但是,有人第一次把CNN 的算法跑起來,為我們打開了一個新天地。

1703905661270182.png

圖8

這張卡就更加有意思了,6 年以后的2012 年,兩位來自多倫多大學的學生Alex Krizhevsky 和Ilya Sutskeverz(他們的導師是人工智能的三巨頭之一Geoffrey Hinton)就是用了兩張GeForce 7800 GPU 卡,在當年的ImageNet競賽上獲得了冠軍。

所以人們可以設想一下,憑借兩張當年每一個實驗室的學生都有的圖形卡,但是他們的智慧使得它能夠讓一個新的世界開始。

GPU 能成為深度學習的必選項,而且被工業界最后采用,事實上是這兩個學生創造的。王堅院士是從工業界來的,有時候感到丟臉——是兩名學生為我們定義了今天人工智能應該用什么樣的框架來做。從這個角度看,學生的創造力是無窮的。

這兩名學生的第二人——Ilya Sutskeverz 也是今天OpenAI 的首席科學家。所以創新也不是一天就可以成就的。

從圖3 的架構演進可以看到,在2004 年的技術架構基礎上完成了今天人們都趨之若鶩的一卡難求的狀況,可以看到原始創新的重要性。今天是我們可以重現2004 年那一代學生所創造出來的事情的時刻,所以所有的事情遠不是結束,而是剛剛開始。

自AI 誕生后的幾十年中發生了很多事情,從1997年的Deep-Blue(深藍超級國際象棋電腦),到2016年的阿爾法狗,到今年的chatGPT,每一次重要發明都帶來一次變革,而且這種變革接下來因為計算的驅動還會繼續地發生下去。所以慢慢地,到最后所謂的計算驅動,就是計算密集型、數據驅動和基于模型的完美結合。

(本文來源于EEPW 2023年12月期)



關鍵詞: 202312 計算驅動 CNCC

評論


技術專區

關閉
无码国产福利AV私拍|AV边做边流奶水无码免费|2021国自拍产精品视频|中文中文字幕不卡人妻|亚洲肥婆艳情片