5月30日,在2023中關村論壇成果發(fā)布會上,《北京市加快建設具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023-2025年)》正式發(fā)布。《實施方案》要求,支持創(chuàng)新主體重點突破分布式高效深度學習框架、大模型新型基礎架構等技術,著力推動大模型相關技術創(chuàng)新。
這被業(yè)界視為中國將強力推動大模型發(fā)展的又一力證。事實上,近期從中央各部委到地方省、市,對于發(fā)展AI技術,把握大模型機遇的政策傾斜度不斷上升,無論是政策出臺密度還是整體戰(zhàn)略高度,都達到了驚人的水平。
【資料圖】
有理由相信,中國將實現(xiàn)一場以大模型為突破點的AI狂飆突進。自2017年開啟新一代人工智能發(fā)展戰(zhàn)略以來,中國將在目前機遇窗口中得到再發(fā)展,推動AI產(chǎn)業(yè)全面爆發(fā)。
我們都知道,抓住AI發(fā)展機遇,需要以技術突破與基礎設施建設為基礎,而提到AI產(chǎn)業(yè)的基礎設施,普遍會提到AI芯片、深度學習框架、預訓練大模型,卻經(jīng)常會忽略另一個關鍵問題:大模型將帶來巨大的數(shù)據(jù)壓力,數(shù)據(jù)存儲也是AI發(fā)展進程中的支柱。
ChatGPT是這一輪AI爆發(fā)的引線,而接下來大模型規(guī)模化應用帶來的數(shù)據(jù)難題,其實也早已寫在了ChatGPT當中。
面對這種即將到來的壓力,中國存力準備好了嗎?
從ChatGPT看AI崛起帶來的數(shù)據(jù)挑戰(zhàn)
從2018年谷歌發(fā)布BERT,業(yè)界開啟了預訓練大模型之路。大模型的特點是訓練數(shù)據(jù)規(guī)模與模型參數(shù)龐大,這將給存儲帶來嚴峻考驗,這一點在ChaGPT中也展現(xiàn)無疑。
預訓練大模型所謂的“大”,體現(xiàn)在模型的深度學習網(wǎng)絡層數(shù)多、鏈接多、參數(shù)復雜,以及訓練所用數(shù)據(jù)集種類更復雜,數(shù)據(jù)數(shù)量更豐富。在深度學習算法剛剛誕生時,主流模型只有幾百萬參數(shù),而BERT發(fā)布時模型參數(shù)就已經(jīng)過億,將深度學習推進到了大模型階段。到了ChatGPT這個階段,主流模型已經(jīng)有幾千億參數(shù),甚至業(yè)界已經(jīng)開始規(guī)劃萬億模型。幾年時間里,AI模型的參數(shù)提升幾千倍,如此龐大的數(shù)據(jù)與模型都需要進行存儲,這就成了AI爆發(fā)給存儲的第一大考驗。
此外,大家目前會廣泛提到AI大模型采用了全新的模型結構,因此對非結構化數(shù)據(jù)會有更好的吸收效果與魯棒性,這對于AI最終效果非常重要,但也帶來一個衍生問題:我們需要妥善處理存儲和調用海量的非結構化數(shù)據(jù)。比如說,ChatGPT在升級后加入了識圖等多模態(tài)能力,因此其訓練數(shù)據(jù)也需要在文本基礎上加入大量圖片,再比如自動駕駛車輛,每天要將大量實地測試視頻存儲起來作為模型訓練依據(jù)。這些非結構化數(shù)據(jù),帶來了AI相關數(shù)據(jù)的海量增長,也帶來了存儲和處理這些數(shù)據(jù)的難題。
據(jù)統(tǒng)計,當前全球新增數(shù)據(jù)有80%都是非結構化數(shù)據(jù),年復合增長率達到38%,應對多元化的數(shù)據(jù)激增,已經(jīng)成為大模型時代必須克服的困難。
還有一個問題,大模型往往需要頻繁讀取和調用數(shù)據(jù)。ChatGPT的數(shù)據(jù)訪問使用量達到單月17.6億次,平均響應速度在10秒以內,并且AI模型的工作流程包括采集、準備、訓練、推理四部分,每個階段需要讀寫不同類型的數(shù)據(jù)。因此,大模型對存儲性能也帶來了要求。
此外,圍繞ChatGPT展開的一系列數(shù)據(jù)主權、數(shù)據(jù)保護爭議,也提醒我們AI大模型帶來了數(shù)據(jù)安全方面新的風險。試想一下,如果不法分子攻擊數(shù)據(jù)庫,從而令大語言模型生成錯誤信息欺騙用戶,其危害結果既嚴重且隱蔽。
綜合來看,ChatGPT雖好,但其對數(shù)據(jù)存儲的規(guī)模、性能、安全等方面都提出了挑戰(zhàn)。當我們致力于發(fā)展大模型和類ChatGPT應用的時候,存儲這關不得不過。
中國存力,準備好了嗎?
最近幾年,我們都在說算力就是生產(chǎn)力。但有算就要有存,存力的極限,也決定了數(shù)字化生產(chǎn)力發(fā)展的上限。
那么,在接下來必然出現(xiàn)的中國大模型狂飆突進中,中國存力是否已經(jīng)做好準備了呢?很遺憾,從幾個方面來看,今天中國存力的準備依舊不充分,需要進一步升級和發(fā)展。我們可以一同來關注一下中國存力存在的幾個問題,看看他們是否對應了大模型帶來的數(shù)據(jù)壓力。
1.存力規(guī)模不足,限制AI產(chǎn)業(yè)發(fā)展上限
大模型將帶來海量數(shù)據(jù),那么第一要務就是將這些數(shù)據(jù)進行妥善存儲。但在目前階段,中國依舊有著存力不夠,大量數(shù)據(jù)甚至無法進入存儲階段的問題。從2022年數(shù)據(jù)來看,中國數(shù)據(jù)生產(chǎn)量已經(jīng)達到了驚人的8.1ZB,位居全球第二。但中國存力規(guī)模只有1000EB左右,這意味著數(shù)據(jù)可存儲率僅為12%,絕大多數(shù)數(shù)據(jù)無法得到有效保存。當中國已經(jīng)明確數(shù)據(jù)作為第五生產(chǎn)要素的地位,智能化發(fā)展需要依靠數(shù)據(jù)、充分利用數(shù)據(jù),卻有海量數(shù)據(jù)難以完成保存,這之間的問題不可謂不嚴重。中國仍然需要保持高速、大規(guī)模的存力增長,才能把握大模型帶來的AI技術發(fā)展機遇。
2.海量數(shù)據(jù)沖擊下,管理效率和存取效率低
上文討論過,AI大模型帶來的主要數(shù)據(jù)挑戰(zhàn),是海量數(shù)據(jù)的管理效率和處理存取效率低。提升存取效率,要求數(shù)據(jù)以高效率、低能耗的方式完成存寫,但目前在中國仍然有75%的數(shù)據(jù)在使用機械硬盤。相對于閃存盤,機械硬盤容量密度低、數(shù)據(jù)讀取慢、能耗高、可靠性差,相對來說,全閃存具有高密度、低能耗、高性能、高可靠的一系列優(yōu)點,但中國全閃存替換依舊有較長的一段路要走。
3.多重數(shù)據(jù)隱憂,導致存儲安全形勢嚴峻
數(shù)據(jù)安全問題,已經(jīng)成為AI公司乃至AI產(chǎn)業(yè)迫切關注的問題。在2020年美國的Clearview AI公司發(fā)生數(shù)據(jù)安全事故,造成2000多家客戶的30億條數(shù)據(jù)泄露。這個案例向我們展現(xiàn)了AI產(chǎn)業(yè)的數(shù)據(jù)安全形勢十分嚴峻,我們必須從數(shù)據(jù)存儲階段開始重視安全。尤其當AI大模型在國計民生中扮演的角色愈發(fā)重要,就更需要存儲提升安全能力,以應對各種可能存在的風險。
客觀來看,中國存力已經(jīng)保持了較高的發(fā)展速度,但在整體規(guī)模、全閃存占比以及技術創(chuàng)新能力上,依舊具有一定程度的不足。一場面向產(chǎn)業(yè)智能化需求與AI大規(guī)模落地的存儲升級已經(jīng)時不我待。
面向智能時代,存儲產(chǎn)業(yè)的機遇與方向
結合ChatGPT所代表的AI大模型帶給存儲的壓力,以及中國存力本身的發(fā)展現(xiàn)狀,我們可以很清晰得出一個結論:中國存儲必須支撐AI崛起,完成大規(guī)模的升級。
我們可以清晰看到存儲產(chǎn)業(yè)的發(fā)展方向,這些方向的急迫性與廣闊空間,構成了存儲產(chǎn)業(yè)的重大機遇。
首先,需要擴大存力規(guī)模,加速全閃存建設。
全閃存替換機械硬盤的“硅進磁退”,是存儲產(chǎn)業(yè)多年來的整體發(fā)展趨勢。面對AI崛起的產(chǎn)業(yè)機會,中國存儲產(chǎn)業(yè)需要加快全閃存替代的實施與落地,最大化發(fā)揮出全閃存高性能、高可靠等優(yōu)勢,以應對AI大模型帶來的數(shù)據(jù)存用需求。
此外,還必須注意的一點是全閃存化分布式存儲的機會正在加大。隨著AI大模型的崛起,非結構化數(shù)據(jù)的爆發(fā),數(shù)據(jù)重要性正在顯著提升,同時AI已經(jīng)深入到大型政企的生產(chǎn)核心,更多企業(yè)用戶傾向進行本地化的AI訓練,并且采用基于文件協(xié)議的數(shù)據(jù)存儲,而不是數(shù)據(jù)放到公有云平臺,這就導致分布式存儲的需求得到提升和加強。
二者結合,持續(xù)快速推動存儲產(chǎn)業(yè)的全閃化落地,就成為了中國存儲產(chǎn)業(yè)發(fā)展的核心賽道。
其次,需要提升存儲技術創(chuàng)新,適配AI模型的發(fā)展需求。
上文提到,AI帶來的數(shù)據(jù)考驗不僅僅是數(shù)據(jù)規(guī)模大,更是數(shù)據(jù)復雜性與應用流程多樣性的挑戰(zhàn),因此存儲的先進性必須得到進一步提升。比如說,為了應對AI頻繁的數(shù)據(jù)訪問需求,存儲的讀寫帶寬和訪問效率都需要進行升級。為了配合AI大模型的數(shù)據(jù)需求,存儲產(chǎn)業(yè)需要進行全方位的技術升級。
在數(shù)據(jù)存儲格式方面,傳統(tǒng)的數(shù)據(jù)格式,比如“文件”“對象”,最初的設計意圖并不是匹配AI模型的訓練需求,并且非結構化數(shù)據(jù)的數(shù)據(jù)格式不統(tǒng)一,使得在AI模型調用數(shù)據(jù)的過程中,會產(chǎn)生大量對文件格式進行重新理解、對齊的工作,進而造成模型運行效率下降,訓練算力消耗增多。
為此,就需要在存儲側形成新的“數(shù)據(jù)范式(Data Paradigm)”。以自動駕駛訓練為例,不同類型的數(shù)據(jù)都參與到了數(shù)據(jù)訓練的進程當中,如果在存儲側采用了新的數(shù)據(jù)范式,就可以幫助各種數(shù)據(jù)統(tǒng)一起來,更好地適配到AI模型訓練當中,從而加速自動駕駛車輛的訓練工作。打個比方,如果把AI想象為一種新的動物,它需要吃一種新的飼料,如果把傳統(tǒng)格式的數(shù)據(jù)喂給它,就會產(chǎn)生消化不良的問題,而新數(shù)據(jù)范式,就是在存儲側構筑完全適合AI的數(shù)據(jù),從而讓“喂養(yǎng)AI”的過程絲滑順暢。
在AI開發(fā)工作中,數(shù)據(jù)管理的工作量占比巨大,不同數(shù)據(jù)集之間還會存在數(shù)據(jù)孤島問題,而數(shù)據(jù)編織技術能夠效應對這些問題。通過數(shù)據(jù)編織,可以讓存儲內置數(shù)據(jù)分析能力,把物理邏輯上散布的數(shù)據(jù)整合起來,形成全局視圖化的數(shù)據(jù)調度和流動能力,從而有效管理AI帶來的海量數(shù)據(jù),達成數(shù)據(jù)利用效率的提升。
這些存儲側的技術創(chuàng)新,可以讓數(shù)據(jù)存力與AI發(fā)展形成更加緊密的契合關系。
此外,需要將安全能力納入存儲本身,強化主動安全能力。
伴隨著AI發(fā)揮的價值越來越大,數(shù)據(jù)安全問題帶給企業(yè)用戶的損失也更多。因此,企業(yè)必須提升數(shù)據(jù)安全能力。其中最重要的一點是要提升數(shù)據(jù)韌性,讓存儲本身具有安全能力,從源頭上守護數(shù)據(jù)安全。接下來,更多數(shù)據(jù)韌性能力將被內嵌到數(shù)據(jù)存儲產(chǎn)品中,例如勒索檢測、數(shù)據(jù)加密、安全快照和AirGap隔離區(qū)恢復特征等。
值得注意的是,目前業(yè)界已經(jīng)有了面向AI大模型崛起,進行存儲全面升級的探索與嘗試。華為存儲通過高質量的全閃存產(chǎn)品,融合先進的存儲技術、內嵌的安全能力,實現(xiàn)了存儲創(chuàng)新與AI發(fā)展的緊密契合,相向而行。
整體而言,存儲產(chǎn)業(yè)的發(fā)展與中國存力的進步,對于AI大模型的落地,乃至千行百業(yè)的智能化升級,都有著舉足輕重的意義。脫離了存儲的發(fā)展,AI帶來的數(shù)據(jù)洪潮將難以妥善化解,AI技術甚至可能由于缺乏數(shù)據(jù)支撐,變成無本之源,無根之木。
智能時代的機遇與責任,恰好同時擺在了存儲產(chǎn)業(yè)面前。在華為等優(yōu)秀品牌的存力探索下,中國存儲正迎來史無前例的機會,也在承擔時代給予的責任。
很多業(yè)界專家認為,大語言模型是AI歷史上的“iPhone時刻”,那么AI技術帶來的存力升級潮,或許也將成為中國存儲產(chǎn)業(yè)的里程碑時刻,成為一個黃金年代的序章。
標簽:
上一篇:100個經(jīng)典心理學效應 焦點快報
下一篇:最后一頁
凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負責。
原標題:大時代下小人物的奮斗史《夢中的那片?!访枘∏啻喝合裎?張熠
2023-06-06 08:45
原標題:水鄉(xiāng)的好人周宏偉在美麗的江蘇北部,有一座漂在水上的城市,她
2023-06-06 07:49
原標題:那個風中行走的漢子走了沈俊峰那個風中行走的漢子走了。得到消
2023-06-06 07:44
原標題:“繡美古徵”澄城刺繡精品展開展陜西日報訊(記者梁少飛)5月2
2023-06-06 05:36
原標題:夏夜繁星李冰夏日白晝的暑氣總是咄咄逼人,讓人只想躲避起來。
2023-06-06 05:32
原標題:山西朔州后寨秦漢墓葬發(fā)掘資料公布一探究竟→近日,山西省考古
2023-06-06 05:45
原標題:低微生活(三首)方華麻雀天空很大快樂很小總是在低處尋覓生活
2023-06-06 05:38
原標題:管弦樂團奏響春城工人日報-中工網(wǎng)記者黃榆2023年6月30日,由云
2023-06-06 05:56
原標題:《夢中的那片海》熱播以平凡人生致敬理想中新網(wǎng)北京6月4日電(
2023-06-05 16:39
原標題:154項文旅活動,把精彩演出送到群眾家門口(引題)“四季村晚
2023-06-05 16:55
原標題:濃縮地域風情滿臺青春風采(引題)《鳳舞運河情》舞出天津味道
2023-06-05 16:50
原標題:章若楠、陳偉霆奔赴十年之約(引題)《照亮你》聚焦消防員群體
2023-06-05 16:37
原標題:“長安有故里——絲路少年大唐行”開展陜西日報訊(記者張琪悅
2023-06-05 16:38
原標題:饒曉志監(jiān)制電影(引題)《漫漫長日》發(fā)布“怪妙的”海報(主題
2023-06-05 15:40
原標題:張信哲率隊演唱《稻香》感動觀眾(引題)“情歌王子”不單會唱
2023-06-05 15:32
原標題:山西公布秦漢墓發(fā)掘資料助推中國北方秦漢考古文化譜系建立中新
2023-06-05 14:45
原標題:豆瓣9 0,《蜘蛛俠:縱橫宇宙》(引題)口碑爆了(主題)羊城
2023-06-05 14:45
原標題:《熱烈》成上海國際電影節(jié)閉幕片(主題)黃渤、王一博領銜主演
2023-06-05 14:51
原標題:6日芒種:仲夏至此始,青梅煮酒香新華社天津6月5日電(記者周
2023-06-05 14:51
原標題:新概念書店迎開業(yè)潮與線上平臺錯位競爭(引題)實體書店的春天
2023-06-05 13:50
原標題:北京京劇院青年演員沙霏個人專場上演(引題)“秋聲霏揚”盡展
2023-06-05 13:37
原標題:多名消費者買斑馬音樂節(jié)門票遭遇“跳票”,秀動App:5日內退款
2023-06-05 13:55
原標題:《貓神在故宮》端午首演,原著作者談兒童劇創(chuàng)作:(引題)閱盡
2023-06-05 10:56
原標題:“文化和自然遺產(chǎn)日”將開展豐富活動中國文化報訊(記者張影)
2023-06-05 09:57
原標題:“文化和自然遺產(chǎn)日”文博活動達7200余項中國旅游報訊(記者徐
2023-06-05 09:34