國產(chǎn)大模型“諸神之戰(zhàn)”出路何方
1956年,達(dá)特茅斯學(xué)院的一場會議上,參會者熱烈地討論:如何開發(fā)出像人類一樣能從經(jīng)驗(yàn)中自主學(xué)習(xí)的計(jì)算機(jī)系統(tǒng)。這場會議被后人視為打響了人工智能研發(fā)的第一槍。
60余年后,美國OpenAI公司八年磨一劍的人工智能大模型ChatGPT3橫空出世,人們爭相在社交媒體展示它那令人吃驚的能力,ChatGPT4更是“所向披靡”:作詩、寫文案已不在話下,它甚至有了邏輯推理能力,還能自我糾錯(cuò)。那場著名會議的答案似乎已不言自明。
前不久,在2023中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,AI(人工智能)、大模型、ChatGPT、元宇宙等關(guān)鍵詞頻頻出現(xiàn)。在以“人工智能”為主題的會場,人頭攢動,聽會的人從會場內(nèi)排到了會議室門口,還不斷有新來的人擠進(jìn)來。
在不同的會場和論壇上,來自不同領(lǐng)域的人們似乎都聚焦一個(gè)興趣點(diǎn),他們試圖搞明白人工智能會對未來行業(yè)帶來哪些顛覆性的變革,國產(chǎn)大模型之路應(yīng)該如何走,還有什么基礎(chǔ)工作要做。
想解決實(shí)際問題,大模型還要“念個(gè)博士”
孫茂松讓ChatGPT找出《阿房宮賦》中描寫阿房宮的句子,令他驚訝的是,它竟然一字不漏地找出來了。
孫茂松是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授,也是該校人工智能研究院常務(wù)副院長,他研究自然語言處理,跟ChatGPT“專業(yè)對口”。在演講中,他多次感嘆:“它確實(shí)厲害!”
考完文字功夫,孫茂松又問ChatGPT,如何根據(jù)《阿房宮賦》繪制阿房宮的圖景。ChatGPT像寫劇本一樣分了5個(gè)場景:阿房宮的宏偉壯觀、阿房宮建筑風(fēng)格、水景與橋梁、春光與武殿、迷宮般的宮殿布局。
今年以來,ChatGPT的博學(xué)已經(jīng)廣為人知,但美國國家工程院院士、東方理工高等研究院常務(wù)副院長張東曉認(rèn)為:“大模型有很強(qiáng)的能力,很博學(xué),相當(dāng)于中小學(xué)生。要解決實(shí)際問題,還要上大學(xué),還要念一個(gè)專業(yè)、念一個(gè)博士,或是成為那個(gè)領(lǐng)域的工程師?!?/p>
過去這段時(shí)間,ChatGPT所屬公司OpenAI已與科技、教育、金融等行業(yè)的數(shù)百家公司或組織開展合作。
孫茂松認(rèn)為:“(大模型)可以重塑一個(gè)產(chǎn)業(yè),也能夠重塑產(chǎn)業(yè)的生態(tài)?!?/p>
他舉了個(gè)例子:有人想訂家酒店,要求價(jià)格別太貴,最好離王府井近一點(diǎn),而且要安靜一些。面對用戶的種種要求,以前要做到這一點(diǎn)很費(fèi)勁,秘書可能要花兩個(gè)小時(shí)才能找到這么一家酒店。而人工智能大模型會跟用戶學(xué)習(xí)訂酒店的習(xí)慣,效率大幅提高。
中國產(chǎn)學(xué)研合作促進(jìn)會會長王建華說:“在人工智能影像醫(yī)學(xué)這個(gè)領(lǐng)域,我們把全國醫(yī)院的放射科和一些影像醫(yī)學(xué)相關(guān)的企業(yè)進(jìn)行融合,解決看片子完全靠人去看(的問題)。通過人工智能的話,精準(zhǔn)度比較高,而且它不疲勞?!?/p>
王建華注意到,現(xiàn)在有很多智能產(chǎn)品,比如可以通過大數(shù)據(jù)的對比,測定人體糖代謝水平。他認(rèn)為,人工智能會影響到整個(gè)醫(yī)學(xué)領(lǐng)域的創(chuàng)新和發(fā)展。
醫(yī)渡科技有限公司創(chuàng)始人徐濟(jì)銘更期待的是,人工智能能夠加速新藥研發(fā)。
新藥研發(fā)是個(gè)漫長的試錯(cuò)過程,從細(xì)胞實(shí)驗(yàn),到動物實(shí)驗(yàn),再到一、二、三期臨床試驗(yàn),從實(shí)驗(yàn)室研究到上市可能需要10年、花費(fèi)10億美元——這被稱為新藥研發(fā)領(lǐng)域的“雙十定律”。近年,輝瑞、阿斯利康等知名藥企開始在新藥研發(fā)領(lǐng)域引入人工智能,希望提高成功率、降低成本。徐濟(jì)銘設(shè)想,通過人體多模態(tài)的數(shù)據(jù)構(gòu)建一個(gè)模型,模擬人體器官的運(yùn)作,在臨床實(shí)驗(yàn)之前先通過這些系統(tǒng)模型做實(shí)驗(yàn),AI可以由此造福人類。
在京東探索研究院資深算法科學(xué)家薛超看來,大模型就是未來的操作系統(tǒng),它向上提供應(yīng)用程序接口(API),向下可以兼容各種各樣的硬件。比如,一個(gè)餐館想要建立一個(gè)送餐機(jī)器人或者對話機(jī)器人,店主把餐館的菜單輸進(jìn)大模型,這樣就可以快速建立起功能機(jī)器人。
“AI未來會越來越平民化,越來越低門檻化,可以通過自然語言來控制它的整個(gè)交互?!毖Τf。
研發(fā)大模型,提高數(shù)據(jù)“喂養(yǎng)”質(zhì)量很關(guān)鍵
本屆數(shù)博會上,知乎聯(lián)合面壁智能發(fā)布了對話類模型產(chǎn)品“面壁露卡”。發(fā)布會上,主持人請它規(guī)劃在貴州四天三夜的旅游路線。在“露卡”規(guī)劃的旅游方案中,游客每天晚上都要從景點(diǎn)所在地返回出發(fā)點(diǎn)貴陽,第二天再出發(fā)前往下一個(gè)市州。路線略顯冗長,好在覆蓋了較為知名的景點(diǎn)和特色小吃。
上海交通大學(xué)人工智能研究院常務(wù)副院長楊小康稱,國內(nèi)的大模型研發(fā)可謂是“真正的諸神之戰(zhàn)”,“據(jù)說有70幾個(gè)大模型,甚至上百個(gè)大模型在研發(fā)”。他認(rèn)為,研究大模型非常耗能,需要有序引導(dǎo),形成合力。
貴安新區(qū)科創(chuàng)產(chǎn)業(yè)發(fā)展公司常務(wù)副總經(jīng)理鄧周灰提到“鐵三角”理論:大模型是“大數(shù)據(jù)+大算力+強(qiáng)算法”結(jié)合的產(chǎn)物。他認(rèn)為:“當(dāng)前數(shù)據(jù)質(zhì)量是一個(gè)比較堪憂的問題,國外進(jìn)行大模型訓(xùn)練的時(shí)候,有很多不錯(cuò)的文獻(xiàn),還有一些科技文獻(xiàn),所以模型訓(xùn)練出來的智能化水平很高。但是我們現(xiàn)在在大模型訓(xùn)練的時(shí)候,大部分(語料)來自互聯(lián)網(wǎng),所以質(zhì)量就不是特別理想?!?/p>
古人常說,兵馬未動,糧草先行。在人工智能時(shí)代,數(shù)據(jù)正是“喂養(yǎng)”大模型的糧草。而在目前,“糧草”供應(yīng)還存在大量現(xiàn)實(shí)困難。
晶泰智藥技術(shù)(上海)有限公司副總裁王明泰說,數(shù)據(jù)需要標(biāo)注和清洗,但醫(yī)藥研發(fā)領(lǐng)域有大量數(shù)據(jù)無法標(biāo)注。王明泰表示,蛋白質(zhì)序列可達(dá)到十億級以上,但目前能夠找到的蛋白質(zhì)功能數(shù)據(jù)少之又少,“中間有巨大的差距”。
他還表示:“現(xiàn)在的數(shù)據(jù)主要是靠人做實(shí)驗(yàn),然后提取錄入系統(tǒng),再‘喂’給機(jī)器學(xué)習(xí)。目前我們保守估計(jì),中國可能有超過20萬人在為全世界醫(yī)藥研發(fā)企業(yè)做實(shí)驗(yàn),這些人可能都是本科以上學(xué)歷,以后可能(招不來)這么多人來做實(shí)驗(yàn)了?!边@意味著數(shù)據(jù)產(chǎn)生的成本極高,而要“喂養(yǎng)”大模型,“必須是廉價(jià)產(chǎn)生的數(shù)據(jù)”。
在數(shù)據(jù)的源頭,還存在標(biāo)準(zhǔn)不統(tǒng)一的問題。
達(dá)而觀信息科技(上海)有限公司首席戰(zhàn)略官劉江賢認(rèn)為,要注意梳理我們究竟需要什么樣的數(shù)據(jù)、怎樣才能產(chǎn)生高標(biāo)準(zhǔn)的數(shù)據(jù)。他認(rèn)為,首先要制訂數(shù)據(jù)產(chǎn)生的標(biāo)準(zhǔn)和流程,選準(zhǔn)產(chǎn)生大量有質(zhì)量、有價(jià)值數(shù)據(jù)的區(qū)域,“要制定標(biāo)準(zhǔn)化生產(chǎn)的流程,才能夠產(chǎn)生出我們想要的數(shù)據(jù)?!?/p>
在本屆數(shù)博會的多場論壇上,嘉賓們提到了數(shù)據(jù)流通、交易的問題。
2020年4月,《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》對外公布,將數(shù)據(jù)定義為繼土地、勞動力、資本、技術(shù)之后的第五大生產(chǎn)要素。2022年6月,中央全面深化改革委員會第二十六次會議上審議通過了《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確要建立數(shù)據(jù)產(chǎn)權(quán)制度、要建立合規(guī)高效的數(shù)據(jù)要素流通和交易制度、完善數(shù)據(jù)要素市場化配置機(jī)制。
北京雁棲湖應(yīng)用數(shù)學(xué)研究院研究員、清雁科技董事長韓立巖接受中青報(bào)·中青網(wǎng)記者專訪時(shí)解釋說,數(shù)據(jù)成為生產(chǎn)要素、可以進(jìn)入資產(chǎn)負(fù)債表,意味著它是企業(yè)資產(chǎn)的一部分,可以成為質(zhì)押標(biāo)的、幫企業(yè)融資,更可以為企業(yè)增信。這對于輕資產(chǎn)的科創(chuàng)企業(yè)尤為重要。
廣州數(shù)據(jù)交易所總經(jīng)理魏東說,湛江一家水產(chǎn)公司在廣州數(shù)據(jù)交易所做了合規(guī)登記后,銀行給予它的授信額度不僅增加了數(shù)倍規(guī)模,花費(fèi)的時(shí)間也大為減少。
中國人工智能開源軟件發(fā)展聯(lián)盟副理事長王健宗說,以前數(shù)據(jù)不是生產(chǎn)要素,在企業(yè)產(chǎn)生后也不受重視,“可能都作為廢品處理,有人要就拿走”?!艾F(xiàn)在(數(shù)據(jù))定義為生產(chǎn)要素,毫無疑問大家都重視起來,一旦重視就是香餑餑了,共享和流通就存在了困難?!彼f。
作為清華大學(xué)和北京雁棲湖應(yīng)用數(shù)學(xué)研究院聯(lián)合孵化的高科技公司,清雁科技正在建設(shè)“可信數(shù)據(jù)空間”,在這個(gè)虛擬空間里,他們努力讓數(shù)據(jù)“可用但不可見”,由此既能促進(jìn)數(shù)據(jù)資產(chǎn)的交易與共享,又能確保數(shù)據(jù)安全。
大模型產(chǎn)業(yè)之路,繞不開科技倫理和就業(yè)焦慮
上海山丘聯(lián)康健康管理有限公司創(chuàng)始人、董事長顏艷春用充滿詩意的語言表達(dá)了他的期待:“在工業(yè)文明時(shí)代,我們發(fā)現(xiàn)人類變成了機(jī)器,我們每個(gè)工人變成了流水線上的螺絲釘。ChatGPT會帶來人類巨大的解放?!?/p>
他設(shè)想,人類也許不必“996”,“我們也許(每周工作)一天、兩天就夠了,因?yàn)橛幸粋€(gè)更龐大的‘新人類軍團(tuán)’正在面世?!?/p>
其實(shí),新人類軍團(tuán)的“先遣部隊(duì)”已經(jīng)面世數(shù)年。早在2018年,戴姆勒金融服務(wù)就展示了它的第一個(gè)數(shù)字銷售代表Sarah,她可以為人們計(jì)算買新款奔馳汽車的性價(jià)比,還可以為客戶選擇選裝套件。同年2月,英國蘇格蘭皇家銀行聘用了一位虛擬的客服機(jī)器人Cora,她了解客戶喜好,能一眼識別出客戶并叫出名字,一天能處理上千個(gè)問題,她還能從錯(cuò)誤中不斷學(xué)習(xí)。也是在2018年,瑞銀集團(tuán)宣布數(shù)字化“復(fù)制”了其首席經(jīng)濟(jì)學(xué)家,推出數(shù)字人……
顏艷春對于未來非常樂觀:“我們認(rèn)為,下一個(gè)50年,當(dāng)碳基和硅基生命共生共榮時(shí),每一個(gè)人都可能成為一個(gè)詩人,成為一個(gè)作家,成為一個(gè)導(dǎo)演,成為一個(gè)畫家。甚至人人都有可能成為老師、醫(yī)生和碼農(nóng)?!?/p>
他引用了泰戈?duì)栐凇讹w鳥集》中的一句詩:信念是鳥,它在黎明仍然黑暗之際感覺到光明,唱出了歌。他說:“在當(dāng)今人類文明高度‘內(nèi)卷’的當(dāng)下,我認(rèn)為人工智能給我們帶來了這樣一場新的光明。”
一邊是高歌猛進(jìn)的人工智能技術(shù),一邊是技術(shù)擔(dān)憂論:人工智能首先帶來的,可能不是勞動力的解放,而是失業(yè)的浪潮。
孫茂松提到,過去20多年,人工智能給一些企業(yè)創(chuàng)造了巨大的價(jià)值;它還能使知識工作者的工作效率大大提高,預(yù)期到2030年,它會使財(cái)會人員的效率提高一倍、讓程序員的編程效率提高兩倍。
“這對公司是好事,對個(gè)人不一定是好事。意味著財(cái)會人員要砍掉一半,意味著75%的程序員可能不需要了?!彼f。而剩下的人,需要擁有更高的水平。
中青報(bào)·中青網(wǎng)記者 李雅娟 實(shí)習(xí)生 盧世龍 來源:中國青年報(bào)
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。