AI大模型前瞻:多模態(tài)融合、上下文、云端協(xié)同成趨勢(shì)|直擊2024GDC
分類: 最新資訊
口才詞典
編輯 : 口才大全
發(fā)布 : 03-24
閱讀 :131
《科創(chuàng)板日?qǐng)?bào)》3月24日訊(記者 黃心怡)在今日舉行的“2024全球開(kāi)發(fā)者先鋒大會(huì)”大模型前沿論壇上,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華總結(jié)了過(guò)去一年大模型的發(fā)展,并對(duì)未來(lái)趨勢(shì)進(jìn)行了前瞻分析。他表示,GPT-4已經(jīng)發(fā)布一周年,過(guò)去一年的成果超越了過(guò)去十年的積累。目前,上下文、推理能力、更高效的模型架構(gòu)是技術(shù)探索的重點(diǎn)方向,輕量級(jí)模型嶄露頭角,開(kāi)源模型快速發(fā)展。林達(dá)華介紹,大模型時(shí)代,技術(shù)演進(jìn)有兩股主要的驅(qū)動(dòng)力量:一是對(duì)AGI(通用人工智能)的追求,對(duì)尺度定律(Scaling Law)的信仰;二是對(duì)大模型帶來(lái)新一次產(chǎn)業(yè)變革的憧憬。在模型架構(gòu)方面,業(yè)界從追求參數(shù)到追求更高效的規(guī)模。林達(dá)華以人腦為例,人腦的效率遠(yuǎn)高于主流大模型的架構(gòu),人腦包含60-100萬(wàn)億個(gè)神經(jīng)元突觸連接,其運(yùn)行功率僅20瓦,而千億參數(shù)模型的推理功率是它的百倍以上,處理的信息更單一。其中,MoE(Mixture of Experts)值得關(guān)注,經(jīng)過(guò)良好訓(xùn)練的MoE可取得比同等激活參數(shù)量的稠密模型更好的性能。業(yè)界也在探索Mamba模型等,以低復(fù)雜度的注意力架構(gòu)更高效地處理上下文。在訓(xùn)練數(shù)據(jù)方面,從追求數(shù)量到尋求規(guī)模化構(gòu)建高質(zhì)量數(shù)據(jù)的路徑。他表示,訓(xùn)練數(shù)據(jù)包括三要素:規(guī)模、質(zhì)量、多樣性。在規(guī)模方面,早在ChatGPT之前,DeepMind等研究報(bào)告已指出訓(xùn)練數(shù)據(jù)要和模型參數(shù)同步增長(zhǎng)。數(shù)據(jù)質(zhì)量在大模型訓(xùn)練中扮演越來(lái)越重要的角色,訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型水平影響很大,低質(zhì)量數(shù)據(jù)對(duì)模型可能產(chǎn)生破壞性影響。增強(qiáng)數(shù)據(jù)的知識(shí)密度,能帶來(lái)更高的訓(xùn)練效率。此外,好的數(shù)據(jù)集是非常多樣化的,均衡分布在充分大的語(yǔ)義空間中。而互聯(lián)網(wǎng)語(yǔ)料數(shù)據(jù)的分布極不均勻,存在大量低水平重復(fù)的語(yǔ)言模式,可能帶來(lái)模型能力的塌縮,合理的resampling(重采樣)策略能大幅度降低其負(fù)面影響。多模態(tài)融合將成為重要趨勢(shì),相關(guān)技術(shù)探索仍在路上。另一趨勢(shì)則是自2023年下半年開(kāi)始,上下文長(zhǎng)度快速增長(zhǎng),呈現(xiàn)數(shù)量級(jí)增長(zhǎng)。在Kimi宣布升級(jí)至 200萬(wàn)上下文無(wú)損輸入后,阿里通義千問(wèn)宣布向所有人免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能,而360智腦正式內(nèi)測(cè)500萬(wàn)字長(zhǎng)文本處理功能,即將入駐360AI瀏覽器。林達(dá)華認(rèn)為,上下文支持能力的提升,意味著更廣闊的應(yīng)用可能性。比如2K長(zhǎng)度的上下文主要用于日常聊天、知識(shí)問(wèn)答、短文理解。32K可以支持?jǐn)M人對(duì)話、長(zhǎng)文分析、代碼解釋和縮寫。100K可支持長(zhǎng)報(bào)告/短篇小說(shuō)、智能體長(zhǎng)時(shí)間交互,以及簡(jiǎn)單的軟件和網(wǎng)站構(gòu)建。如果達(dá)到百萬(wàn)量級(jí),則能支持長(zhǎng)篇小說(shuō)、直接注入小型知識(shí)庫(kù)等。智能體也成為業(yè)界關(guān)注的方向,林達(dá)華認(rèn)為這是大模型應(yīng)用的重要形態(tài),但需要核心基礎(chǔ)能力的支撐。林達(dá)華還預(yù)計(jì),云端在指數(shù)級(jí)成長(zhǎng)的同時(shí),端側(cè)即將迎來(lái)黃金增長(zhǎng)期。當(dāng)下,國(guó)內(nèi)頭部安卓手機(jī)廠商均已入局AI手機(jī),聯(lián)想、榮耀等終端廠商還發(fā)布了首款A(yù)I PC。林達(dá)華相信,云端協(xié)同將成為未來(lái)的重要趨勢(shì),由云側(cè)計(jì)算建立天花板,端側(cè)計(jì)算將支撐用戶使用大規(guī)模放量。從國(guó)內(nèi)大模型的發(fā)展來(lái)看,GPT-4依然保持領(lǐng)先。國(guó)內(nèi)前列的模型在主客觀變現(xiàn)上都超過(guò)了GPT-3.5,商用閉源的大模型表現(xiàn)比開(kāi)源模型更好,但是開(kāi)源模型進(jìn)步非常快。不過(guò),他也強(qiáng)調(diào),要審慎地看待大模型榜單。因?yàn)槿魏伟駟味加刑囟ǖ钠兀胰魏闻琶际嵌虝旱模鶕?jù)評(píng)測(cè)找到解決問(wèn)題的路徑,對(duì)于AI發(fā)展有更長(zhǎng)的生命力。國(guó)內(nèi)大模型與GPT-4的真正差距在于推理能力。林達(dá)華稱,特別是隨著推理難度的提升,GPT-4和其他模型,重量級(jí)模型和輕量級(jí)模型逐漸拉開(kāi)差距。相比常識(shí)推理、演繹推理,歸納推理是差距最大的類型。林達(dá)華最后表示,大模型時(shí)代,AI產(chǎn)業(yè)分工將會(huì)被重塑,最強(qiáng)的大模型公司也不會(huì)壟斷一切,在特定領(lǐng)域的數(shù)據(jù)優(yōu)勢(shì),可以讓一個(gè)模型在局部形成對(duì)GPT-4的超越。