隨著 ChatGPT 火遍全球,國(guó)內(nèi)科技圈也打響了 " 千模大戰(zhàn) ",不同場(chǎng)景、語(yǔ)言、行業(yè)的 AI 大模型層出不窮,產(chǎn)品形態(tài)覆蓋移動(dòng)端與 PC 端。資本也久違地捕捉到了類似 10 年前移動(dòng)互聯(lián)網(wǎng)曾帶來的變革機(jī)遇,單筆融資規(guī)模動(dòng)輒破億美元,不斷刷新獨(dú)角獸的誕生周期……
(資料圖)
當(dāng)前,國(guó)內(nèi)生成式 AI 創(chuàng)業(yè)與產(chǎn)品研發(fā)熱火朝天,互聯(lián)網(wǎng)和云服務(wù)大廠、傳統(tǒng) AI 企業(yè)、高校及科研機(jī)構(gòu)、大數(shù)據(jù)及算力提供商紛紛入局。幾十上百家公司喊出 " 夢(mèng)之隊(duì) " 的口號(hào),誓要成為中國(guó)版的 OpenAI,造出自己的 ChatGPT。
據(jù)不完全統(tǒng)計(jì),在已持續(xù) 4 個(gè)多月的大模型創(chuàng)業(yè)狂潮中,多達(dá) 60 款類 GPT 大模型已經(jīng)或即將面世。除了擁有深厚技術(shù)積淀與資金實(shí)力的大廠以各自的產(chǎn)品吊足觀眾胃口,眾多大廠高管與互聯(lián)網(wǎng)老兵的躬身下場(chǎng)也讓這場(chǎng)軍備競(jìng)賽具備了更多看點(diǎn):一方面,騰訊、華為、京東、螞蟻等巨頭系大模型布局繼續(xù)加碼;另一方面,百川智能等來自創(chuàng)業(yè)公司隊(duì)伍的生成式 AI 探索也已取得初步成果。
生成式 AI 時(shí)代,不同技術(shù)場(chǎng)景中的底層技術(shù)變量將帶來怎樣的價(jià)值,其中蘊(yùn)含著怎樣的創(chuàng)業(yè)機(jī)會(huì),又包含哪些成功的要素與難點(diǎn)?動(dòng)點(diǎn)科技收集了來自風(fēng)投與相關(guān)創(chuàng)業(yè)公司基于實(shí)戰(zhàn)的洞見以饗讀者。
底層基礎(chǔ)變量啟動(dòng)系統(tǒng)創(chuàng)新
從 Stable Diffusion 的開源到 ChatGPT 的問世,生成式 AI 在各個(gè)領(lǐng)域的范式迭代已成為共識(shí),AIGC 可謂是想象力加生產(chǎn)工具的雙重組合。通過多輪交互,用戶與模型的交互深度已大幅度增加,新型的交互形式的引入大大降低了技術(shù)的交互成本,可謂是小樣本大智能。
金沙江創(chuàng)投主管合伙人張予彤認(rèn)為,其中底層的變化主要在于計(jì)算成本與推理成本。正如神經(jīng)網(wǎng)絡(luò)隨著算力的發(fā)展愈發(fā)深度,大模型的不斷調(diào)優(yōu)與迭代也依賴著算力的提升。據(jù)報(bào)道,作為一個(gè)萬(wàn)億參數(shù)的模型,GPT-4 是用 2 萬(wàn)張英偉達(dá) A100 顯卡進(jìn)行 8 個(gè)月訓(xùn)練的結(jié)果。未來若達(dá)到英偉達(dá) H100 芯片等更高級(jí)別的算力,其耗費(fèi)的顯卡數(shù)量將會(huì)明顯降低。因?yàn)槿f(wàn)卡的階段已經(jīng)給運(yùn)維帶來了很大壓力,每小時(shí)都需要至少重啟一張顯卡。面對(duì)這種瓶頸,純粹的規(guī)模化給模型帶來的增益將呈現(xiàn)遞減趨勢(shì)。只有底層算力的提升才能推動(dòng)數(shù)據(jù)處理能力的攀升并進(jìn)而提高訓(xùn)練數(shù)據(jù)的規(guī)模。
效果驚艷的模型問世之后,從業(yè)者也不得不開始關(guān)注模型的推理成本。今天,ChatGPT 在下游廣泛的通用任務(wù)中都有較好的表現(xiàn),并由此開啟了大量的推理應(yīng)用,未來有望從云端拓展至 H 端、移動(dòng)端,并降低技術(shù)成本使之適配更多的商業(yè)場(chǎng)景。
2014 年起,五源資本開始投資于深度學(xué)習(xí)類 AI 賽道。五源資本合伙人劉凱認(rèn)為,今天的這一波 AI 創(chuàng)新與十年前的區(qū)別主要在于,十年前的創(chuàng)新主要是由 AI 教父辛頓等人帶動(dòng)的點(diǎn)狀創(chuàng)新,推動(dòng)了行業(yè)的發(fā)展并快速商業(yè)化。而今天以OpenAI 為代表的創(chuàng)新其實(shí)是一種系統(tǒng)化的創(chuàng)新,在多個(gè)維度上發(fā)生了快速的迭代與突破。
點(diǎn)狀創(chuàng)新會(huì)很快在點(diǎn)上收斂,對(duì)應(yīng)的結(jié)果就是其他層面的同質(zhì)化內(nèi)卷,例如不同企業(yè)高度雷同的 CV 與 NLP 客服產(chǎn)品。而如今的 GPT4 從底層模型機(jī)制到上層應(yīng)用的 prompt,借助了很多成熟的 infra 公司,與開源界關(guān)系密切,帶來了大量的開源者,包含了大量的數(shù)據(jù)集。
也有創(chuàng)投人士擔(dān)憂這一次的 AI 創(chuàng)新是否也會(huì)如十年前那樣,先帶來很高的期待而后繼乏力。對(duì)此,劉凱表示,不必有此擔(dān)憂,因?yàn)?ChatGPT 將重心放在生態(tài)建設(shè),更多地促使用戶去使用 API 這種難以計(jì)算用戶時(shí)長(zhǎng)的端口。并且,后者也更著眼于生態(tài)創(chuàng)新,從各個(gè)方面吸引與籠絡(luò)開發(fā)者和用戶,ChatGPT 以及相關(guān)的 AI 大模型還遠(yuǎn)沒到降溫的時(shí)候。
落地前:層層壁壘與重重挑戰(zhàn)
從生產(chǎn)力工具到交互形式再到交付成本,這一輪 AI 創(chuàng)新帶來了不可忽視的變革,而這種影響還將隨著技術(shù)的逐步落地被繼續(xù)放大。而在此過程中,AI 大模型的落地還存在一些壁壘與挑戰(zhàn)。
面壁智能 CEO 李大海認(rèn)為,訓(xùn)練一個(gè)小型預(yù)訓(xùn)練模型并沒有太大難度,這也是國(guó)內(nèi)會(huì)出現(xiàn) " 千模大戰(zhàn) " 底層原因之一,真正的難度在于要真正做出一個(gè)性能達(dá)到當(dāng)前 GPT4 甚至更高水準(zhǔn)的模型。他分享了 AI 大模型在預(yù)訓(xùn)練階段的一些有待突破的壁壘,主要包括算力、數(shù)據(jù)、訓(xùn)練難度以及對(duì) infra 的要求。
訓(xùn)練一個(gè) GPT3.5 水平的模型至少需要 1000 張英偉達(dá) A100 或 H800 顯卡,其背后成本十分高昂,而隨著模型參數(shù)規(guī)模的上升,其試錯(cuò)成本也水漲船高,并需要海量的、包含多模態(tài)數(shù)據(jù)的支撐。同時(shí),雖然行業(yè)已逐步沉淀出一些訓(xùn)練的方法論,但仍無(wú)法避免梯度爆炸等系統(tǒng)性問題的產(chǎn)生,這對(duì)于 AI 訓(xùn)練工程師快速排查問題的能力提出了極高的要求。如何讓 infra 能夠更好地與模型結(jié)合,更好地容錯(cuò),也是一個(gè)很高的門檻。此外,效果與成本的平衡、安全可控也是大模型落地的挑戰(zhàn)所在。基于 Transformer 的大模型已實(shí)現(xiàn)了很大的突破,但 Transformer 架構(gòu)的大模型是否能達(dá)到 AGI 的水平還是個(gè)未知數(shù)。如果沒有更高效的架構(gòu)出現(xiàn),成本將限制我們對(duì)于大模型性能的追求。在復(fù)雜分裂的文化背景下,如何保證模型的可控性并使之在一個(gè)地區(qū)進(jìn)行有效的商業(yè)化落地,已成為比技術(shù)更令人頭疼的問題。
關(guān)于 AI 大模型在工具鏈層的挑戰(zhàn),潞晨科技創(chuàng)始人尤洋教授表示,下層的 GPU 硬件等基礎(chǔ)設(shè)施決定了上層的處理方法,而上層的方法反之也將產(chǎn)生更深遠(yuǎn)的影響。當(dāng)前訓(xùn)練大模型使用的 Adam 優(yōu)化器本質(zhì)屬于非凸優(yōu)化,難以找到全局最優(yōu)解,現(xiàn)在收斂到的只是一些局部最優(yōu)點(diǎn)。
"AI 模型是不是越大越好,參數(shù)量達(dá)到 5000 億、6000 億乃至 7000 億、8000 億之后會(huì)不會(huì)產(chǎn)生瓶頸?這些都還無(wú)法從科學(xué)角度進(jìn)行驗(yàn)證。神經(jīng)網(wǎng)絡(luò)模型也是一個(gè)非凸函數(shù),當(dāng)全球計(jì)算機(jī)理論學(xué)科最優(yōu)的普林斯頓大學(xué)教授都無(wú)法證明 5 層神經(jīng)網(wǎng)絡(luò)的多點(diǎn)性,遑論比較 500 億參數(shù)與 5000 億參數(shù)大模型的優(yōu)劣。" 即便是 OpenAI 也只是在進(jìn)行一些實(shí)驗(yàn)性的探索,沒有人能夠證明千億級(jí)參數(shù)的大模型是否一定優(yōu)于百億級(jí)。
尤洋相信,未來隨著計(jì)算范式變革,將出現(xiàn)比 Adam 優(yōu)化器快成千上萬(wàn)倍的選擇,并帶來成本的大幅度下降,以至于用幾十個(gè)服務(wù)器訓(xùn)練一兩周就能達(dá)到今天 GPT4 的效果。
Gonex CEO 溫夢(mèng)飛觀察到,當(dāng)下很多 AI 大模型在應(yīng)用層提供的解決方面較為表面、容錯(cuò)率較低且不受控。例如一些聊天機(jī)器人沒有對(duì)對(duì)話內(nèi)容進(jìn)行任何分析處理,這在行業(yè)中是不可接受的,因?yàn)樵诮o定的流程與場(chǎng)景下,不能讓模型無(wú)限制地生成內(nèi)容。
基于 Gonex 進(jìn)行的一些早期研究,大模型的產(chǎn)業(yè)應(yīng)用主要有兩方面的挑戰(zhàn),一是缺乏商業(yè)化的 PMF,大多數(shù)現(xiàn)有的模型應(yīng)用沒有解決實(shí)際的問題,因此也沒有付費(fèi)的空間。這涉及對(duì)流程的再造以及商業(yè)場(chǎng)景的適配,國(guó)內(nèi)尚未找到對(duì)應(yīng)的完整體系與標(biāo)準(zhǔn);二是很多的模型應(yīng)用還是比較薄,體現(xiàn)沒有整理出自己的行業(yè) know-how,僅靠模型自身進(jìn)行迭代行業(yè)數(shù)據(jù)它沒有整理出來,以及純線上的交付無(wú)法體現(xiàn)服務(wù)的能力。
溫夢(mèng)飛認(rèn)為大模型的行業(yè)應(yīng)用需要從三個(gè)方向考慮,即抽象與提煉自己的行業(yè) know-how,增加獨(dú)有的交付方式,和以自身模型的邏輯、意圖識(shí)別、流程再造去解決實(shí)際問題。
工具鏈與商業(yè)生態(tài)演變路徑
在大模型創(chuàng)業(yè)的成功要素中,算法、算力、數(shù)據(jù)、資本的重要性顯而易見,而生態(tài)這一要素也正隨著技術(shù)范式的變化發(fā)生改變。MLOps(機(jī)器學(xué)習(xí)運(yùn)維)是 AI 掘金時(shí)代的 " 鏟子 ",從模型到生產(chǎn)應(yīng)用全面助力著 AI 模型的落地生花。
劉凱發(fā)現(xiàn),不同于上一代 Machine Learning 的模式能力,即依托強(qiáng)化學(xué)習(xí)去做一些預(yù)測(cè)性的應(yīng)用,例如電商平臺(tái)的商品推薦及短視頻平臺(tái)的內(nèi)容推薦。這一代的生成式AI 解決的是完全不一樣的問題,它對(duì)數(shù)據(jù)的理解與使用環(huán)節(jié)都非常不同,具備了以前所有的軟件公司都不具備的能力。他相信,這一代新的范式將孕育很多新的工具和新的公司。
除了工具鏈生態(tài)的變化,大模型的商業(yè)生態(tài)也發(fā)生著劇變,例如在文生圖領(lǐng)域,Stable Diffusion 和 Midjourney 進(jìn)行著拉鋸戰(zhàn),在語(yǔ)言模型領(lǐng)域,LLaMA 等項(xiàng)目遍地開花,幾乎人手一個(gè)大模型。對(duì)此,張予彤認(rèn)為文生圖模型與大語(yǔ)言模型的差異不僅在于模態(tài)的區(qū)別,更重要的是文字可能是人類總結(jié)與傳播知識(shí)的首選媒介,人類的通用知識(shí)與常識(shí)通常也留存在語(yǔ)言文字中。正如在 CV 領(lǐng)域的 Killer App 屈指可數(shù),因此,大語(yǔ)言模型在未來仍然是不可忽略的。
未來,大模型還將向文生視頻的方向發(fā)展,例如 Midjourney 的 5.2 版本也推出了一個(gè)可以無(wú)限 zoom out 的功能。但隨著大模型模態(tài)和信息的升維,其理解人類通識(shí)的能力也將成為技術(shù)的關(guān)鍵點(diǎn)。
關(guān)鍵詞:
責(zé)任編輯:Rex_28





