DeepSeek的崛起,其實(shí)并不意外
中國人工智能初創(chuàng)公司DeepSeek近期引發(fā)了廣泛關(guān)注。1月20日,該公司發(fā)布的新模型在性能上足以與美國領(lǐng)先人工智能公司(如OpenAI和Meta)的模型競(jìng)爭(zhēng),其規(guī)模更小、效率更高且訓(xùn)練和運(yùn)行成本低得多。
然而,從管理理論特別是“顛覆性創(chuàng)新”理論來看,DeepSeek的成功或許本可以預(yù)見。顛覆性創(chuàng)新的核心在于提供低成本的替代方案,這些方案雖非尖端技術(shù),但足以滿足許多用戶的基本需求。DeepSeek正是憑借這種模式,沖擊了美國人工智能行業(yè)的傳統(tǒng)認(rèn)知,并引發(fā)了科技和能源股的波動(dòng)。
如果管理理論能夠解釋這一現(xiàn)象,那么它同樣可以為未來的發(fā)展提供啟示?;诩夹g(shù)變革理論,我們探討了這一顛覆對(duì)全球企業(yè)的影響,尤其是它們的領(lǐng)導(dǎo)者在選擇授權(quán)使用中國還是美國的大型語言模型(LLM)時(shí)所面臨的抉擇。
中美LLM的差異
中國LLM與美國LLM在兩個(gè)關(guān)鍵方面存在顯著差異:首先,中國LLM通常使用更便宜的硬件,并借助開放架構(gòu)降低成本;其次,許多中國LLM專注于特定領(lǐng)域的定制化應(yīng)用,而非通用任務(wù)。不過,像DeepSeek-R1這樣的模型正在逐漸向通用推理模型轉(zhuǎn)變。
美國LLM通常依賴最先進(jìn)的GPU集群進(jìn)行訓(xùn)練,這些集群包含數(shù)萬個(gè)英偉達(dá)的高端芯片,需要巨額資本投入和強(qiáng)大的云基礎(chǔ)設(shè)施支持。相比之下,由于先進(jìn)芯片的出口管制,中國LLM更多地依賴于在多個(gè)較弱的GPU上進(jìn)行分布式訓(xùn)練。盡管硬件條件有限,但通過高效的架構(gòu)設(shè)計(jì),中國LLM仍能實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的性能。例如,DeepSeek的多頭潛在注意力(MLA)和專家混合(MOE)架構(gòu)通過減少內(nèi)存使用,提高了計(jì)算資源的利用效率。
開源代碼庫的廣泛應(yīng)用也是中國LLM發(fā)展的重要推動(dòng)力。DeepSeek-V3(其最新推理系統(tǒng)的基礎(chǔ)模型)和DeepSeek-R1均在麻省理工學(xué)院(MIT)開源許可下發(fā)布。這種寬松的許可方式允許用戶自由使用、修改和分發(fā)軟件,包括用于商業(yè)目的,從而極大地促進(jìn)了技術(shù)的普及和應(yīng)用。這種高效架構(gòu)和開源策略在訓(xùn)練成本上的優(yōu)勢(shì)尤為明顯:DeepSeek報(bào)告的V3訓(xùn)練成本為560萬美元,而美國公司如OpenAI和Alphabet的LLM訓(xùn)練成本則高達(dá)4000萬至2億美元。
此外,美國LLM側(cè)重于基于全球數(shù)據(jù)集的通用查詢訓(xùn)練,而許多中國LLM則專注于特定領(lǐng)域的精準(zhǔn)應(yīng)用。中國的科技巨頭(如阿里巴巴、騰訊、百度和字節(jié)跳動(dòng))以及新興初創(chuàng)公司(如DeepSeek)都通過LLM開發(fā)了深度融入中國數(shù)字生態(tài)系統(tǒng)的行業(yè)特定應(yīng)用。
總結(jié)來說,中國LLM依賴于不太先進(jìn)的硬件,并專注于低端、特定領(lǐng)域的應(yīng)用,這些應(yīng)用對(duì)計(jì)算能力的要求較低,成本也更低。例如,阿里巴巴的通義千問和字節(jié)跳動(dòng)的豆包1.5pro的每100萬輸出標(biāo)記的成本不到0.3美元,而OpenAI和Anthropic的高端模型則超過60美元。
這正是經(jīng)典的顛覆理論在發(fā)揮作用。這與幾十年前美國小型鋼廠顛覆綜合鋼鐵廠的情況如出一轍。顛覆理論預(yù)測(cè),一種在初始階段劣于現(xiàn)有技術(shù)(如電弧爐)的技術(shù),針對(duì)特定低端任務(wù)(如生產(chǎn)低質(zhì)量鋼筋)進(jìn)行定制,最終將對(duì)專注于高端客戶(如高端鋼板客戶)并提供更高利潤的高端生產(chǎn)商(如綜合鋼鐵廠)構(gòu)成威脅。慢慢地、穩(wěn)步地,顛覆者提升其產(chǎn)品的質(zhì)量,而現(xiàn)有企業(yè)則在市場(chǎng)細(xì)分領(lǐng)域一個(gè)接一個(gè)地向顛覆者讓出市場(chǎng)份額。
顛覆理論預(yù)測(cè)了DeepSeek及其同類產(chǎn)品的出現(xiàn)和發(fā)展。事實(shí)上,未來幾個(gè)月內(nèi)其他顛覆者的出現(xiàn)并不會(huì)令人意外。特別是小型語言模型(SLM),它們使用的數(shù)據(jù)更少、資源更少,生成的內(nèi)容質(zhì)量也較低,可能會(huì)在未來幾個(gè)月內(nèi)成為挑戰(zhàn)美國和中國LLM的另一種技術(shù)。
未來展望:全球企業(yè)如何應(yīng)對(duì)?
DeepSeek的崛起引發(fā)了全球企業(yè)的一個(gè)關(guān)鍵問題:是選擇授權(quán)使用美國LLM,還是中國LLM,亦或是兩者都選?在此,管理理論中的技術(shù)多樣化策略提供了重要的參考。
在企業(yè)內(nèi)部部署多種LLM模型的一個(gè)顯著優(yōu)勢(shì)是風(fēng)險(xiǎn)分散化。對(duì)于LLM而言,這意味著可以降低供應(yīng)商端停機(jī)帶來的影響。例如,如果OpenAI的服務(wù)因故中斷,企業(yè)可以迅速切換到其他供應(yīng)商的模型,確保業(yè)務(wù)的連續(xù)性。
使用多種模型的另一個(gè)好處是聚合優(yōu)勢(shì)。不同的模型基于不同的算法,對(duì)同一問題可能給出不同的答案。研究表明,通過聚合多個(gè)模型的預(yù)測(cè)結(jié)果(即“集成”方法),通常能夠獲得更高質(zhì)量的輸出,尤其是在處理復(fù)雜、模糊的任務(wù)時(shí)。事實(shí)上,像Openrouter這樣的平臺(tái)已經(jīng)提供了一個(gè)集成界面,允許用戶實(shí)時(shí)比較180多個(gè)模型的性能和成本,從而實(shí)現(xiàn)更優(yōu)的選擇。
然而,與單一供應(yīng)商合作也有其優(yōu)勢(shì),例如降低管理成本和增強(qiáng)雙方對(duì)彼此能力的理解。使用多個(gè)模型可能會(huì)增加數(shù)據(jù)隱私和安全風(fēng)險(xiǎn),因?yàn)閿?shù)據(jù)需要在多個(gè)供應(yīng)商之間共享。盡管這種風(fēng)險(xiǎn)在所有LLM中都存在,但跨國家/地區(qū)(如美國和中國)的數(shù)據(jù)使用和監(jiān)管框架差異,會(huì)進(jìn)一步增加復(fù)雜性,尤其是在醫(yī)療保健等敏感領(lǐng)域。
管理理論還提出了第三種策略:多元治理。這種策略結(jié)合了外部供應(yīng)商和內(nèi)部開發(fā)人員的力量,以充分利用新興技術(shù)。研究表明,那些在內(nèi)部培養(yǎng)特定技術(shù)人才的公司,往往更能從新技術(shù)的出現(xiàn)中受益。在LLM領(lǐng)域,這意味著企業(yè)可以利用美國LLM處理通用任務(wù)(如為專業(yè)服務(wù)公司開發(fā)輔助研究的聊天機(jī)器人),同時(shí)利用中國LLM開發(fā)公司特定的應(yīng)用(如人力資源培訓(xùn)機(jī)器人)。
進(jìn)一步來看,低成本、開源的LLM模型(即使其能力稍弱)將使企業(yè)能夠開發(fā)出適合自身需求的定制化模型。隨著時(shí)間推移,這些低成本、低質(zhì)量的模型可能會(huì)逐步顛覆高成本的高端模型,就像小型鋼廠曾經(jīng)顛覆綜合鋼鐵廠一樣。
盡管存在數(shù)據(jù)隱私和安全問題(近期TikTok事件引發(fā)了關(guān)注),美國LLM如果忽視中國LLM帶來的顛覆性威脅,將面臨巨大風(fēng)險(xiǎn)。他們至少應(yīng)該警惕那些利用小型語言模型(SLM)等技術(shù)的美國本土顛覆者。大型美國人工智能公司也可以嘗試自我顛覆(例如,通用電氣開發(fā)手持超聲設(shè)備以顛覆傳統(tǒng)超聲業(yè)務(wù)),但研究表明,自我顛覆極為困難。前期對(duì)昂貴芯片、硬件和訓(xùn)練數(shù)據(jù)的投資(這些已成為沉沒成本)以及對(duì)高利潤解決方案的依賴,可能會(huì)使大多數(shù)美國人工智能公司繼續(xù)專注于高端LLM,而非轉(zhuǎn)向更便宜但“足夠好”的LLM。
對(duì)于全球企業(yè)而言,LLM領(lǐng)域的顛覆為投資內(nèi)部技能和開發(fā)定制化模型提供了機(jī)遇,這將有助于實(shí)現(xiàn)更有針對(duì)性的應(yīng)用、降低成本并提高投資回報(bào)率。
關(guān)鍵詞:DeepSeek
普里特維拉杰·喬杜里(Prithwiraj Choudhury)、納塔拉賈恩·巴拉蘇布拉馬尼安(Natarajan Balasubramanian)、徐明弢(Mingtao Xu)| 文
Kimi | 譯 周強(qiáng) | 編校