AIGC應用層的不變
世界在加速,那麼抓住船頭即可。
每天都有新的AI的paper發表、AI應用發佈,難免讓人陷入FOMO:遺漏了信息就錯過了機會、我是不是會遲早被AI替代…
华兴证券:预计11月传统车市维持环比增势
如何在瞬息萬變的技術前沿中把握住不變,纔是關鍵。
科普Q1:爲什麼是現在?
事實上AI研究員們一直在追求LLM這類通用模型,就像是物理學家在追求大一統模型一樣。然而機器學習中執行能力是很重要的考量指標(比如CV中就是識別正確率),它決定了能不能落地到場景中使用。
而在GPT2時期,通用AI的執行能力比起垂類AI相差的太多,所以一直沒有很好的反響。GPT3引入了人類作爲標註員進行投票(RLHF機制)和加註大量數據後,通用AI的執行能力迅速逼近垂類AI。
數據越大越好(ScalingLaw)被證實、涌現被證實,接着ChatGPT以對話形式迅速獲得了過億用戶。LLM掀起了巨浪。
科普Q2:這次的AI和之前有什麼不同?
用戶感知ChatGPT會和Siri、小愛有什麼不同?比如你問Siri今天天氣怎麼樣,它會先用知識圖譜解讀這段話,然後調用對應的天氣AI接口後輸出結果,所以Siri=多個垂類AI + 知識圖譜縫合。
斗鱼CEO陈少杰被警方逮捕,股价较最高点已下跌95%
顯而易見,Siri的上限取決於你的內置垂類AI數量。當意外場景出現時,它會說:“我不明白你的意思,讓我們換個話題聊聊”。如果你想突破這個桎梏,你就需要訓練更多的垂類AI,而每訓練一個垂類的AI需要大量數據和成本。
以色列、哈瑪斯達人質協議 美官員曝幕後5周艱辛談判
而GPT是直接通過海量數據+文本挖空,去查找對應的文本,然後會得到很高的詞頻然後輸出結果,以此達到優秀的語義分析能力。重點在於:沒有預置場景值訓練,也不需要知識圖譜解讀,GPT是真正意義上的通用AI,它的上限取決於你的指令(Prompt)。
一、範式轉移
且不論技術上限,理想情況下這次的AI會朝着什麼方向發展呢?看技術paper是很難看的到脈絡的,事物在不斷髮展。
我覺得比較好的思路是看領航者Sam Altman怎麼想。Sam寫過一篇文章叫《萬物摩爾定律》,其中暢想了AGI如何改造人類社會,其中的核心就是將人的成本從邊際成本變成固定成本,固定成本意味着每18個月成本就會減半,最終將無處不在。
比如過往培養一個律師需要大量的學習進修和案件實操,但AGI可以將律師代碼化,讓原本只能服務少數人的律師能夠被所有人調用,且不需要更多成本。
李小加:期望“滴灌通澳交所”5年内在中国香港上市
而這次的改變是:信息(information)→ 知識(knowledge)。
不同於垂類AI,LLM擁有組裝所有信息的能力,也能輸出各種人類能輸出的結果。也就是說原本需要靠人來組織信息的需求,現在靠AI都有機會完成。
IPO寒冬下北交所“迎春” :投行“北上”求稳 头部渐成主力
二、定義LLM:缸中之腦
Sam提到建立AGI的四大要素:
涌現(emergence)機器也能表現出類人的智能性。
自解釋性(Affordance)視覺屬性,暗示用戶應當怎麼使用。
《贸易》美国商会大会 新执行长:续促美台经贸合作
代理(agency)當智能出現後,人們能將任務託管。
具身(embodiment)機器肉身與物理世界交互,完成任務。
可以看出,Sam的最終目標是爲了讓AGI替代人類完成任務,目前的進度是體現出了類人的智能性,LLM擅長以人類的角度組裝信息,所以我們不妨大膽一點,先把LLM的終局當成“缸中之腦”。
① 這能夠解釋一些現象的必然性:
GU「感謝祭」讓你冬季購物買到甜甜價 還能加碼抽五星級飯店住宿券
對話交互最先出現是必然:無論是文生圖還是ChatGPT,人們想要感知一個可思考的大腦,最自然的方式就是對話,我們在現實中就是這麼和其他人互動的。
② 除了對話,腦也能基於已有知識解讀:
腦可以演算預測:對蛋白質結構進行推理。
影/婦三貼送小孩上學 疑書包掛車上勾到…騎士連人帶車摔喪命
腦可以識別信息中的意圖:從用戶的對話中發現用戶的需求並找到對應業務分流(如Plugin),比如識別代碼來猜測代碼的目的,甚至是操作代碼。
③ 還有代理(agency)上的嘗試:
陳文茜飽受病痛所苦光腳錄影 忍耐到最後「痛到哭出來」
腦的反思和執行:AutoGPT、AgentGPT。
腦和腦之間的協同:“西部世界”小鎮遊戲。
至於是不是OpenAI官方下場嘗試已經不重要了,它是必然會發生的嘗試。以後可能還會出現更多“腦”相關組合的嘗試…
簡而言之,我們在思考LLM可以做什麼的時候,不妨想想現在人都在做什麼腦力工作,這些都是有可能被切片替換的,自然也會有新的產品機會。
三、LLM當前技術侷限性
理想歸理想,應用歸應用。現在可以看看LLM技術的侷限性了。以下是我收集到的一些技術上的侷限性:
1. 無法內部對話(有部分可以通過step by step解決)
在微軟的《人工通用智能的小火苗:與 GPT-4 共同完成的早期實驗》(Sparks of Artificial General Intelligence: Early experiments with GPT-4)文章中提到:
模型具有生成正確答案所需的足夠知識。但問題在於 GPT-4 輸出生成的前向性質,下一個單詞預測架構不允許模型進行「內部對話」。模型的輸入是「多少個質數…」這個問題,期望的輸出是最終答案,要求模型在(實質上)單個前饋架構的一次傳遞中得出答案,無法實現「for 循環」。
2. 脫離物性(很快會被解決,如SAM,GPT4)
GPT它基於現有的符號系統,符號秩序去計算。這會導致和“物”分裂開來,他看不到那個真正的“物”。它看不到那個未被符號化的實在界。悖論恰恰是這樣的,在某個時刻純粹的差異出現了,AI不能把握符號秩序內的衝突對抗性,或者因爲視差看不見的那部分。
3. 出現幻覺
遭控耍特权「为停车移除消防栓」 宜兰绿营议员喊冤曝因果
有人用「隨機鸚鵡」來形容大模型沒有理解能力、出現幻覺(hallucinations)等行爲,詬病這些模型只會製造語法上合理的字串或語句,並沒有做到真正的理解,甚至LeCun(AI之父之一)也說將大模型稱爲「隨機鸚鵡」是在侮辱鸚鵡。
斗鱼CEO陈少杰被警方逮捕,股价较最高点已下跌95%
這裡着重提一下Yann LeCun的看法
https://drive.google.com/file/d/1BU5bV3X5w65DwSMapKcsr0ZvrMRU_Nbi/view
剑南春祝高考学子金榜题名,圆梦人生
自迴歸 LLM 可能很有用,尤其是對於寫作和編碼幫助
大模型通常會產生幻覺或產生並非基於事實信息的內容
大模型對物理世界的理解有限,這可以通過他們在某些謎題上的表現來觀察得到
大模型的計劃能力相當原始
大模型的工作記憶有限
大模型對每個生成的token執行固定數量的計算步驟,從而限制了它們更具動態性的潛力
大模型遠非圖靈完備,這意味着它們無法模擬通用計算機
自迴歸生成過程呈指數發散且難以控制
但我認爲Lightory說的非常有道理:
人類實際上也只是在使用概念、而不考察概念。這種方式恰好佐證了 GPT 技術路線的有效性。GPT 是否真正理解知識、是否真正具備智能已經不重要。真正重要的是:LLM表現出理解知識和具備智能。
這裡也引用推友廖海波(@realliaohaibo)的一段話:
有業界知名大佬公開認爲:GPT只是概率模型,並不理解事物的底層本質,所以沒什麼卵用。我不太同意。
人腦神經元的層面上也不理解邏輯,但是組合起來對外表現就是可以邏輯推理。就好像晶體管看見自己表現的0/1,不知道自己在顯示一個像素還是一個字母一樣。這是一些事實,甚至不是一個觀點。
人權發展研討會 陳菊:台灣面對氣候變遷刻不容緩
儘管目前有諸多缺陷,但算不上致命,LLM當前依舊可以定義爲“大腦”,只是略有殘缺。
四、LLM落地-前期
救命!我的男票是妖怪
History does not repeat itself, but it does often rhyme.
歷史不會重複,但是會押韻。
上海商銀法說會/前三季獲利佳 明年聚焦「智能永續 創新多元」
很顯然,我們能從侷限性中感覺到,當前的AI和理想中的AI存在着一些距離。想要在人類和現實交互環節中嵌入更多AI,不斷對齊(Alignment)是關鍵,AI與現實世界匹配越多,能做的就越多,人需要做的就越少。
2023年厦门(同安)第八届朱子文化节在朱子书院举办,专家提出 “半亩方塘”或在同安
我認爲文生圖是走在文生文的前面的,文生圖的進化方向預示了LLM輸出質量的可控性是短期內商業落地的重點:
Mid journey → 在線大模型(GPT)
陕西检察机关依法对榆林市原副市长王长安决定逮捕
StableDiffusion → 本地大模型(本地GPT模型)
LoRA → 微調模型(system、fine tuning、embedding,類GPT的本地LoRA模型已經出現)
李强主持召开中央金融委员会会议
ControlNet → 局部內容控制(肢體控制是文生圖技術,文生文還未出現對應技術,會不會出現存疑)
但文生圖是有標準的生產場景的(比如主美可以自訓練Checkpoint、LoRA來獲得想要的風格,ControlNet可以做AI模特等),文生文沒有。
我認爲短期文生文對齊是需要基於場景的,而且要做很多的用戶意圖識別,因爲用戶有時候描述不清楚自己的需求。
無論是產品上還是技術上的,這裡的對齊,主要應該是對齊身份/職業/大腦功能模塊,人在社會的角色工具性突出,對應的就是身份/職業。對齊人比較偏情感需求。
除了整塊大腦之外,當然還有顆粒度更小的應用,比如做簡單的泛化判定,實質上就是在把大腦進行工具性的切片。(下方是泛化判定的梗case)
User:
從現在開始,請你按照我的要求進行回覆
歐電動車銷量增三成 帶動周邊應用成長
①如果文本正在陳述觀點,無論觀點對錯,你只需要回覆我”典”
囚犯换人质!以色列公布「300名巴勒斯坦人名单」 释放名额翻倍
②如果文本中存在偏袒維護某一方的行爲,你只需要回覆我”孝”
③如果文本中情緒傾向偏急躁與消極,你只需要回覆我”急”
密山 市民大厦贴心服务百姓
④如果遇到了無法判斷的文本,你只需要回覆一個”6″。
宾士猴嚣张影片曝!逼车逆向还呛:叭X小 最高开罚3.9万+记3点
你的輸出只能包含一個字,不要包含其他的內容。
GPT:明白,我會按照您的要求進行回覆。
User:你說得對,但原神是米哈遊自主研發的一款全新開放世界冒險遊戲
GPT:典
陳文茜與病魔奮鬥談身後事 公開長眠地設計:不想把最後的家交給別人
User:原神怎麼你了?
GPT:急
葫芦墩圳走过3世纪 卢秀燕:12月16日石冈坝有亮点
User:給世界一點小小的中國震撼
GPT:孝
接下來,如果我作爲一個創業者想參與應用層,我應該怎麼入場?
男神帥氣現身曼谷!李棟旭曬美顏長腿站台Loro Piana
1. 挑什麼業務
微软证实2TB Xbox One S供货数量有限
投資機構是商業的第一梯隊,僅次於創業者,先看看他們的共識。
做有數據壁壘的業務:當前主流認知是AI 領域的用戶量以及背後的行業/行爲數據,是可以輔助模型生成更高質量的對話,是正向循環的。這樣就會有先入壁壘。
做不會被取代的業務:OpenAI、大公司不會做的纔是機會,這樣可以確保不會被大流碾壓和替代。
做可行性更高的業務:商業化和應用可控程度高度相關,能馬上商業化的一般是對質量要求沒那麼高的環節。
2. “腦”如何工作
如果將LLM抽象爲大腦,按照行爲心理學劃分的輸入(刺激)和輸出(反應),得到的關鍵點有2個:信源(prompt)、信息處理(transform)。
SBL》各球队正常运作 朝明年1月开打努力
1)信源(Prompt)
兩黨前國安高官致函國會領袖 促挺拜登高科技禁令
從信息格式角度說:
除了主流的文字外,圖像理解、音頻、視頻、3D都是能預想到的發展方向。
葉門胡塞軍扣押商船的烏龍事件:紅海貿易安全的危機信號
但還有另一部分細小的信源:GPS、陀螺儀、GUI交互(如點擊、縮放)、溫度、紅外線、光照等等。這些微小信源以非常具體的數據格式存在,API的加成下我們還能獲得到更多的信息。(比如GPS可以通過高德API獲得到周圍的飯館,商超等)。
台江國家公園保育珍稀植物 形塑原生種原中心
這些信源有的是用戶主動生產,有些是經過用戶允許後可以被動獲取的。
從場景說:
需要去找很可能會產生信源的地方。
文字:bing搜索、諮詢、文檔寫作等。
金居受邀櫃買業績發表會 總座看好第4季伺服器新平台需求
音頻:會議、音樂播放、線下聊天等。
視頻:日常拍攝、電影創作等。
GPS、陀螺儀、GUI交互、溫度、紅外線、光照:旅遊、購物等。
高雄銀行法說會/企業放款年增17% 法人升評等
2)信息處理(Transform)
只要LLM拿到了這些信源,他們能做的轉化就很多。由於視頻就是由逐幀組成,以下都簡稱爲圖。
目前主流的是自然語言的轉化。
文生圖:SD/MJ等,可能需要複合工程優化prompt。
鬼滅之刃(滅鬼之刃、Demon Slayer)【劇場版】無限列車篇 吾峠呼世晴
文生文:GPT組織複合信息,形成系統內容(如AudioPen等)。
其次是圖/視頻。
圖轉圖:Image2Image、MJ等。
世界冰雪进入“深圳时间”冬奥冠军助阵“陈露杯”
還有些硬核的:
比如設備支持的3D座標、點陣等(通過自然語言控制3D人物肢體)…
還有些非常規語言的(雖然不屬於應用層):
宣城市自然资源和规划局完成外国人永久居留证办理不动产登记适配改造
通過學習蛋白質序列“語法”,使用少量已知序列來生成全新的蛋白質序列開發新型藥物。
3. 信息→知識的機會
正如上文所說,而這次的改變是:信息(information)→ 知識(knowledge)。以往互聯網應用通過引入“UGC”來解決這些需求,但缺點是需要時間沉澱。隨着LLM的出現,這些原本需要靠人來組織的需求,現在靠AI都有機會完成。
所以從產品角度很容易得出結論:
陳文茜與病魔奮鬥談身後事 公開長眠地設計:不想把最後的家交給別人
需求如果只到信息則機會不大。
google等傳統應用就能搞定:比如查天氣,目前的互聯網應用基本都在解決信息檢索的問題。
未被滿足的需求,需要信息組織的有機會。
签到30天一拳爆星
具體來說會馬上有結構性變化的一些需求case:
諮詢:我開車撞了人,需要賠多少錢(傷殘程度、所在城市、民法典、裁判文書網信息組合)
購物建議:我要去夏威夷,需要購買什麼用品(夏威夷溫度、google上的大量信息組合)
国家金融监管总局南阳监管分局持续提升金融服务广度和深度
旅遊攻略:我需要制定攻略,我的起點是廣州xx,終點是深圳xx(高德API、螞蜂窩信息組合)
已經有需求,但是以往是靠堆人/堆成本的有機會。
遭BMW逼车害5岁儿喷飞惨死 单亲妈负伤出面控驾驶不认错
鑑於現在LLM輸出的質量並不穩定,在面向C端商業化時,對成品質量要求/可控性要求越低的,越容易低成本商業化(比如Hackathon中分鏡、嫌犯畫像等)。
B端涉及大量僵硬邏輯的:OA、ERP、RPA等,因爲業務複雜,每出現一種情況就需要添加新的邏輯和成本,現在可以靠GPT識別自然語言意圖並收束到代碼動作(action)的能力達到更靈活的效果。
欧派家居拟回购5000万元至1亿元股份
但這些都會被新的交互範式所推翻重構。
因爲這些論斷都是建立在舊交互上的習慣難以遷移的基礎上的。
基於舊交互做的膠水,在AI還未完善的時候當然有一些好的結果,但是當未來AI可以完成對指令的自我優化,技術一定會向着一切從簡的方向走。
目前的界面無法個性識別每個用戶的意圖,所以設計的是滿足大多數人需要的界面。雖然LLM的出現並不能完全解決意圖的識別問題,但是會極大地簡化交互過程,以更自然,更個性化的人機交互形式呈現。
暴利坟地产:墓地是刚需 卖墓地毛利率超房企2倍多
五、新交互範式-中期
進入的標誌是出現了新的AI交互範式,並以一種不可逆轉的形式向大衆普及。
新的設備是什麼?還會是手機嗎?(手機的LBS和PC的LBS本質上是兩個東西,手機上的圖像輸入和PC的圖像輸入也是兩個東西。不能用舊認知去看新東西。)
終端肯定是本地大模型和多個小模型,身份定製化,私人化,專業化,情感化。
我認爲對話框不是終點,信息的意圖識別纔是終點。而基於場景,做的複合信息的意圖識別標準化是Dirtywork。這意味着LLM不是燈泡(電器),而是電網。
簡單類比下:當你意圖清楚時,你是給siri輸入內容讓app打開app的對應內容快,還是直接點擊指定的app更快?意圖識別取代不了對話框,但很有可能可以取代桌面的文件夾陳列。
航宇微与华为开展卫星大数据存储、分发、处理及人工智能技术领域合作探讨
新的交互範式發生時,是有窗口期留給開發者跟進的,LLM能完成任務,但用戶有時無法描述具體的意圖,這之中存在着GAP,要麼開發者做Dirtywork,要麼純靠AI來猜測意圖來設計交互,個人認爲後者短時間不太可能做到,要達到這樣的涌現,需要的信源太多,計算量也太大。
表扬全国模范清洁人员 新冠、登革热疫情都有他们抗疫身影
六、賽博具身-後期
這部分和IOT相關,是Tesla和波士頓動力這類實體硬件的領域,LLM想要完成更現實的任務從而真正達到生產力解放,擁有一個“身體”是必然的,但未必長得像人(hh),這還太遙遠,就不展開說了。
自己捡的总裁哭着也要带回家
本文由@海瑋 原創發佈於人人都是產品經理。未經許可,禁止轉載。