“聰明的小孩”確實有“ChatGPT那味兒”

發布時間：2023-03-06 08:58 原文鏈接： “聰明的小孩”確實有“ChatGPT那味兒”

原文地址：http://news.sciencenet.cn/htmlnews/2023/3/495355.shtm

前不久，復旦大學計算機科學技術學院邱錫鵬團隊發布類ChatGPT模型MOSS的新聞迅速登上微博熱搜。

2月20日，MOSS發布當天就收到大量內測申請、采訪、投資、合作邀約——公眾對這項原本局限于NLP（自然語言處理）學術圈的新技術熱情高漲，這讓邱錫鵬團隊頗感意外。

“聰明的小孩”讓人激動到失眠

大家最興奮的一天，是春節前的臘月二十八。項目主開發者、計算機科學技術學院博士研究生孫天祥在測試過程中輸入一個中文問題，MOSS卻以英文正確回答，“就像一個不會說但聽得懂中文的人”。而當時版本的MOSS還很初級，中文語料占所有訓練數據不到0.1%。

“很神奇，我們沒有教過它機器翻譯。”MOSS顯示出的潛能讓邱錫鵬當晚激動到失眠。

邱錫鵬把MOSS比作一個“聰明的小孩”，即便現在還不擅長寫詩、解題或很多具體的事，但已展示出成為通用人工智能（AGI）大框架的潛能，“很多遙不可及的事情，它一點就通了。”

實際上，邱錫鵬也讓6歲的女兒和MOSS聊天，發現孩子可以愉快地和MOSS對話很長時間。

MOSS受到關注的背后，是科研人員十年如一日的積淀。作為一名人工智能研究專家，邱錫鵬從讀博期間就開始涉獵機器學習，留校工作后進入自然語言處理研究領域。他和團隊在自然語言處理的基礎模型和基礎算法上形成了很多創新的研究成果。

邱錫鵬的《神經網絡與深度學習》被廣大讀者稱為“蒲公英書”，在許多“人工智能必看書單”中榜上有名。去年，他還帶領團隊獲得中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。

這些天，邱錫鵬與他的MOSS團隊——8位年輕的復旦學生——繼續緊鑼密鼓地開展內測和迭代工作。新模型預計在3月份底優化完成，后期再逐步對社會開放。

MOSS團隊合影（左六為邱錫鵬）。戚心茹、寸菲/攝

確實有“ChatGPT那味兒”

目前已參與內測的一些用戶表示，盡管MOSS在參數規模上和ChatGPT相比小一個量級，事實性問題覆蓋不夠全面，經常會“一本正經地胡說八道”，但確實有“ChatGPT那味兒”“基本功能都實現了”。

邱錫鵬很樂觀，認為在不遠的將來，MOSS這類大型語言模型會成為和搜索引擎一樣常規的存在，為人們生活的方方面面提供助益。

開源（即開放源代碼和模型參數）是邱錫鵬和復旦自然語言處理實驗室的同仁們一直以來的學術堅持。

“這次也會將研究成果開放給公眾與社會。”邱錫鵬說。

深度對話MOSS團隊

“我們想證明，在有限的資源下，也能做出類ChatGPT模型”

記者：請簡單介紹一下MOSS？這種“大型對話式語言模型”和我們日常使用的Siri、小度、小愛等聊天機器人有什么區別？

邱錫鵬：打個比方，這兩者的關系就像智能手機和功能手機。之前的聊天系統還屬于弱人工智能，設計它們就是用來聊天的，就像傳統的功能手機只能用來打電話；而現在的大型語言模型，像ChatGPT、MOSS，它們能做很多事，聊天只是功能之一。智能手機可以用來打電話，但它的功能遠遠不止于此。

就ChatGPT、MOSS而言，它們具備的是一種通用能力，可以幫助人類完成各種各樣的事情，只不過以對話形式呈現。它可以完成自然語言處理領域的絕大部分任務，包括機器翻譯、信息抽取、糾錯等。它們還可以在學習使用外部工具后，與外部世界進行交互，進行創作。這些都是現有的聊天機器人所不具備的。應該說，這種對話式大型語言模型向我們展示了一條通向“通用人工智能”的嶄新路徑。

邱錫鵬。戚心茹、寸菲/攝

記者：創建MOSS模型花了多長時間？

邱錫鵬：我們在春節前就開發出第一代模型，它顯示出了很大的潛能。與之前的聊天系統大不相同，有著不錯的人類意圖理解能力，也有很多涌現能力，比如未經訓練就學會了機器翻譯。之后，我們又花了一個多月的時間打磨它的工程部署情況，比如提高效率、優化界面等。

MOSS的開發離不開我們團隊長期積累的研究經驗。從2021年起，我們就開始做中文生成式預訓練模型，也開源供別人下載，每月平均有上萬次下載。后面我們又提出“語言模型即服務”的概念，認為基礎語言模型會成為語言服務的基座。22年因為意識到大型語言模型會成為將來的基座，所以開始做大型語言模型方面的訓練。后來又花費了半年時間，研究如何使大型語言模型理解人類指令以及具備對話能力。

記者：MOSS如何能夠實現“端到端”走通大語言模型，克服了哪些難點？

邱錫鵬：“端到端”是一個學術概念，指的是從零開始，信息收集、數據處理、建立模型，到最終形成一個具有和人類對話能力的大模型，中間所有技術路徑可以走通，這個就叫由起點到終點的“端到端”。因為OpenAI至今沒有公布開發ChatGPT的技術路線和技術細節，所以我們需要靠有限的公開信息來自己摸索。

這個過程非常難，包含了非常多經驗性、直覺性的設計，關鍵要打通兩步：第一是基座，大型語言模型的基座不是簡單的參數足夠大就可以，還需要賦予大型語言模型各種各樣的知識能力、學習能力，還有邏輯推理能力。第二就是要通過一些指令觸發它的對話能力，讓它理解人類意圖，與人類能夠交互對話。

到目前為止，我們還能把控技術路線，但未來可能會面臨更大的困難，因為我們收集了非常多和人類交互的指令，要賦予它價值觀和各種各樣的能力，就要請一些專業人士來幫助我們設計，進一步增強MOSS各方面的能力。

記者：國內外已有不少公司正在研發類ChatGPT模型，投入不菲。作為一個高校學術研究團隊，你們開發MOSS模型的初衷是什么？

邱錫鵬：我們開發MOSS模型，是想在百億規模參數上探索和驗證ChatGPT的技術路線，證明我們在技術實現上并不落后于國外。另外也是想證明，這種技術也并非一定被大公司壟斷，我們這樣一個學術研究的實驗室，在相對有限的資源下，也能夠做出類ChatGPT模型。

當然，我們開發MOSS模型，不止于追求和ChatGPT能力相近的模型。MOSS的定位是自然語言處理領域乃至是通用人工智能領域最前沿的探索。也許工業界更看重它的落地性能，而我們更看重它的下一代發展，即如何實現通用人工智能。從學術角度出發，只有我們比OpenAI看得更遠、更超前，才可能最終實現超越。我們堅信，學術界在這個領域大有可為。

記者：MOSS與ChatGPT相比，有哪些主要差異？

邱錫鵬：最大差異還是參數規模。ChatGPT的參數量多達1750億個，而MOSS的參數量比其小一個數量級，大約是前者的1/10左右。我們選擇百億規模這樣級別的參數，是因為學術界主要是做一些探索性的技術，這個規模也在財力物力承受范圍之內。我們認為在這個參數級別上，這些模型也能涌現出一定的智能能力，我們也能賦予它們對話的能力。實驗結果證實了我們的猜想，MOSS模型可以非常順利地與人類進行聊天互動。

另外一大差異就是迭代能力。用戶量越大，交互數據越多，模型的迭代能力就越強。ChatGPT作為新一輪人工智能賽跑的領跑者，遙遙領先收集了大量用戶的交互數據，OpenAI可以在此數據的基礎上，把這個模型和數據的飛輪轉起來。這也就是為什么，ChatGPT現在的寫作能力比剛上線時提升了很多。

上述參數量和交互數據量的差異，進一步導致了MOSS和ChatGPT在事實類知識儲備上的差距，表現為MOSS在回答事實類問題時更容易出錯。一般來說，模型所要掌握的能力可以分為兩種：一種是事實類，比如“上海在哪里”“上海有多少人口”；另一種是邏輯類，比如對人類意圖的理解能力和對人類指令的理解能力。事實類知識遵從二八法則，80%都是長尾知識，不知道就是不知道，但不代表模型不會學習。我們很容易通過擴大知識庫，擴大模型的學習語料和參數規模，讓模型具有更多的知識。因此，我認為，大家在關注ChatGPT、MOSS這種模型的時候，更應該看重它的理解能力、學習能力以及思維能力，而不是看重它的事實類知識儲備。如果從邏輯類能力來看，我覺得MOSS的表現其實還不錯。

記者：MOSS的科技創新點在哪里？

邱錫鵬：MOSS的特點是小規模，比較容易適應個性化模型。從國內來看，大部分企業都有非常大的需求去接入AI服務，但如果直接把ChatGPT這么大的模型遷移過來，企業是用不起來的。MOSS這種百億級規模就非常合適，可以企業內部私有部署，經過一些數據微調就可以轉化為生產力。

所以我們覺得，在MOSS這個級別模型上，可以賦予更多專業化能力，比如接入外部知識庫，增加搜索或特定領域工具的能力。就像人類一樣，很多能力也不夠，但我們可以使用工具來把我們的能力放大，比如記憶不夠，可以通過查詞典、使用搜索引擎。對MOSS也是一樣。如果它本身的知識量不是那么大，我們就要想其他方法，讓它更善于使用各種各樣的工具，從而為各行各業賦能。這個可能是我們未來會和ChatGPT最主要的差異。

MOSS團隊工作中。戚心茹、寸菲/攝

“我很樂觀，通用人工智能由科幻步入現實，應該不會很遠”

記者：您認為中國版ChatGPT模型建設的必要性和價值在哪里？

邱錫鵬：首先，從大的方向來看，像ChatGPT模型，它并不向中國內地開放。中國要想站在大型語言模型或者將來的通用人工智能等技術的最前沿，就必須要建設自己的語言模型基座。其次，國外開發者不太可能以中文為主去發展他們的模型，他們的發展重點還是在英文上。那么，我們要想開發一個大型語言模型的基座，用于國內的信息處理，特別是中文信息處理，就必須建設一個中文能力非常強的大型語言模型。

記者：MOSS的優化會包括哪些方面？團隊對MOSS模型的近期目標和最終期待分別是什么？

邱錫鵬：未來，MOSS的優化將會圍繞三方面展開。第一，我們會準備更高質量的中文數據；第二，我們會開放接口，讓MOSS與人類進行對話，收集更多的對話數據；第三，我們會進一步加大投入，擴大它的參數規模，如果MOSS的參數規模能夠上升到500億或者1000億，它的能力就又會大幅提升。

近期的目標，是希望MOSS成為國內技術比較領先的對話式語言模型。我們希望能堅持做一個不為利潤所驅使的研究機構，把研究成果無償地分享給學術界，也在合法合規的前提下把研究成果開放給業界，讓他們去做定制化或者在特殊領域的應用。下一步進行順利的話，我們會于3月底左右開源。

更多與 “聰明的小孩”確實有“ChatGPT那味兒” 相關的新聞

“聰明的小孩”確實有“ChatGPT那味兒”

原文地址：http://news.sciencenet.cn/htmlnews/2023/3/495355.shtm前不久，復旦大學計算機科學技術學院邱錫鵬團隊發布類ChatGPT模型MOSS的新聞迅......