每周有超100萬行代碼在開源AI領域創建

發布時間：2023-06-05 15:05 原文鏈接：每周有超100萬行代碼在開源AI領域創建

·LF AI & Data在2018年開始做AI開源生態系統時，只有大約70個項目被認為是關鍵項目，而現在已經增加到了350個。這些項目提供了超過6億行代碼，可供任何人選擇、使用。

·比如某銀行，全國有八大研發中心，每個中心有N個項目組，每個項目組還有M個外包團隊，在做著N乘以M個并行的軟件項目。一堆人在吭哧吭哧寫代碼，沒有任何交流。

“現在每周有超過100萬行代碼在開源AI領域中被創建，有無數優秀的社區成員做出貢獻，我覺得開源的下一代ChatGPT指日可待。”5月27日，在上海舉辦的2023全球開源技術峰會期間，LF AI & Data基金會執行董事、PyTorch基金會執行董事易卜拉欣·哈達德（Ibrahim Haddad）在接受澎湃科技（www.thepaper.cn）專訪時，談到了大語言模型的開源現狀。

LF AI & Data基金會執行董事、PyTorch基金會執行董事易卜拉欣·哈達德。

開源（OpenSource）即開放源代碼，用戶可以利用源代碼在其基礎上修改和學習。峰會期間，開源中國董事長馬越在接受澎湃科技采訪時談到，用戶基于興趣來到某個開源項目，在源代碼的基礎上不斷改進，在此過程中，一部分優秀項目就會得到發展并商業化。

開源中國董事長馬越在2023全球開源技術峰會上發表演講。

馬越回憶到，開源起源于歐美，中國曾經不是開源的強國，只是開源應用的大國。但如今隨著技術與經濟環境發展，開源不再單純是“為愛發電”的模式，生態已經發生了翻天覆地的變化，如今國內已有多家覆蓋全領域技術內容的綜合社區，且擁有豐富的獎勵機制來維護生態，這個過程中孕育出了許多優秀的開源項目，例如OpenHarmony（鴻蒙操作系統的開源版本）。

談到開發者與開源生態的關系時，馬越指出，“沒有開發者的生態，不能稱其為開源生態，一個不能持續吸引更多開發者的生態，注定也會枯萎。”馬越還表示，數字化轉型的最大阻礙，是代碼沒有成為企業資產，“目前許多企業陷入了‘燈下黑’的狀態，開發了無數代碼，需要修改時，卻找不到對應的內容，這些代碼無法成為企業資產。軟件本質上的核心價值是為了復用，而這正是開源要解決的問題。”

“開源AI項目會誕生下一個ChatGPT”

自聊天機器人ChatGPT及其背后的GPT大模型爆火之后，一些開源大模型也在最近幾個月引起了業界高度關注，包括Meta的LLaMa、復旦大學的MOSS和Databricks的“多莉（Dolly）”等。

在采訪中，哈達德十分肯定，AI相關的開源項目會在未來產生下一個ChatGPT，“開源能夠加速大語言模型（LLM）的開發和創新。”他說，“事實上，許多行業內的組織都意識到，要想實際訓練這些模型，需要太多的數據、太多的精力和太多的云服務。因此，開源方面的協作是必不可少的。在面對復雜問題時，需要許多組織攜手合作，共同應對這些難題。”

哈達德解釋稱，建立一個開源的大語言模型需要很多模塊，“要實現真正的開源，至少需要七八個不同的模塊都以開源形式提供。這需要多個組織共同努力。”

哈達德認為，最重要的模塊是用來訓練的數據集，必須在Linux基金會的開源許可下使用。“我們和成員公司定義這個特定的AI數據開源許可證為CDLA（community data license agreement），公司們可以使用這個許可證來開源數據。”其次是模型架構本身，以及公司用于構建模型的支持工具和庫，還有模型的權重和參數、文檔等。這些都是大模型生態需要以開源形式提供的模塊，它們可以幫助其他人獲取這些信息并運行模型，使用相同的方式和基準進行訓練。通過提供所有這些信息，其他人可以在此基礎上做出貢獻，這也是一種建立信任的方式。

事實上，LF AI & Data正在著手做這件事，該基金會是Linux基金會旗下專注于人工智能、機器學習、深度學習和數據的子基金會。哈達德表示，自2018年成立以來，LF AI & Data一直專注于建立社區和生態。而下一階段，“我們將專注于AI，特別是生成式人工智能。”“人工智能技術的應用潛力巨大，現在很多人對這項全新技術仍然知之甚少，甚至不知道他們正在與人工智能系統或人工智能生成的語音或文本交互。”

哈達德認為開源極大地推進了人工智能的發展，他用幾個關鍵數據舉例稱，LF AI & Data在2018年開始做AI開源生態系統時，只有大約70個項目被認為是關鍵項目，而現在已經增加到了350個。這些項目提供了超過6億行代碼，可供任何人選擇、使用。“現在，每周有超過100萬行代碼在開源AI領域中被創建，可以看到如今AI開發和創新的速度都非常快。”

“開源是數字化轉型的基座”

“市場上有很多公司，他們每天都在競爭。但在開源中，我們一般不會互相競爭。所有公司都走到一起，一起協作，為解決行業挑戰做出貢獻。這是一個非常與眾不同的環境。”哈達德稱，在這個環境中，人人彼此信任，構成了強大的道德基礎，在此基礎上可以構建一種透明的技術發展。

馬越認為，這些憑借興趣聚集的開發者，往往是在“為愛發電”中創造出了優秀的項目和開源生態，而這樣的項目和生態恰恰是數字化轉型的重要基座。“要利用專業平臺把軟件工程數字化這件事做好。開源中國能夠幫助企業把軟件工程的數據資產化沉淀下來，成為公司可審計、可復用的資產。”他說。

馬越指出，現在市場上出現了“燈下黑”的現象，許多企業嘗試數字化轉型，卻沒有注意到本身的軟件工程沒有數字化。“比如某銀行，全國有八大研發中心，每個中心有N個項目組，每個項目組還有M個外包團隊，在做著N乘以M個并行的軟件項目。信息化、數字化轉型最大的投入點就在這里，阻礙也在這里。一堆人在吭哧吭哧寫代碼，沒有任何交流。比如某銀行的一個菜單選項欄，可能重復做過上千遍。”馬越解釋道，軟件本質上的核心價值是為了復用。“數字化底座缺失就造成了復用缺失，不僅銀行菜單使用復雜，審計代碼不能運行，甚至一旦員工離職了，連之前的代碼也追查不到。”

目前，中國開源社區如雨后春筍一般接連冒出。馬越表示，除了開源中國，還有CSDN和51CTO等，而其他較小的垂直社區總計達300個左右。

GitHub 2022年的報告顯示，全球已有超過9400萬開發者用戶，其中70%來自北美之外的地區，而中國開發者占10.3%，有975萬，位居全球第三，GitHub預測2030年中國開發者將成為全球最大的開源群體。

針對國內外開源生態的差距，馬越強調，盡管Gitee（開源中國2013年推出的基于Git的代碼托管和協作開發平臺）目前是世界第二大開源社區，但與國外的開源社區仍然有差距。“目前，我們只能服務1000萬開發者，只擁有2500萬代碼倉，而GitHub可以達到我們力量的八九倍。”但他對未來持樂觀態度，“中國開源迎來了歷史上最好的時機。”他認為，中國目前的力量已經可以為開發者提供一個“起飛的基座”。

“解放天下開發者”

“開發者是開源生態的根基，一個不能持續吸引更多開發者的生態，注定也會枯萎。”馬越指出，“在開源社區，存在著反哺循環，你幫助別人，別人就會回過頭來幫助你，所以在通常情況下，最吸引開發者的點就是‘你可以幫助他’，你可以為他提供最優秀的項目、最好的質量、最廣的場景。”

與過去相比，如今的開源生態已經發生了翻天覆地的變化。哈達德說，“1992年我在大學的時候，甚至很難找到開源網站。”如今，在線上，有開源網站提供各種豐富的知識，有許多社區論壇可以提問；在線下，開源項目舉行很多線下交流活動，把成員們聚在一起討論各種問題。

對于新進入項目社區的開發人員，哈達德表示，與多年前相比，今天的新開發人員更容易獲得知識。Linux基金會提供了很多免費培訓，幫助開發人員學習知識和技能并獲得認證。“從雇主的角度來看，獲得認證非常有價值。當兩個人有相同的技能，其中一個是認證的，認證的人比沒有認證的人有更大機會得到工作。”哈達德說。

另一方面，如何讓開發者愿意參與開源？馬越稱，“解放天下開發者，最重要的是讓他們先獲得財富自由。比如讓他們通過技能贏得物質獎勵，比如幫助他們發展開源項目并實現商業化。”馬越舉例，目前有很多大廠開展黑客松大賽，給優勝者提供真金白銀的獎勵，通過物質利益來吸引更多開發者。

“我們在做一個長尾工程，對我們服務的超過1000萬開發者提供基座服務。”馬越舉例，“在OpenHarmony項目的開發初期，開發者需要將代碼托管在一個中立的第三方平臺，才能獲得大量的開發者流量，并且保證工程基座技術服務質量。而一般平臺很難擁有我們這種積淀10年的巨大的開發者流量與技術服務。雖然OpenHarmony是我們這里最有名的項目，但我們還有其它大量優秀的項目。”

更多與每周有超100萬行代碼在開源AI領域創建相關的新聞

每周有超100萬行代碼在開源AI領域創建

其他網友還關注過

科學家闡明生態系統功能的微生物維持機制

第二屆中國生態系統遙感學術研討會開幕

科學家發現目前最深的化能合成生態系統和甲烷儲庫

研究發現氣候暖干化削弱北方陸地生態系統固碳能力

研究揭示被子植物主導的陸地生態系統階段性演化與現代格局建立的五個階段

探尋人工智能時代平臺生態系統治理的破局之道

植物所揭示多營養級生物多樣性對生態系統多功能性的調控機制

近海生態系統長期變化及穩態轉換研究獲新進展

《自然》：氣候變化或導致海草減少，進而損害生態系統完整性

6年打磨，這項全球性研究挑戰傳統觀點