• <table id="ceegc"></table>
  • <td id="ceegc"><option id="ceegc"></option></td>
  • <optgroup id="ceegc"></optgroup>
  • <td id="ceegc"></td>
  • <table id="ceegc"></table>
  • 發布時間:2023-06-20 21:50 原文鏈接: 實測得分超ChatGPT!百度文心大模型3.5版內測應用

    原文地址:http://news.sciencenet.cn/htmlnews/2023/6/503256.shtm

    6月20日消息,據內部人士透露,百度文心大模型3.5版本已內測可用。早在5月末中關村論壇上,百度創始人、董事長兼CEO李彥宏透露,百度大模型產品“文心一言”的“母本”將迎來3.5版本,距今時隔不到一個月。 最新版本文心大模型達到了怎樣的實力?在公開測試集上進行的基礎模型少樣本(Few-Shot)評測顯示,文心大模型3.5(ERNIE 3.5)在多個測試集的得分已超過ChatGPT。

    三大評測基準綜合評估 

    上萬道考題“統考”主流大模型 

    為驗證主流大模型的各項綜合能力,評測在AGIEval、C-Eval和MMLU三個權威評測基準上進行綜合評估。 AGIEval評測基準是微軟研究院發布的、專門用于評估模型在“以人為本”的標準化考試中表現水平的測試集。該基準選取20種面向普通人類考生的官方、公開、高標準的資格考試,包括普通大學入學考試(如中國的高考和美國的SAT考試)、司法考試、數學競賽、律師資格考試、國家公務員考試以及美國的GRE、GMAT等。 C-Eval評測基準是由上海交通大學、清華大學以及愛丁堡大學聯合創制和發布的中文基礎模型評測集。它包含13948個多項選擇題、涵蓋52個不同的學科,設置了四個難度級別,是面向中文語言模型的綜合考試評測集。 MMLU是伯克利大學、哥倫比亞大學、伊利諾伊大學厄巴納-香檳分校和芝加哥大學聯合發布的一種大規模多任務語言理解的基準測試,用于衡量模型的英文跨學科專業能力。該測試包含57個科目,涵蓋STEM、人文、社會科學等。

    除了文心大模型3.5,評測的模型還有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。評測可以看出大模型在能力上的優劣,同時對模型的迭代發展也有著很強的指導作用。

    評測結果:

    文心大模型3.5中文能力超GPT-4,綜合能力超ChatGPT

    在AGIEval、C-Eval等中英文權威測試集和MMLU英文權威測試集中,國產文心大模型3.5取得了超過ChatGPT和LLaMa、ChatGLM等其他大模型的分數表現,在中文評測項中超越了GPT-4。

    在中文AGIEval評測中,文心大模型3.5得分64.37,遠超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B,同時還超過了 ChatGPT的40.27分和 GPT-4的56.96分,位居第一。AGIEval評測英文部分中,GPT-4得分65.55居于首位,文心大模型3.5得分錄得 50.59分,僅次于GPT-4。緊隨其后的是ChatGPT錄得48.75分。 在中文C-Eval評測中,文心大模型3.5測出71.93的最高得分,不僅高于ChatGPT的51.70分,還略高于GPT-4的68.57分,領先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。 在英文MMLU測試中,GPT-4和ChatGPT的表現較好,分別以82.47分和68.85分領先于其他大模型。文心大模型3.5得分65.10緊隨其后,優于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分數。 從上述評測得分來看,文心大模型3.5版中文能力突出,甚至有超出 GPT-4 的表現;綜合能力稍遜于GPT-4,但已經在評測中超過了 ChatGPT,遠遠領先于其他開源大模型。

    國產大模型中文能力優勢突出 

    綜合能力加速縮小差距

    盡管市面上有多個大模型橫空出世,但大模型研發門檻高、難度大、投入高,依賴算力、數據等綜合支撐的現實不容忽視。在推動大模型產業化的路上,中國企業如何在大模型發展過程中發揮所長優勢,加速縮小差距? 中國工程院院士鄔賀銓曾在接受采訪時表示,中國企業在獲得中文語料和對中國文化的理解方面比外國企業有天然的優勢,中國制造業門類最全,具有面向實體產業訓練產業AIGC的有利條件。同時,在算力方面中國已具有較好的基礎。 以百度文心大模型3.5為例,與3.0版本相比,通過各項算法和數據的優化,尤其是百度首創的知識增強和檢索增強技術的優化,新版本文心大模型在各項能力上均有明顯提升。據了解,百度人工智能四層架構的端到端優化,尤其是框架和模型層的協同優化,讓文心大模型訓練速度、模型效果加速提升。 創新工場董事長兼CEO李開復也曾公開表示“中國擁有豐富的中文語料和龐大的市場,通過發展AI大模型,中國可以推動創新產業的發展,實現科技與經濟的雙重紅利。而且中國擁有龐大基數的年輕工程師和最堅韌的企業家,為發展AI大模型提供了強大的人才支持,技術領先、策略靈活、市場反應快、能打硬仗、落地執行力強,將是中國大模型公司的成功關鍵。”

    相關文章

    內燃機行業四大創新平臺在天津成立

    4月19日,內燃動力全國重點實驗室聯盟、中國內燃機學會京博吉大聯合實驗室、中國內燃機學會氨發動機創新聯合體、中國內燃機學會氫發動機創新聯合體的揭牌儀式在天津舉行,這是中國內燃機產學研融合協同發展的重要......

    直播預告|香港城市大學副教授于欣格主旨報告

    直播時間:2024年4月19日(周五)20:00-21:30直播平臺:科學網APP(科學網微博直播間鏈接)科學網微博科學網視頻號北京時間2024年4月19日晚八點,iCANXTalks第182期邀請到......

    直播預告|2024年中國醫學發展大會

    直播時間:2024年4月20日(周六)10:00——12:00直播平臺:科學網APP(科學網微博直播間鏈接)科學網微博科學網視頻號【直播簡介】......

    關于批準江蘇星河閥門有限公司變更民用核安全設備設計和制造許可活動范圍的通知

    名稱關于批準江蘇星河閥門有限公司變更民用核安全設備設計和制造許可活動范圍的通知索引號000014672/2024-00158分類核設施安全監管發布機關國家核安全局生成日期2024-04-09文號國核安......

    關于頒發《江蘇徐圩核能供熱廠一期工程場址選擇審查意見書》的通知

    名稱關于頒發《江蘇徐圩核能供熱廠一期工程場址選擇審查意見書》的通知索引號000014672/2024-00159分類核電廠安全監管發布機關國家核安全局生成日期2024-04-17文號國核安發〔2024......

    關于公開征求國家生態環境標準《機場周圍航空噪聲監測技術規范(征求意見稿)》意見的通知

    名稱關于公開征求國家生態環境標準《機場周圍航空噪聲監測技術規范(征求意見稿)》意見的通知索引號000014672/2024-00160分類大氣環境管理發布機關生態環境部辦公廳生成日期2024-04-1......

    第三屆中國腐蝕控制技術與產業發展論壇即將舉行

    記者獲悉,以“腐蝕控制助力高質量發展”為主題的第三屆中國腐蝕控制技術與產業發展論壇暨世界腐蝕日(中國區)活動將于4月23日至26日在廣州舉行。屆時,相關院士專家、學者將齊聚一堂,共話腐蝕控制技術發展前......

    廣東省科學院與廣州醫科大學簽署戰略合作協議

    近日,廣東省科學院與廣州醫科大學簽署戰略合作協議,并共同為“粵港澳大灣區戰略研究院衛生健康及診療政策研究中心”“廣州醫科大學 廣東省科學院研究生聯合培養基地”揭牌。簽約現場。廣東省科學院供圖......

    “動批”變身金融科技中心,北京營造創新生態

    曾經熙熙攘攘的批發市場,如今改造成8個金融科技主題樓宇。位于北京市西城區的動物園批發市場(以下簡稱“動批”)不僅完成“騰籠換鳥”,還成功實現高質量發展。位于北京市海淀區清華大學東南門的斜對面,有一座不......

    醫療影像國家新一代人工智能開放創新平臺建成

    記者獲悉,歷時3年建設的“醫療影像國家新一代人工智能開放創新平臺”,日前正式通過科技部高技術研究發展中心的綜合績效評價,標志著我國醫療影像AI實現了從“實驗室”科研到“醫院”臨床應用的全鏈路貫通。這項......

  • <table id="ceegc"></table>
  • <td id="ceegc"><option id="ceegc"></option></td>
  • <optgroup id="ceegc"></optgroup>
  • <td id="ceegc"></td>
  • <table id="ceegc"></table>
  • www.mitao95.com