一夜200萬閱讀,OpenAI神同步,這項測評框架讓全球頂尖LLM全翻車
中國團隊領銜發布論文,引發全球關注
一篇由中國團隊領銜、聯合全球24所頂尖高校機構發佈的論文,聚焦於評估大語言模型(LLMs)在科學發現中的能力,已在外網刷屏,僅一夜閱讀量即突破200萬。
團隊背景與合作規模
該團隊由MIT博士回國創業後組建,並攜手全球頂尖學術機構共同參與,展現強大的跨領域合作能力。
測評框架的影響
此測評框架被認為極具突破性,不僅揭示了大語言模型在科學應用中的潛力,也導致全球頂尖LLM在實際測試中表現失常,被稱為「全翻車」。
媒體與社群廣泛報導
該論文已獲新智元、36氪、智源社區等多個國際媒體與社群平臺廣泛報導,並引發對AI如何助力科學發現的熱烈討論。
