一夜200萬閱讀，OpenAI神同步，這項測評框架讓全球頂尖LLM全翻車

中國團隊領銜發布論文，引發全球關注

一篇由中國團隊領銜、聯合全球24所頂尖高校機構發佈的論文，聚焦於評估大語言模型（LLMs）在科學發現中的能力，已在外網刷屏，僅一夜閱讀量即突破200萬。

該團隊由MIT博士回國創業後組建，並攜手全球頂尖學術機構共同參與，展現強大的跨領域合作能力。

此測評框架被認為極具突破性，不僅揭示了大語言模型在科學應用中的潛力，也導致全球頂尖LLM在實際測試中表現失常，被稱為「全翻車」。

該論文已獲新智元、36氪、智源社區等多個國際媒體與社群平臺廣泛報導，並引發對AI如何助力科學發現的熱烈討論。