陶哲軒支持!AI 奧林匹克數(shù)學(xué)獎(jiǎng)來(lái)了开yun体育官网,獎(jiǎng)金 500 萬(wàn)美元,尋找能得 IMO 金牌的大模型
2023-12-11 10:00:40
2023-12-11 10:00:40
專(zhuān)門(mén)為 AI 設(shè)立的 IMO 國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽來(lái)了 ——
獎(jiǎng)金足足 1000 萬(wàn)美元那種!
該比賽號(hào)稱(chēng)要“代表新的圖靈測(cè)試”,怎么比?
和人類(lèi)最聰明的數(shù)學(xué)小天才們正面 PK,拿到同樣標(biāo)準(zhǔn)的金牌。
可別小看這一賽事,就連數(shù)學(xué)大牛陶哲軒都來(lái)了,并在官網(wǎng)傾力推薦:
這個(gè)比賽提供了一套鑒別 AI 解決問(wèn)題策略的基準(zhǔn),而這正是我們現(xiàn)在需要的。
消息一出,網(wǎng)友們是相當(dāng)興奮。
如 IMO 主席所說(shuō):到底哪個(gè)大模型能和世界上最聰明的一波年輕人相媲美?
所謂“重賞之下,必有勇夫”,有著自己路數(shù)的 AI 也著實(shí)令人期待。
AI 參賽 IMO,最高拿 500 萬(wàn)美元
這項(xiàng)比賽的簡(jiǎn)稱(chēng) AI-MO。
它的初衷就是推動(dòng)大語(yǔ)言模型的數(shù)學(xué)推理能力,鼓勵(lì)開(kāi)發(fā)能夠匹配人類(lèi)數(shù)學(xué)最高水平(IMO 競(jìng)賽)的新 AI 模型。
為什么選 IMO 為基準(zhǔn)?
IMO 的題目一般分為代數(shù)、幾何、數(shù)論和組合數(shù)學(xué)四大類(lèi),不需要高等數(shù)學(xué)知識(shí),但需要參賽者有正確的思維方式和數(shù)學(xué)素養(yǎng)。
統(tǒng)計(jì)顯示,其金牌獲得者奪得菲爾茲獎(jiǎng)的可能性是普通劍橋博士畢業(yè)生的 50 倍。
此外,有一半的菲爾茲獎(jiǎng)獲得者曾參加過(guò) IMO 競(jìng)賽。
基于該比賽,這項(xiàng)專(zhuān)門(mén)為 AI 舉辦的 AI-MO 大賽將于 2024 年初開(kāi)放。
組委會(huì)要求,參加的 AI 模型必須和人類(lèi)選手采用相同的格式處理題目,并且必須生成人類(lèi)可讀的最終答案,然后由專(zhuān)家小組使用 IMO 標(biāo)準(zhǔn)對(duì)其進(jìn)行評(píng)分。
比賽結(jié)果將隨明年 7 月在英國(guó)巴斯舉行的第 65 屆 IMO 大會(huì)一同揭曉。
最終,達(dá)到金牌水平的 AI 將獲得 500 萬(wàn)美元的大獎(jiǎng)。
剩开yun体育官网余“實(shí)現(xiàn)了關(guān)鍵里程碑”的 AI 模型們則瓜分剩下的進(jìn)步獎(jiǎng),總金額也是 500 萬(wàn)美元。
值得一提的是,為了拿到獲獎(jiǎng)資格,參賽者必須遵守 AI-MO 公共共享協(xié)議,也就是獲獎(jiǎng)模型必須得開(kāi)源。
至于具體的規(guī)則,組委會(huì)還在商議中,以及目前官方還在招募顧問(wèn)委員會(huì)成員(特別需要數(shù)學(xué)家、AI 和機(jī)器學(xué)習(xí)專(zhuān)家)和領(lǐng)導(dǎo)這項(xiàng)比賽的總監(jiān),都是付費(fèi)的且可以完全遠(yuǎn)程,不知道哪些大佬會(huì)加入。
不過(guò)需要注意的是,AI-MO 并非 IMO 官方發(fā)起的比賽。
其真正的發(fā)起機(jī)構(gòu)是 XTX Markets,一家位于英國(guó)倫敦、搞機(jī)器學(xué)習(xí)量化交易的非銀行金融機(jī)構(gòu)。
別的不說(shuō),XTX Markets 主打一個(gè)豪氣。
它還在去年和牛津大學(xué)一起設(shè)立了一個(gè)專(zhuān)門(mén)鼓勵(lì)女學(xué)生研究數(shù)學(xué)的獎(jiǎng)學(xué)金。
而對(duì)于比賽本身,有網(wǎng)友也開(kāi)始了一波猜測(cè):哪個(gè) AI 模型最有希望?
帶 Wolfram 插件的 GPT-4 第一個(gè)被拎出來(lái),不過(guò)它也最先被潑了冷水。
但,它背后的 OpenAI 還是被人看好(盡管大型科技公司并不是該比賽的目標(biāo)受眾)。
有悲觀的網(wǎng)友則直接斷言:
比賽是挺酷的,但五年內(nèi)應(yīng)該沒(méi)有誰(shuí)能做到。
與此同時(shí),有人也認(rèn)為:
訓(xùn)練出這樣一個(gè)模型并不算難,難的是獲取和處理數(shù)據(jù),畢竟這些題目不單單涉及文本,還包括很多復(fù)雜含義的圖像和符號(hào)。
一切皆等 2024 年揭曉。
值得一提的是,AI-MO 并非第一場(chǎng) AI 挑戰(zhàn) IMO 的比賽。
2019 年,OpenAI、微軟、斯坦福大學(xué)和谷歌等高校機(jī)構(gòu)的幾位研究人員,就已經(jīng)發(fā)起過(guò)一場(chǎng)名為 IMO Grand Challenge 的比賽了。
此前挑戰(zhàn)尚未有人成功
IMO Grand Challenge,同樣是為了找到能拿下 IMO 金牌的 AI 而設(shè)立的比賽。
來(lái)看看這場(chǎng)數(shù)學(xué)比賽為 AI 設(shè)立的 5 點(diǎn)規(guī)則:
關(guān)于格式。為了確保證明過(guò)程的嚴(yán)謹(jǐn)性和可驗(yàn)證性,問(wèn)題和證明都需要通過(guò)形式化(formal,機(jī)器可驗(yàn)證)的方式來(lái)完成。
也就是說(shuō),IMO 問(wèn)題會(huì)通過(guò) Lean 定理證明器,將問(wèn)題轉(zhuǎn)變成基于 Lean 編程語(yǔ)言的表達(dá)輸入給 AI,AI 同樣需要用 Lean 編程語(yǔ)言寫(xiě)出證明。
關(guān)于得分。AI 的每個(gè)證明題都會(huì)在 10 分鐘內(nèi)被判斷對(duì)錯(cuò),因?yàn)檫@也是 IMO 裁判評(píng)分的時(shí)間。與人類(lèi)不同,AI 沒(méi)有“部分得分”這一說(shuō)法。
關(guān)于資源。和人類(lèi)一樣,AI 每天需要用 4.5 小時(shí)解決 3 道題(共比賽兩天),計(jì)算資源沒(méi)有限制。
關(guān)于可復(fù)現(xiàn)性。AI 必須開(kāi)源,并在 IMO 第一天結(jié)束前公開(kāi)模型、而且可復(fù)現(xiàn)。要求 AI 不能聯(lián)網(wǎng)。
關(guān)于挑戰(zhàn)本身。最大的挑戰(zhàn)是讓 AI 像人類(lèi)一樣獲得金牌