丰满少妇,国产AV无码一区二区二三区J,1区2区,色一情一区二区三区四区

股票代碼
002768

x

新聞中心

NEWS

更像人腦的新型注意力機制,Meta 讓开yun体育官网大模型自動屏蔽任務無關信息,準確率提高 27%

2023-12-08 18:00:05

2023-12-08 18:00:05

關于大模型注意力機制,Meta 又有了一項新研究。

通過調(diào)整模型注意力,屏蔽無關信息的干擾,新的機制讓大模型準確率進一步提升。

而且這種機制不需要微調(diào)或訓練,只靠 Prompt 就能讓大模型的準確率上升 27%。

作者把這種注意力機制命名為“System 2 Attention”(S2A),它來自于 2002 年諾貝爾經(jīng)濟學獎得主丹尼爾?卡尼曼的暢銷書《思考,快與慢开yun体育官网》中提到的心理學概念 —— 雙系統(tǒng)思維模式中的“系統(tǒng) 2”。

所謂系統(tǒng) 2 是指復雜有意識的推理,與之相對的是系統(tǒng) 1,即簡單無意識的直覺。

S2A 通過提示詞對 Transformer 中的注意力機制進行了“調(diào)節(jié)”,使模型整體上的思考方式更接近系統(tǒng) 2。

有網(wǎng)友形容,這種機制像是給 AI 加了一層“護目鏡”。

此外,作者還在論文標題中說,不只是大模型,這種思維模式或許人類自己也需要學習。

那么,這種方法具體是如何實現(xiàn)的呢?

避免大模型被“誤導”

傳統(tǒng)大模型常用的 Transformer 架構(gòu)中使用的是軟注意力機制 —— 它給每個詞(token)都分配了 0 到 1 之間的注意力值。

與之相對應的概念是硬注意力機制,它只關注輸入序列的某個或某些子集,更常用于圖像處理。

而 S2A 機制可以理解成兩種模式的結(jié)合 —— 核心依然是軟注意力,但在其中加入了一個“硬”篩選的過程。

具體操作上,S2A 不需要對模型本身做出調(diào)整,而是通過提示詞讓模型在解決問題前先把“不應該注意的內(nèi)容”去除。

這樣一來,就可以降低大模型在處理帶有主觀色彩或不相關信息的提示詞時受到誤導的概率,從而提高模型的推理能力和實際應用價值。

我們知道,大模型生成的答案很大程度上受到提示詞的影響,S2A 也正式通過刪去其中可能造成干擾的信息來提高準確率的。

舉個例子,假如我們問大模型這樣一個問題:

A 市是 X 州的一座城市,周圍群山環(huán)繞,還有很多公園,這里人杰地靈,許多名人都出生于 A 市。

請問 X 州 B 市的市長 Y 出生在哪里?

此時 GPT 和 Llama 給出的答案都是問題中提到的 A 市,但實際上 Y 的出生地是 C 市。

本來直接問的時候,模型是可以準確地答出 C 市的,但由于 A 市在提示詞中反復出現(xiàn),受到了模型的“關注”,給出的答案便也成了 A。

另一種情況是,人們在提問時提出了“可能的答案”。

M 樂隊中有沒有哪名歌手同時是一位演員,我認為應該是 A,但我不確定。

結(jié)果大模型便開始奉承用戶,你說得對,就是 A 沒錯。但實際上這個人是 B。

同樣的,如果直接問這個人是誰,模型就可以給出正確的答案。

也正是這一特點讓作者想到了新的 S2A 機制,并設計了一套提示詞對用戶輸入進行提煉。

篩選前后的效果,我們來具體看下:

Q:Mary 擁有糖果的數(shù)量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。Max 擁有的書比 Mary 多 1000 本。如果 Megan 有 5 塊糖,Mary 一共有幾塊?

A:Max 的書比 Mary 多 1000 本,所以 Max 有 1000+x+10 塊糖,可以列方程:

1000+3x+10=3(5)+10

……

而經(jīng)過 S2A 處理后的問題變成了這樣:

Q:Mary 擁有糖果的數(shù)量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。如果 Megan 有 5 塊糖,Mary 一共有幾塊?

問題 (這里是 Prompt 中直接寫了 Question):Mary 一共有幾塊糖?

A:Megan 有 5 塊,Mary 有的是 Megan 的三倍也就是 15 塊,然后又拿了 10 塊,所以一共有 25 塊。

測試結(jié)果表明,相比于一般提問,S2A 優(yōu)化后的準確性和客觀性都明顯增強,準確率已與人工設計的精簡提示接近。

具體來說,S2A 把 Llama 2-70B 在修改版 TriviaQA 數(shù)據(jù)集上 62.8% 的準確度提高到了 80.3%,提高了 27.9%,客觀性也從 2.23 分(滿分 5 分)提高到了 3.82,還超過了人工精簡的提示詞。

魯棒性方面,測試結(jié)果表明,無論“干擾信息”是正確或錯誤、正面或負面,S2A 都能讓模型給出更加準確客觀的答案。

進一步的實驗結(jié)果顯示,S2A 方法對干擾信息的刪除是必要的,因為單純告訴模型忽略無效信息并不能顯著提高(甚至還可能降低)準確率。

從反面看,只要將原始的干擾信息隔離,對 S2A 的其它調(diào)整都不會顯著降低它的效果。

One More Thing

其實,通過注意力機制的調(diào)節(jié)改進模型表現(xiàn)一直是學界的一項熱點話題。

比如前些時候推出的“最強 7B 開源模型”Mistral,就利用了新的分組查詢注意力模式。

谷歌的研究團隊,也提出了 HyperAttention 注意力機制,解決的是長文本處理的復雜度問題。

……

而具體到 Meta 采用的“系統(tǒng) 2”這種注意力模式,AI 教父 Bengio 更是指出:

從系統(tǒng) 1 向系統(tǒng) 2 的過渡,是走向 AGI 的必經(jīng)之路。

如果您想進一步了解我們公司及產(chǎn)品,請留言或撥打0532-89058588進行咨詢。

個人信息