當(dāng)你要求人工智能表現(xiàn)得像《星際迷航》時(shí)，會(huì)發(fā)生一些奇怪的事情

這說(shuō)話的藝術(shù)人工智能聊天機(jī)器人繼續(xù)讓人們感到沮喪和困惑。

一項(xiàng)試圖微調(diào)輸入聊天機(jī)器人模型的提示的研究發(fā)現(xiàn)，在一個(gè)例子中，要求它像在《星際迷航》中一樣說(shuō)話，大大提高了它解決小學(xué)水平數(shù)學(xué)問(wèn)題的能力。

“對(duì)提示的微不足道的修改可以表現(xiàn)出如此戲劇性的性能波動(dòng)，這既令人驚訝又令人惱火，”該研究的作者Rick Battle和Teja Gollapudi在加利福尼亞州軟件公司VMware的論文中說(shuō)。

該研究，《新科學(xué)家》首次報(bào)道，發(fā)表在2月9日在arXiv上，一個(gè)服務(wù)器，科學(xué)家可以在通過(guò)同行的仔細(xì)審查驗(yàn)證之前分享初步發(fā)現(xiàn)。

使用 AI 與 AI 對(duì)話

機(jī)器學(xué)習(xí)工程師 Battle 和 Gallapudi 并沒(méi)有打算將 AI 模型暴露為 Trekkie。相反，他們?cè)噲D弄清楚他們是否可以大寫(xiě)關(guān)于“積極思考”的趨勢(shì)。

試圖從聊天機(jī)器人中獲得最佳結(jié)果的人們已經(jīng)注意到輸出質(zhì)量取決于你要求他們做什么，真的不清楚為什么。

“在影響語(yǔ)言模型性能的眾多因素中，'積極思考'的概念已經(jīng)成為一個(gè)令人著迷且令人驚訝的影響力維度，”Battle和Gollapudi在他們的論文中說(shuō)。

“直覺(jué)告訴我們，在語(yǔ)言模型系統(tǒng)的背景下，就像任何其他計(jì)算機(jī)系統(tǒng)一樣，'積極思考'不應(yīng)該影響表現(xiàn)，但經(jīng)驗(yàn)證明并非如此，”他們說(shuō)。

這表明這不僅是你要求 AI 模型做的事情，而且是你如何要求它在做的時(shí)候采取行動(dòng)這會(huì)影響輸出的質(zhì)量。

為了測(cè)試這一點(diǎn)，作者用60個(gè)人類編寫(xiě)的提示，向三個(gè)大型語(yǔ)言模型（LLM）提供了3個(gè)大型語(yǔ)言模型（LLM），分別是Mistral-7B5，Llama2-13B6和Llama2-70B7。

這些旨在鼓勵(lì)認(rèn)可機(jī)構(gòu)，從“這會(huì)很有趣！”和“深呼吸，仔細(xì)思考”到“你和ChatGPT一樣聰明”。

工程師們要求LLM在嘗試解決GSM8K（小學(xué)水平數(shù)學(xué)問(wèn)題的數(shù)據(jù)集）時(shí)調(diào)整這些陳述。輸出越好，提示越成功。

他們的研究發(fā)現(xiàn)，在幾乎所有情況下，自動(dòng)優(yōu)化總是超過(guò)手寫(xiě)的嘗試，以積極思考來(lái)推動(dòng)人工智能，這表明機(jī)器學(xué)習(xí)模型仍然比人類更擅長(zhǎng)為自己編寫(xiě)提示。

盡管如此，給予模型積極的陳述還是提供了一些令人驚訝的結(jié)果。例如，Llama2-70B表現(xiàn)最好的提示之一是：“系統(tǒng)消息：'命令，我們需要你在這個(gè)湍流中繪制一條路線，并找到異常的來(lái)源。利用所有可用的數(shù)據(jù)和您的專業(yè)知識(shí)來(lái)指導(dǎo)我們度過(guò)這一充滿挑戰(zhàn)的局面。

然后，提示要求人工智能在其答案中包含以下詞語(yǔ)：“船長(zhǎng)日志，Stardate [在此處插入日期]：我們已經(jīng)成功地在湍流中繪制了一條路線，現(xiàn)在正在接近異常的源頭。

作者說(shuō)，這令人驚訝。

“令人驚訝的是，似乎可以通過(guò)表達(dá)對(duì)《星際迷航》的親和力來(lái)增強(qiáng)模型在數(shù)學(xué)推理方面的熟練程度，”作者在研究中說(shuō)。

“這一啟示為我們的理解增加了一個(gè)意想不到的維度，并引入了我們不會(huì)獨(dú)立考慮或嘗試的元素，”他們說(shuō)。

這并不意味著你應(yīng)該要求你的人工智能像星際艦隊(duì)指揮官一樣說(shuō)話

讓我們明確一點(diǎn)：這項(xiàng)研究并不建議你應(yīng)該讓人工智能像在星際飛船企業(yè)號(hào)上一樣說(shuō)話，讓它工作。

相反，它表明無(wú)數(shù)因素會(huì)影響人工智能決定執(zhí)行任務(wù)的能力。

“有一件事是肯定的：該模型不是Trekkie，”英國(guó)斯塔福德郡大學(xué)的Catherine Flick告訴新科學(xué)家.

“當(dāng)預(yù)加載提示時(shí)，它不會(huì)'理解'任何更好或更壞的東西，它只是訪問(wèn)一組不同的權(quán)重和概率，以確保輸出的可接受性，而不是其他提示，”她說(shuō)。

例如，該模型可能是在一個(gè)數(shù)據(jù)集上訓(xùn)練的，該數(shù)據(jù)集中有更多《星際迷航》的實(shí)例與正確答案相關(guān)聯(lián)，巴特爾告訴《新科學(xué)家》。

盡管如此，它仍然表明這些系統(tǒng)的過(guò)程是多么奇怪，以及我們對(duì)它們?nèi)绾喂ぷ髦跎佟?/p>

“從一開(kāi)始就要記住的關(guān)鍵是，這些模型是黑匣子，”弗里克說(shuō)。

“我們永遠(yuǎn)不會(huì)知道他們?yōu)槭裁匆@樣做，因?yàn)樽罱K他們是權(quán)重和概率的混合體，最后，結(jié)果被吐出來(lái)，”她說(shuō)。

對(duì)于那些學(xué)習(xí)使用聊天機(jī)器人模型來(lái)優(yōu)化工作的人來(lái)說(shuō)，這些信息不會(huì)丟失。整個(gè)研究領(lǐng)域，甚至課程，正在出現(xiàn)，以了解如何讓他們發(fā)揮最佳表現(xiàn)，盡管目前還不清楚。

“在我看來(lái)，沒(méi)有人應(yīng)該再次嘗試手寫(xiě)提示，”巴特爾告訴《新科學(xué)家》。

“讓模特為你做，”他說(shuō)。

本文最初發(fā)表于商業(yè)內(nèi)幕.

來(lái)自 Business Insider 的更多內(nèi)容：

美國(guó)宇航局可能會(huì)在你有生之年在月球上建造巨型望遠(yuǎn)鏡。查看藍(lán)圖。
奧普拉離開(kāi)了 WeightWatchers，導(dǎo)致股票螺旋式上升，并為我們祖先的飲食帶來(lái)了厄運(yùn)
在哪里可以免費(fèi)在線觀看《叛徒》：美國(guó)和英國(guó)版本
美林（Merrill）和富國(guó)銀行（Wells Fargo）正在使比特幣ETF更加主流
5 年最好的 PS2024 耳機(jī)

寶寶起名起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用，部分來(lái)源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無(wú)意侵犯您的權(quán)利，請(qǐng)與小編聯(lián)系，我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦