為什ChatGPT這么火,ChatGPT優勢是什么怎么體驗
為什ChatGPT這么火,他的優勢是什么?ChatGPT 也是創業公司和企業家應該已經知道的事情的最佳表達:生成人工智能的淘金熱將由開發新穎的、防御性的業務驅動,圍繞它的出現方式,而不是引擎蓋下的內容。
對于那些在該領域從事大量重點工作的人來說,這可能不是什么秘密,但是當涉及到生成 AI 時,很快就會發現,用戶與生成模型和系統的交互方式至少與底層訓練和推理同樣重要技術。最新的,也是我認為最好的例子,來自 OpenAI 的ChatGPT,它作為免費研究預覽發布,任何人都可以在本周試用。(PS:大家想體驗一下可以下載這款軟件玩玩)
如果您還沒有看到圍繞 ChatGPT 的熱議,它基本上是他們新的 GPT-3.5 自然語言生成技術的實現,但實現方式是您只需在網絡瀏覽器中與它聊天,就好像您在偷懶一樣同事或與網站上的客戶支持代理互動。
OpenAI 已經憑借其 DALL-E 圖像生成技術掀起了波瀾,其 GPT 系列在每次連續發布時都引起了人們的關注(偶爾也會引起作者的生存恐懼)。但最新的聊天式迭代似乎擴大了它的吸引力和受眾,在某些方面將對話從“哇,本科生將使用它來提交糟糕但可行的學期論文”轉變為“哇,這實際上可以幫助我調試代碼我打算投入生產。”
到目前為止的例子似乎表明,它實際上在術語紙上做得更好,但在避免 AI 聊天機器人的一些典型陷阱(包括將錯誤信息作為事實呈現)方面,它仍有工作要做。但顯然它的參與度很高,人們對 ChatGPT 的印象似乎比對 GPT-3 的印象更深刻,至少(盡管這部分是因為它是一個新版本,具有改進的核心推理技術以及新的交互范式)。
我自己的例子來說明為什么我認為它如此強大是及時的,如果平凡的話:我要求 ChatGPT 為我提供所有各種神奇寶貝類型的優點和缺點,它提供的正是我一直希望每次我進入 Tera Raid 時谷歌都會提供的東西在新的 Pokémon Scarlet 游戲中,必須嘗試記住什么反制什么。
也就是說:請注意,我對我的查詢一點也不感興趣;它盡可能簡單,同時仍然清楚我的要求。結果正是我要找的東西——而不是一個列表,如果我愿意投入時間,這些東西可能會幫助我找到我正在尋找的東西。
像 OpenAI 的 ChatGPT 這樣的東西最終取代像谷歌這樣的搜索引擎的潛力并不是一個新想法,但是 OpenAI 的底層技術的交付是迄今為止最接近于它在一個完全充實的系統中實際工作的方式,它應該有谷歌害怕。
我們使用與InstructGPT相同的方法,使用來自人類反饋的強化學習 (RLHF) 來訓練該模型,但數據收集設置略有不同。我們使用監督微調訓練了一個初始模型:人類 AI 訓練員提供對話,他們在對話中扮演雙方——用戶和 AI 助手。我們讓培訓師可以訪問模型編寫的建議,以幫助他們撰寫回復。我們將這個新的對話數據集與 InstructGPT 數據集混合,我們將其轉換為對話格式。
為了創建強化學習的獎勵模型,我們需要收集比較數據,其中包含兩個或多個按質量排序的模型響應。為了收集這些數據,我們收集了 AI 培訓師與聊天機器人的對話。我們隨機選擇了一條模型編寫的消息,抽取了幾個備選的完成方式,并讓 AI 培訓師對它們進行排名。使用這些獎勵模型,我們可以使用近端策略優化來微調模型。我們對這個過程進行了幾次迭代。
限制
ChatGPT 有時會寫出看似合理但不正確或荒謬的答案。解決這個問題具有挑戰性,因為
(1)在 RL 訓練期間,目前沒有真實來源;
(2)訓練模型更加謹慎導致它拒絕可以正確回答的問題;
(3)監督訓練會誤導模型,因為理想的答案取決于模型知道什么,而不是人類演示者知道什么。
ChatGPT 對輸入措辭的調整或多次嘗試相同的提示很敏感。例如,給定一個問題的措辭,模型可以聲稱不知道答案,但只要稍作改寫,就可以正確回答。
該模型通常過于冗長并過度使用某些短語,例如重申它是 OpenAI 訓練的語言模型。這些問題源于訓練數據的偏差(訓練者更喜歡看起來更全面的更長答案)和眾所周知的過度優化問題。
理想情況下,當用戶提供模棱兩可的查詢時,模型會提出澄清問題。相反,我們當前的模型通常會猜測用戶的意圖。
雖然我們已努力使模型拒絕不當請求,但它有時會響應有害指令或表現出有偏見的行為。我們正在使用Moderation API來警告或阻止某些類型的不安全內容,但我們預計它目前會有一些漏報和漏報。我們渴望收集用戶反饋,以幫助我們正在進行的改進該系統的工作。