如何讓 AI 繼續推進特定目標

2026/06/07 00:30
🌐zh-Hant

關鍵不是寫作更長的即時, 而是建立可核查的標準、真正的環境和進步追蹤机制

如何讓 AI 繼續推進特定目標
原名: 指南/目的
原文:@dkundel, OpenAI 開發者關係成員
照片來自Peggy

編輯器 : 這篇文章來自 OpenAI 開發者關係會員 Dominik Kundel, 概述 Codex "goal Mode//goal" 功能的經驗 。 這不關普通的即時技術, Codex不再只是一個應用單輪指令的代碼助手。

在 / 目標 模型中, 寫更長的要求并不重要, 而是要為 Codex 制定清晰且可核查的退出標準 。 例如, 部署時間的30%減少, 這些指示器讓 Codex 可以判斷這項工作是否已完成, 同時, 使用者需要提供足夠的方向、工具和真正的環境, 讓 Codex 可以衡量進度、驗證結果。

特別是這篇文章提醒大家, 而非要求像素水平降低100%, 也有必要透過委員會、公關草案、進展檔案、Slack更新或旁白等。

這篇文章的附加價值是它重新定義/目標為「長期任務管理机制」。 當AI能連續經營數以十數甚至數百個小時, 也就是說, AI編程正在從「寫入提示」走向「管理進行中的專案執行者」。

原文如下:

我們推出目標模式(goal Mode, 或/goal), 當你设定目標時, Codex會一直工作到目標達成——需要數小時,數天. 有人讓Codex為同一目標工作了120多小時。

目標模型很強大 要盡最大可能。

制定明确和可核查的标准

當您啟動目標模式時輸入的提示可以作為初始提示,更重要的是,它會成為目標的退出標準. 每輪工作後, Codex 會檢查此目標是否達成 。

因此,你的目的信息應該不是太長,而是要專注於一個明确的標準:當目標達成的時候。

在大多數情況下, 例如:

"把建造和部署時間减少30%"

將此函數從 TypeScript 傳送至 Rust 并達到100% 的測試一致性

使製作環境內最大內容映射(Largest Contentful Point

此提示不一定包括數字, 但通常數目會讓之後的步數更容易進步 。

如果你不知道如何定義目標, 或者如果你想用 Codex 開始專案, 你不必從目標模式開始 。

Codex可以自己定目標 當你準備好讓Cordex開始時 你可以正常地開始談話 然后讓Cordex根据討論來设定目標。

您也可以隨時編輯目標: 點擊 Codex 應用程式中的編輯按鈕, 或是在 CLI 中再次使用 / 目標 。

尽可能提供指导

像是「建筑和部署時間減少30%」的暗示聽起來很酷, 但是如果你知道問題可能在哪 這提示也可以讓 Codex 出現在曲線上。

所以只要有可能 最好告訴 Codex 從何開始 使用什麼工具來達成目標 或者提供其他提示 避免它往錯方向走。

例如我的同事@reach vb在實驗中做了:他告訴Codex, 他可以用Chome瀏覽器存取Google Colab, 以及一些可接受的限制, 例如讓 Codex 訓練模型自己產生數據集。

重複,如果你想缩短建築時間,并且已經知道用完哪一部分時間,最好在提示中指代 Codex 。

或者您可以讓 Codex 在計劃模式下做一些初步研究, 使它建立一個計劃文件來記錄可能的程序 。 那就讓你的目標引用計劃。

取得可衡量进展

如果你的目標是宏大 或者Cordex有很多方法可以接近它 那你必須給Cordex 衡量進步的工具。

這對一些任務來說可能很自然 例如, 优化建築時間及增加測試範圍, 因為 Codex 通常已經可以使用工具或自然建立工具 。

但對其他目標來說 你最好從 Codex 的頭風開始 哪些工具能幫助判斷進步? 或者給它點提示 如何確認它正接近目標 例如, 為兩個截圖建立視覺差異比對工具, 或是為您正在調试的智能體建立評估集 。

我讓 Codex 重新編譯一些基于影像的元件, 當 Codex 創造了一個工具讓自己來比較截圖和檢查區別。 之後,它繼續重複工具,增加了不同的对比模型。

圖片: Codex 製作兩帧影像比對的截圖 。

也需考慮是否有其他的衡量或檢查标准。 不然 Codex可能會認為這工作已經完成 但你不覺得它完成了。

例如, Codex 可以剪切設計參考地圖, 將它們嵌入一頁, 以降低像素等級; 或者它可以把測試覆盖率降低到100% 。 這些都不是你真正想要的。

建立真正的環境

如果你想讓 Codex 在目標上取得真正的進步 它需要一個足夠真實的環境。

在實際上, 這意味著如果您要优化部署時間或延遲, Codex應該可以存取部署和測試環境, 這些環境是尽可能模擬的 。 這意味著使用相同的科技堆栈, 相同的設定開關和相似的數據庫 。

例如,我們正在調解人造和部署時間优化。 我們已經在使用部署預覽, 所以 Codex 可以使用預覽環境來部署並查看相關的紀錄 。 但問題是一些建築通道與預覽部署及完整製作環境相比。

因此, Codex 最终不得不手動部署到更靠近製作設定的環境,以實際地檢查問題。

相似的, 您可以使用 Codex 來測試實際應用程式 。 @dimirian甚至用物理設備來取得最准确的測試環境。

小心設置視覺目標

給 Codex 一個視覺目標, 如「 百分之百的像素級回歸到此圖片的UI 」, 這真的很吸引人 。 然而,根据具体安排,也可能有问题。

如果你沒有提供正確的方向和規矩, Codex 可能會越來越深入一些細節, 而忽略了整個目標。 例如,如果參考圖中包含一些您期望 Cordex 產生的圖像元素 -- 不管是SVG圖示還是圖片——它可能會把很多精力投入到"如何精确地重新捕捉這些材料"上,而不是把整個問題拆掉。

此外, Codex 需要工具來做視覺比對 。 這意味著更多的相片投入, 更多的代碼消耗。

因此,照片通常更适合作为目標的上下文而不是唯一的完成標準. 您應該為 Codex 找到其他方法來判斷目標是否達成, 例如功能清單、 成就规范、 符合設計系統等 。

追蹤進度

如果Codex終于在後台工作數小時甚至數天 甚至是在另一台機器上 很容易忘記它去了哪裡 做了什麼。

基于不同的目標,我找到了以下方法來幫助:

根據創用CC授權使用 當您正在建立網站並預覽部署時。

• Jean Codex更新面向管理的交付。 它可以是 HTML 檔案, 您可以在應用程式瀏覽器中保持開啟; 它可以是您通過 Sites 部署到團隊的頁面; 它可以是一個已變更的進度地圖, 或者只是一個普通的 Markdown 檔案 。

指示 Codex 提供最新進度 。 您也可以將它放入目標中: 讓 Codex 傳送更新到 Slack 頻道, 或是你想記錄的任何地方 。

以其他聊天視窗要求狀態 。 如果你只是想快速了解州情,你可以跑步/邊上,開始新的一邊聊天并在那里提出問題. 因為它會穿過目前的線線, 它有所有上下文至今, 但有短的生命周期。

Cordex 應用程式的另一個替代方案是開啟一個普通的新聊天, 讓 Cordex 讀取另一個目標線并回答您的問題 。 如果你讓Cordex設置一個自動任務 定期檢查進展,這將是特別強大的。

清理和最后确认

太好了,目標終于完成了 我們能把結果投給球隊嗎

我認為Codex審查和審查他的所作所為有幫助。 您可以先用 / Review 進行本地代碼評論, 它試圖走什麼路? 什么事? 什么不行? 那就照此清理密碼。

因為Codex會一直工作到目標達達, 它可能已經試圖過一些方法,但都不夠好,甚至完全無效, 這些剩余的變更可能仍然留在最後的代碼中。

我幫你安排下一個任務

Codex的目標功能是一種非常強大的工具,可以幫助你處理一些最重要的工程挑戰. 但只有你提供正確的環境和指示,它才能更有效率地達到目標。

你拿它做了什麼

[ 笑 ]原始链接]

QQlink

ไม่มีแบ็คดอร์เข้ารหัสลับ ไม่มีการประนีประนอม แพลตฟอร์มโซเชียลและการเงินแบบกระจายอำนาจที่ใช้เทคโนโลยีบล็อกเชน คืนความเป็นส่วนตัวและเสรีภาพให้กับผู้ใช้

© 2024 ทีมวิจัยและพัฒนา QQlink สงวนลิขสิทธิ์