Guidneels untuk penggunaan model Codex Goal: bagaimana mengaktifkan AI untuk melanjutkan menjalankan tujuan tertentu

2026/06/07 00:26
🌐id

kuncinya bukan untuk menulis prompt lebih lama, tetapi untuk menentukan standar yang dapat diverifikasi, lingkungan dan mekanisme pelacakan kemajuan

Guidneels untuk penggunaan model Codex Goal: bagaimana mengaktifkan AI untuk melanjutkan menjalankan tujuan tertentu
Judul asli: Panduan ke / tujuan
Diterjemahkan oleh:
Foto oleh Peggy

Editing: Artikel ini berasal dari Perkembangan OpenAI Relations Anggota Dominik Kundel, merangkum pengalaman Codex "goal Mode / gol" fungsi. Ini bukan tentang teknik prompt biasa, tetapi tentang perubahan peran yang sedang berlangsung dalam alat pemrograman AI: Codex tidak lagi hanya seorang asisten kode yang menanggapi perintah roda tunggal, tetapi mulai menjadi tipe eksekutif yang dapat melanjutkan sekitar target yang jelas。

Dalam model / tujuan, tidak terlalu penting untuk menulis permintaan lebih lama, tetapi untuk mengatur jelas dan diverifikasi kriteria keluar untuk Codex. Sebagai contoh, pengurangan 30% dalam waktu penyebaran "cakupan tes 100% parity" "LCP di bawah 2,5 detik". Indikator ini memungkinkan Codex untuk menilai apakah tugas telah dicapai dan menghindari infinity dalam kekosongan tujuan. Pada saat yang sama, pengguna perlu menyediakan arah yang cukup, alat dan lingkungan yang nyata di mana Codex dapat mengukur kemajuan, hasil pengesahan, daripada menyelesaikan solusi yang tampaknya layak hanya pada tingkat lokal atau hipotetis。

Secara khusus, artikel mengingatkan bahwa misi visual adalah yang paling mudah untuk mendapatkan Cordex ke dalam situasi yang rinci. Alih-alih membutuhkan pengurangan tingkat piksel 100%, target visual harus dibongkar ke daftar fungsional, spesifikasi sistem desain dan indikator yang dapat diasumsikan. Untuk misi jangka panjang yang berlangsung beberapa jam atau bahkan hari, ada juga kebutuhan untuk melacak mereka melalui komite, PR draft, berkas progres, pemutakhiran atau sidechat, sehingga tidak berakhir dengan hanya beberapa perubahan yang tidak-retroaktif。

Nilai tambahan dari artikel ini adalah bahwa ia mendefinisikan ulang / tujuan sebagai mekanisme manajemen jangka panjang. Ketika AI dapat menjalankan puluhan atau bahkan ratusan jam berturut-turut, kompetensi inti dari pengembang berubah: tidak hanya memungkinkan AI untuk menghasilkan kode, tetapi untuk mendefinisikan tujuan, membangun sistem pengukuran, mengatur lingkungan implementasi, dan menyelesaikan review dan disc. Dengan kata lain, pemrograman AI bergerak dari "menulis petunjuk" ke "mengelola implementasi proyek yang sedang berlangsung"。

Berikut adalah teks asli:

Kami meluncurkan mode target (mode tujuan, atau / tujuan) untuk membantu Anda menjaga Cordex bergerak menuju hasil konkret. Ketika Anda menetapkan tujuan, naskah kuno akan bekerja sampai tujuannya tercapai -- dibutuhkan berjam-jam, hari. Seseorang telah membuat Codex bekerja untuk target yang sama selama lebih dari 120 jam。

model target sangat kuat. untuk memaksimalkan dampaknya, ada tujuh hal penting untuk digunakan。

Atur standar yang jelas dan dapat diverifikasi

Petunjuk yang Anda masukkan ketika Anda mengaktifkan mode target dapat berfungsi sebagai petunjuk awal, dan yang lebih penting lagi, itu akan menjadi kriteria keluar untuk target. Setelah setiap putaran kerja, Codex akan memeriksa apakah tujuan ini telah tercapai。

Oleh karena itu, pesan tujuan Anda seharusnya tidak terlalu lama, tapi lebih fokus pada kriteria yang jelas: ketika tujuannya tercapai。

Dalam kebanyakan kasus, tujuan yang baik akan menjadi yang terbaik untuk memasukkan indikator numerik yang jelas untuk model untuk menilai apakah itu selesai. Misalnya:

"Untuk mengurangi pembangunan dan waktu penyebaran sebesar 30 persen"

"Kirim fungsi ini dari TypeScript ke Rust dan mencapai 100% tes konsistensi"

"Penampakan aspek untuk memungkinkan pemetaan konten maksimum dalam lingkungan produksi (Largest Contentful Point, indikator untuk mengukur kecepatan isi kunci pada halaman) berada di bawah 2,5 detik

Petunjuk ini tidak selalu harus memasukkan angka, tapi biasanya angka membuat langkah selanjutnya lebih mudah untuk bergerak maju。

Jika Anda tidak tahu bagaimana mendefinisikan target, atau jika Anda ingin memulai proyek dengan Codex, Anda tidak perlu mulai dengan mode target。

Codex dapat mengatur target sendiri. Anda dapat memulai percakapan secara normal, ketika Anda siap untuk memulai Cordex, dan kemudian mendapatkan Cordex untuk mengatur target berdasarkan diskusi。

Anda juga dapat mengubah target setiap saat: klik tombol sunting dalam aplikasi Codex atau gunakan / goal lagi di CLI。

Menyediakan bimbingan sampai batas yang mungkin

Petunjuk seperti "pengurangan 30 persen dalam konstruksi dan waktu penyebaran" terdengar keren, dan itu bisa membuat Codex menemukan beberapa solusi kreatif. Tetapi jika Anda punya ide umum mana masalahnya mungkin, petunjuk ini juga bisa menempatkan Codex pada kurva。

Jadi, di mana pun mungkin, yang terbaik untuk memberitahu Codex di mana untuk memulai, alat apa yang digunakan untuk mencapai tujuan, atau untuk memberikan tips lain untuk menghindarinya pergi ke arah yang salah。

Sebagai contoh, kolega saya, @ reach vb, melakukannya dalam sebuah percobaan: dia mengatakan kepada Codex bahwa dia dapat menggunakan peramban Chome untuk mengakses Google Colab, dan bahwa beberapa keterbatasan yang dapat diterima, seperti mengijinkan model pelatihan Codex untuk menghasilkan set data itu sendiri。

Sekali lagi, jika Anda ingin mempersingkat waktu konstruksi dan sudah tahu bagian mana dari waktu yang dihabiskan, yang terbaik untuk mengarahkan Codex dalam petunjuk。

Alternatif, Anda bisa memiliki Codex melakukan beberapa penelitian awal di bawah modus rencana dan membuatnya membuat dokumen rencana untuk dokumen potensial dokumen. Kalau begitu biarkan targetmu mengutip rencananya。

Membuat kemajuan diukur

Jika tujuan Anda ambisius, atau Cordex memiliki banyak cara untuk mendekatinya, maka penting bagi Anda untuk memberikan Kordex alat untuk mengukur kemajuan。

Ini mungkin wajar untuk beberapa misi. Sebagai contoh, mengoptimalkan waktu pembangunan dan meningkatkan cakupan tes, sebagaimana Codex biasanya sudah dapat menggunakan alat atau membuatnya secara alami。

Tapi untuk target lainnya, sebaiknya kau mulai dengan badai Codex: Alat apa yang akan membantu menilai kemajuan? Atau memberikan petunjuk bagaimana untuk mengkonfirmasi bahwa itu mendekati target. Sebagai contoh, membuat perbedaan visual yang cocok untuk dua cuplikan layar, atau membuat penilaian yang diatur untuk tubuh cerdas yang sedang Anda debug。

Saya meminta Codex mengulang beberapa komponen berdasarkan video ketika Codex membuat alat untuk dirinya sendiri untuk membandingkan cuplikan layar dan memeriksa perbedaan. Kemudian, alat itu terus tumpang tindih, menambahkan model kontras yang berbeda。

Gambar: Codex menghasilkan cuplikan layar dari perbandingan visual dari dua frame。

Tergantung pada mandat, Anda juga perlu mempertimbangkan apakah ada kriteria tambahan yang harus diukur atau diperiksa. Jika tidak, Codex mungkin berpikir pekerjaan itu dilakukan, tetapi Anda tidak berpikir itu selesai。

Codex, misalnya, dapat memotong peta referensi desain dan memasukannya dalam halaman untuk pengurangan tingkat pixel; atau dapat mengurangi cakupan tes ke 100 persen. Tak satu pun dari ini adalah cara Anda benar-benar ingin melakukannya。

Membuat lingkungan yang nyata

Jika Anda ingin Codex untuk membuat kemajuan nyata menuju tujuan, perlu beroperasi dalam lingkungan yang cukup nyata。

Dalam praktek, ini berarti bahwa jika Anda ingin mengoptimalkan penyebaran waktu atau penundaan, Codex harus dapat mengakses penyebaran dan pengujian lingkungan, yang dimodifikasi sebanyak mungkin. Ini berarti menggunakan tumpukan teknologi yang sama, tombol konfigurasi yang sama dan database yang sama。

Misalnya, kami debug konstruksi dan penyebaran waktu optimasi dari people.openai.com. Kami sudah menggunakan pratinjau penyebaran, sehingga Codex dapat menggunakan lingkungan pratilik untuk menyebarkan dan melihat log yang relevan. Masalahnya, bagaimanapun, adalah bahwa beberapa jalan konstruksi telah dinonaktifkan dibandingkan dengan penyebaran pratinjau kami dan lingkungan produksi lengkap。

Akibatnya, Codex akhirnya harus menyebarkan secara manual ke lingkungan yang lebih dekat dengan konfigurasi produksi untuk benar-benar memeriksa masalah。

Demikian pula, Anda dapat menggunakan Codex untuk menguji aplikasi praktis menggunakan penggunaan komputer. Untuk mengoptimalkan beberapa masalah kinerja di iOS, @ dimirian bahkan menggunakan peralatan fisik untuk mendapatkan lingkungan tes yang paling akurat。

Hati-hati mengatur target visual

Berikan Codex target visual, seperti "100% pixel-grade return to this UI based on this picture", yang benar-benar menggoda. Namun, tergantung pada spesifik set-up, ini juga mungkin bermasalah。

Dan jika Anda tidak memberikan arah yang benar dan disiplin, Codex mungkin mendapatkan lebih dalam dalam dalam beberapa detail, dan malah mengabaikan seluruh tujuan. Sebagai contoh, jika angka referensi berisi beberapa unsur grafis yang Anda harapkan Cordex untuk menghasilkan -- Apakah ikon SVG atau gambar -- mungkin mencurahkan banyak energi ke "bagaimana tepatnya untuk merebut kembali bahan-bahan ini", daripada merobek seluruh masalah ke bawah。

Selain itu, naskah kuno membutuhkan alat untuk mendapatkan perbandingan visual dengan benar. Ini berarti lebih banyak masukan fotografi, konsumsi token keseluruhan, tetapi tidak selalu menyediakan Codex dengan cara sederhana mengidentifikasi kesempatan nyata untuk perbaikan。

Akibatnya, gambar biasanya lebih sesuai sebagai konteks target daripada satu-satunya penyelesaian kriteria. Anda harus menemukan cara lain untuk Codex untuk menilai apakah tujuan telah dicapai, seperti daftar fungsional, norma prestasi, kepatuhan dengan sistem desain, dll。

Proses pelacakan

Jika Codex akhirnya bekerja di belakang panggung selama berjam-jam atau bahkan hari, bahkan di mesin lain, mudah untuk melupakan ke mana ia pergi dan apa yang dilakukannya。

Berdasarkan tujuan yang berbeda, saya menemukan cara-cara berikut untuk membantu:

Jean Codex menyerahkan kode pada node kunci dan mengirimnya ke PR draft. Hal ini sangat berguna ketika Anda membuat sebuah situs web dan memiliki preview penyebaran。

Jean Codex memperbarui pengiriman manajement- berorientasi. Ini dapat berupa berkas HTML, yang dapat Anda buka di peramban aplikasi; ini dapat menjadi halaman yang Anda sebarkan ke tim melalui Sites; ini dapat berupa peta kemajuan yang dipasang atau hanya berkas Markdown biasa。

Direct Codex untuk mengeluarkan update pada kemajuan. Anda juga dapat menempatkan ini pada target: biarkan Codex mengirim pembaruan ke saluran Slack, atau di mana saja Anda ingin merekamnya。

tanyakan status dengan jendela obrolan lain. jika anda hanya ingin cepat memahami keadaan, anda dapat menjalankan / sisi dan memulai obrolan sisi baru dan mengajukan pertanyaan di sana. karena akan melintasi benang saat ini, ia memiliki semua konteks sampai saat ini, tetapi memiliki siklus hidup yang singkat。

Alternatif lain untuk aplikasi Cordex adalah untuk membuka obrolan baru biasa, biarkan Cordex membaca benang target lain dan menjawab pertanyaan Anda. Ini akan sangat kuat jika Anda memiliki Cordex mengatur misi otomatis untuk memeriksa kemajuan secara teratur。

Bersihkan dan konfirmasi akhir

Bagus, target akhirnya selesai. Bisakah kita hanya membuang hasil untuk tim dan kemudian dekat

Biasanya, dan terutama dalam kategori optimisasi, saya merasa membantu Codex untuk meninjau dan meninjau apa yang telah dia lakukan. Anda dapat menjalankan tinjauan kode lokal pertama dengan / ulasan, tapi itu layak refleksi lebih lanjut oleh Codex: Jalur apa yang coba diraih? Apa yang bekerja? Apa yang tidak bekerja? Kemudian membersihkan kode sesuai。

Karena Codex akan bekerja sampai target dicapai, mungkin telah mencoba cara yang tidak cukup baik, atau bahkan benar-benar tidak efektif, dan sisa-sisa perubahan mungkin masih tetap dalam kode akhir。

aku akan membuat anda siap untuk misi berikutnya

Fungsi target naskah kuno adalah alat yang sangat kuat untuk membantu Anda mengatasi beberapa tantangan rekayasa yang paling signifikan. Tapi itu bisa mencapai target lebih efisien hanya jika Anda memberikan lingkungan yang tepat dan instruksi。

apa yang kau lakukan dengan itu

[Terkekeh]Tautan Asli]

QQlink

暗号バックドアなし、妥協なし。ブロックチェーン技術に基づいた分散型ソーシャルおよび金融プラットフォームで、プライバシーと自由をユーザーの手に取り戻します。

© 2024 QQlink 研究開発チーム. 無断転載を禁じます。