Panduan untuk penggunaan model Kodeks Goal: bagaimana memungkinkan AI untuk terus memajukan tujuan tertentu

2026/06/07 00:29
🌐ms

kuncinya bukan untuk menulis prompt lebih lama, tetapi untuk menetapkan standar yang dapat diverifikasi, lingkungan nyata dan mekanisme pelacakan kemajuan

Panduan untuk penggunaan model Kodeks Goal: bagaimana memungkinkan AI untuk terus memajukan tujuan tertentu
Judul asli: A Guide to/goal
Diterjemahkan oleh : @dkundel, Anggota Hubungan Pengembang OpenAI
Foto oleh Peggy

Penyunting: Artikel ini diambil dari OpenAI Developer Relations Member Dominik Kundel, merangkum pengalaman Kodeks "goal Mode//goal fungsi. Ini bukan tentang teknik biasa, tapi tentang perubahan peran yang sedang berlangsung dalam alat pemrograman AI: Kodeks Codex tidak lagi hanya merupakan asisten kode yang merespons perintah roda tunggal, tetapi mulai menjadi tipe eksekutif yang dapat melanjutkan di sekitar target yang jelas。

Dalam model /goal, tidak benar-benar penting untuk menulis permintaan lebih lama, tetapi untuk menetapkan kriteria keluar yang jelas dan dapat diverifikasi untuk Codex. Misalnya, pengurangan 30% waktu penyebaran "tes liputan 100% parity" "LCP di bawah 2,5 detik". Indikator-indikator ini memungkinkan Codex untuk menilai apakah tugas tersebut telah terlaksana dan menghindari ketak terhinggaannya dalam ketidakjelasan objektif tersebut. Pada saat yang sama, pengguna perlu memberikan arah yang cukup, alat dan lingkungan yang nyata di mana Codex dapat mengukur kemajuan, hasil validat, daripada menyelesaikan solusi yang tampaknya layak hanya pada tingkat lokal atau hipotetis。

Secara khusus, artikel tersebut mengingatkan bahwa misi visual adalah yang paling mudah untuk memasukkan Cordex ke dalam situasi yang terperinci. Ketimbang mewajibkan pengurangan tingkat piksel 100%, target visual harus dibongkar ke daftar fungsional, spesifikasi sistem desain dan penunjuk yang dinilai. Untuk misi jangka panjang yang berlangsung beberapa jam atau bahkan hari, ada juga kebutuhan untuk tetap melacak mereka melalui komite, draft PR, berkas kemajuan, Slack update atau sidechat, sehingga tidak berakhir hanya dengan beberapa perubahan non-retroaktif。

Nilai tambahan artikel ini adalah bahwa itu redefinisi /goal sebagai mekanisme manajemen tugas jangka panjang". Ketika AI dapat menjalankan puluhan atau bahkan ratusan jam berturut-turut, kompetensi inti dari perubahan pengembang: tidak hanya mengizinkan AI untuk menghasilkan kode, tetapi untuk mendefinisikan objektif, menetapkan sistem pengukuran, mengatur lingkungan implementasi, dan menyelesaikan ulasan dan disk. Dengan kata lain, pemrograman AI berpindah dari "menulis petunjuk" ke "managering sebuah pelaksana proyek yang sedang berlangsung"。

Berikut ini adalah teks asli:

Kami meluncurkan mode target (goal Mode, atau /goal) untuk membantu Anda menjaga Cordex bergerak menuju hasil konkrit. Ketika Anda menetapkan tujuan, Codex akan bekerja sampai tujuan tercapai -- butuh waktu berjam-jam, berhari-hari. Seseorang telah membuat Codex bekerja untuk target yang sama selama lebih dari 120 jam。

model targetnya sangat kuat. untuk memaksimalkan dampaknya, ada tujuh hal yang patut diperhatikan untuk digunakan。

KATAKAN standar yang jelas dan dapat diverifikasi

Petunjuk yang Anda masukkan ketika mengaktifkan mode target dapat berfungsi sebagai petunjuk awal, dan yang lebih penting, akan menjadi kriteria keluar untuk target. Setelah setiap putaran kerja, Codex akan memeriksa apakah gol ini telah tercapai。

Oleh karena itu, pesan tujuan Anda tidak boleh terlalu lama, tetapi lebih fokus pada kriteria yang jelas: ketika tujuan tercapai。

Dalam kebanyakan kasus, tujuan yang baik akan menjadi yang terbaik untuk memasukkan indikator numerik yang jelas bagi model untuk menilai apakah itu selesai. Misalnya:

"Untuk mengurangi pembangunan dan penyebaran waktu sebesar 30 persen."

" Kirim fungsi ini dari TypeScript ke Rust dan mencapai 100% konsistensi tes."

Pencacahan maksimal untuk memungkinkan pemetaan konten maksimum di lingkungan produksi (Largest Contentful Point, indikator untuk mengukur kecepatan pemuatan isi kunci pada halaman) menjadi di bawah 2,5 detik

Petunjuk ini tidak selalu harus menyertakan angka, tetapi biasanya angka membuat langkah-langkah selanjutnya lebih mudah untuk maju ke depan。

Jika Anda tidak tahu bagaimana mendefinisikan target, atau jika Anda ingin memulai proyek dengan Codex, Anda tidak perlu memulai dengan mode target。

Kodeks Codex dapat menetapkan sasarannya sendiri. Anda dapat memulai percakapan dengan normal, ketika Anda siap untuk mendapatkan Cordex untuk memulai, dan kemudian mendapatkan Cordex untuk menetapkan target berdasarkan diskusi。

Anda juga dapat mengedit target kapan saja: klik tombol edit dalam aplikasi Codex atau gunakan /goal lagi dalam CLI。

Saran untuk memberikan bimbingan sejauh mungkin

Petunjuk seperti "pengurangan 30 persen dalam konstruksi dan penyebaran waktu" terdengar keren, dan dapat membuat Codex menemukan beberapa solusi kreatif. Tapi jika Anda punya ide umum di mana masalahnya mungkin, petunjuk ini juga bisa menempatkan Codex pada kurva。

Jadi, di mana pun mungkin, lebih baik untuk memberitahu Codex di mana untuk memulai, alat apa yang digunakan untuk mencapai tujuan, atau untuk memberikan tips lain untuk menghindarinya pergi ke arah yang salah。

Sebagai contoh, rekan saya, @reach vb, melakukannya dalam sebuah eksperimen: ia mengatakan kepada Codex bahwa ia dapat menggunakan browser Chome untuk mengakses Google Colab, dan bahwa beberapa keterbatasan yang dapat diterima, seperti memungkinkan model pelatihan Codex untuk menghasilkan data set sendiri。

Sekali lagi, jika Anda ingin memperpendek waktu pembangunan dan sudah tahu bagian mana dari waktu yang dihabiskan, lebih baik untuk menunjuk Codex dalam petunjuk。

Sebagai alternatif, Anda bisa memiliki Codex melakukan beberapa penelitian awal di bawah mode rencana dan membuatnya membuat dokumen rencana untuk dokumen program potensial. Kalau begitu biarkan targetmu mengutip rencananya。

Membuat kemajuan yang terukur

Jika tujuan Anda ambisius, atau Cordex memiliki banyak cara untuk lebih dekat dengannya, maka penting bahwa Anda memberikan Cordex alat untuk mengukur kemajuan。

Ini mungkin wajar untuk beberapa misi. Sebagai contoh, mengoptimalkan waktu konstruksi dan meningkatkan cakupan tes, karena Codex sudah biasanya dapat menggunakan alat atau menciptakannya secara alami。

Tapi untuk target lain, sebaiknya kau mulai dengan codex's headstorm: Alat apa yang akan membantu menilai kemajuan? Atau memberikan petunjuk bagaimana untuk mengkonfirmasi bahwa itu mendekati target. Sebagai contoh, buatlah alat pemadanan perbedaan visual untuk dua screenshot, atau buat set penilaian untuk badan cerdas yang anda debug。

Aku punya Codex Recoup beberapa komponen berdasarkan video ketika Codex membuat alat untuk dirinya sendiri untuk membandingkan screenshot dan cek perbedaan. Belakangan, alat itu terus saling tumpang tindih, menambah model kontras yang berbeda。

Gambar: Codex menghasilkan cuplikan gambar dari perbandingan visual kedua bingkai tersebut。

Bergantung pada mandat, Anda juga perlu mempertimbangkan apakah ada kriteria tambahan untuk diukur atau diperiksa. Jika tidak, Codex mungkin berpikir pekerjaan itu dilakukan, tapi Anda tidak berpikir itu selesai。

Codex Codex, misalnya, dapat memotong peta referensi desain dan membenamkannya dalam sebuah halaman untuk pengurangan tingkat piksel; atau dapat mengurangi cakupan tes hingga 100 persen. Tak satu pun dari ini adalah cara Anda benar-benar ingin melakukannya。

Ciptakan lingkungan nyata

Jika Anda ingin Codex membuat kemajuan nyata menuju tujuan, itu perlu beroperasi dalam lingkungan yang cukup nyata。

Dalam praktiknya, ini berarti jika Anda ingin mengoptimalkan waktu atau penundaan, Codex harus dapat mengakses lingkungan penyebaran dan pengujian, yang dimodelkan sebanyak mungkin. Ini berarti menggunakan tumpukan teknologi yang sama, switch konfigurasi yang sama dan database serupa。

Sebagai contoh, kami melakukan debugging konstruksi dan penempatan waktu optimasi orang.openai.com. Kami sudah menggunakan preview penyebaran, sehingga Codex bisa menggunakan lingkungan preview untuk menyebarkan dan melihat log yang relevan. Namun, masalahnya adalah beberapa jalur konstruksi telah dinonaktifkan dibandingkan dengan penyebaran pratinjau kami dan lingkungan produksi yang lengkap。

Akibatnya, Codex akhirnya harus mengerahkan secara manual ke lingkungan yang lebih dekat dengan konfigurasi produksi untuk benar-benar memeriksa masalah。

Demikian pula, Anda dapat menggunakan Codex untuk menguji penerapan praktis dengan menggunakan komputer. Untuk mengoptimalkan beberapa masalah kinerja di iOS, @dimirian bahkan menggunakan peralatan fisik untuk memperoleh lingkungan tes yang paling akurat。

Hati-hati mengatur target visual

Berikan Codex sebuah target visual, seperti "100% grade piksel kembali ke UI ini berdasarkan gambar ini," yang benar-benar menggoda. Namun, tergantung pada set-up spesifik, ini mungkin juga bermasalah。

Dan jika Anda tidak memberikan arah dan disiplin yang benar, Codex mungkin semakin mendalam dalam beberapa detail, dan sebaliknya mengabaikan seluruh tujuan. Misalnya, jika angka referensi mengandung beberapa elemen grafis yang Anda harapkan Cordex dapat menghasilkan -- Apakah ikon SVG atau gambar -- mungkin mencurahkan banyak energi untuk "bagaimana tepatnya untuk menentukan kembali bahan-bahan ini", daripada meruntuhkan seluruh masalah。

Sebagai tambahan, Codex membutuhkan alat untuk mendapatkan perbandingan visual dengan benar. Ini berarti lebih banyak input fotografi, konsumsi token secara lebih keseluruhan, tetapi belum tentu menyediakan Codex dengan cara sederhana untuk mengidentifikasi peluang nyata untuk perbaikan。

Akibatnya, gambar biasanya lebih tepat sebagai konteks target daripada sebagai satu-satunya kriteria penyempurnaan. Anda harus menemukan cara lain untuk Codex menilai apakah tujuan telah dicapai, seperti daftar fungsional, norma prestasi, kepatuhan dengan sistem desain, dll。

Kemajuan Penjejakan

Jika Codex akhirnya bekerja di belakang panggung selama berjam-jam atau bahkan berhari-hari, bahkan di mesin lain, mudah untuk melupakan ke mana ia pergi dan apa yang dilakukannya。

Berdasarkan tujuan yang berbeda, saya menemukan cara - cara berikut untuk membantu:

• Kodeks Jean mengajukan kode di node kunci dan mengirimkannya ke draf PR. Ini sangat berguna ketika Anda membuat situs web dan memiliki pratinjau penyebaran。

- Jean Codex update pengiriman berorientasi manajemen. Ini dapat berupa file HTML, yang dapat Anda tetap buka dalam peramban aplikasi; ini dapat menjadi halaman yang Anda kirimkan ke tim melalui Sites; ini dapat menjadi peta kemajuan retrofit atau hanya berkas Markdown biasa。

Codex Directions untuk mengeluarkan pembaruan kemajuan. Anda juga dapat memasukkan ini ke dalam target: biarkan Codex mengirimkan update ke saluran Slack, atau di mana pun Anda ingin merekamnya。

tanya status dengan jendela obrolan lain. jika anda hanya ingin cepat memahami negara, anda dapat menjalankan / samping dan memulai obrolan sampingan baru dan mengajukan pertanyaan di sana. karena ia akan melintasi benang arus, ia memiliki semua konteks sampai saat ini, tetapi memiliki siklus hidup yang singkat。

Alternatif lain dari aplikasi Cordex adalah membuka obrolan baru biasa, biarkan Cordex membaca benang target lain dan menjawab pertanyaan Anda. Ini akan sangat kuat jika Cordex mengatur misi otomatis untuk memeriksa perkembangan secara teratur。

Bersihkan dan konfirmasi terakhir

Bagus, target akhirnya selesai. Bisa kita lempar hasilnya ke tim lalu tutup

Biasanya, dan khususnya dalam kategori optimisasi, saya merasa berguna bagi Codex untuk meninjau dan meninjau kembali apa yang telah ia lakukan. Anda dapat menjalankan review kode lokal pertama dengan /review, tapi itu layak dicerminkan lebih lanjut oleh Codex: Apa jalan yang telah mencoba untuk mencapai? Apa yang bekerja? Apa yang tidak berhasil? Kemudian membersihkan kode sesuai。

Karena Codex Codex akan bekerja sampai target tercapai, mungkin telah mencoba cara-cara yang tidak cukup baik, atau bahkan sama sekali tidak efektif, dan perubahan residual ini mungkin masih tetap dalam kode akhir。

aku akan menjebakmu untuk misi berikutnya

Fungsi sasaran Codex adalah alat yang sangat kuat untuk membantu Anda mengatasi beberapa tantangan teknik yang paling signifikan. Tapi itu bisa mencapai target lebih efisien hanya jika Anda memberikan lingkungan dan instruksi yang tepat。

apa yang kau lakukan dengan itu

[Terkekeh]Bahasa Asli]

QQlink

暗号バックドアなし、妥協なし。ブロックチェーン技術に基づいた分散型ソーシャルおよび金融プラットフォームで、プライバシーと自由をユーザーの手に取り戻します。

© 2024 QQlink 研究開発チーム. 無断転載を禁じます。