Judul asli: Apa yang Harus Dipelajari, Dibangun, dan Dilewati dalam AI Agencyes (2026)
Protes Suriah 2011
Foto oleh Peggy Block Beats

presses editor: AI Agent bidang memasuki periode ledakan alat dan kurangnya konsensus。

setiap minggu, kerangka kerja baru, model baru, benchmark baru dan baru "10 kali lebih efisien" produk muncul, tetapi pertanyaan yang benar-benar penting adalah tidak "bagaimana mengimbangi semua perubahan" tapi "apa yang benar-benar layak untuk diinvestasikan."。

Dalam pandangan penulis ' s, itu bukan kerangka kerja terbaru, tetapi kapasitas yang lebih rendah, yaitu, ketahanan jangka panjang nyata dalam saat ini ketika gudang teknologi sedang ditulis ulang: Ini disebut "context engineering," tool design, eval system, Orchestra-subagent mode, sandbox dan natural thinking. Kemampuan ini tidak akan cepat gagal dengan model, tetapi akan membentuk dasar untuk membangun AIAgent yang dapat diandalkan。

Artikel tersebut menyatakan lebih lanjut bahwa AI Agent juga mengubah arti dari "Qualifications". Pada masa lalu, kualifikasi akademik, nilai dan tahun adalah entri lulus; namun, di daerah di mana bahkan raksasa secara terbuka dikasari, CV bukan lagi satu-satunya dokumen. Apa yang kau lakukan, apa yang kau kirim, menjadi lebih penting。

Oleh karena itu, makalah ini bukan sekadar pembahasan tentang apa yang dipelajari AI Agen pada tahun 2026, apa yang ia gunakan, apa yang ia lompati, tetapi pengingat bahwa, pada saat kebisingan meningkat, kapasitas yang paling langka adalah untuk menilai apa yang layak dipelajari dan untuk terus membuat sesuatu yang benar-benar berguna。

Berikut ini adalah teks asli:

Setiap hari, kerangka kerja baru, benchmark baru, baru "10 kali lebih efisien" produk muncul. Pertanyaannya tidak lagi "Bagaimana aku bisa bertahan" tetapi: apa sinyal sebenarnya di sana dan apa yang hanya suara dalam arti mendesak。

Setiap peta jalan, satu bulan setelah publikasinya, mungkin menjadi usang. Frame Anda baru saja mendapat kuartal terakhir sekarang tua. benchmark yang Anda gunakan untuk mengoptimalkan dicat dan diganti dengan cepat. Pada masa lalu, kami telah dilatih untuk mengikuti jalur tradisional: gudang teknologi, sesuai dengan kumpulan tema dan tier; serangkaian pengalaman kerja, tahun dan gelar yang sesuai; dan langkah yang lambat. Tapi AI menulis ulang kanvas ini. Hari ini, selama petunjuknya benar dan diakui secara estetis, seseorang dapat memberikan pekerjaan yang perlu dilakukan oleh seorang insinyur dengan pengalaman selama dua tahun。

KAPASITAS PROFESIONALIS TETAP PENTING. TIDAK ADA PENGGANTI UNTUK ANDA MELIHAT SISTEM TURUN, JAM DUA PAGI DENGAN KEBOCORAN MEMORI, DAN TIDAK ADA PENGGANTI FAKTA BAHWA ANDA TELAH MAMPU KELUAR DARI PUBLIK DAN MEMILIH SOLUSI YANG MEMBOSANKAN TAPI BENAR, DAN ITU TERBUKTI BENAR. PENILAIAN DEMIKIAN AKAN MENINGKAT NILAINYA. TAPI APA YANG TIDAK MENAMBAH SEPERTI DI MASA LALU ADALAH KEAKRABAN ANDA DENGAN MINGGU INI HOT FRAME API PERMUKAAN. ENAM BULAN KEMUDIAN, MUNGKIN BERUBAH LAGI. PARA PEMENANG SEJATI DUA TAHUN KEMUDIAN ADALAH MEREKA YANG TELAH MEMILIH DASAR-DASAR KEAWETAN DAN MEMBIARKAN SUARA LAIN BERLALU。

saya telah membangun produk di daerah ini selama dua tahun terakhir, mendapatkan lebih dari $ 250.000 setahun, dan saya sekarang bertanggung jawab atas teknologi di perusahaan tersembunyi. jika ada yang bertanya padaku, "apa yang harus saya peduli sekarang?" itu yang akan kukirim padanya。

Ini bukan peta jalan. Lapangan Agen Agen belum diberikan tujuan yang jelas. Laboratorium pabrik yang besar juga terbuka, mendorong isu pengembalian langsung ke jutaan pengguna, menulis ulang dan patch online. Jika tim yang berada di belakang Claude Code dapat menerbitkan versi yang menyebabkan 47% kinerja mundur, dan sampai komunitas pengguna menemukan masalah tersebut, ide tentang "peta stabil ada di bawah" adalah fiksi. Semua orang masih mencari. Kesempatan untuk memulai adalah tepat karena raksasa tidak tahu jawabannya. Orang-orang yang tidak bisa menulis kode bekerja dengan angent, menyampaikan pada hari Jumat sesuatu yang menurut M.D. mustahil。

hal yang paling menarik dari saat ini adalah perubahan pemahaman kita tentang kualifikasi. jalur tradisional dioptimalkan oleh kualifikasi: derajat, posisi junior, posisi senior, pos senior, dan posting yang secara perlahan terakumulasi. ini dibenarkan ketika tidak ada perubahan radikal di daerah bawah. tapi sekarang, tanah di bawah bergerak dengan kecepatan yang sama dari kaki semua orang. kesenjangan antara seorang agen demo 22 tahun yang dibebaskan publik dan seorang insinyur senior berusia 35 tahun tidak lagi akumulasi keterampilan dekade. insinyur 22 tahun dan senior ini menghadapi kanvas kosong yang sama. bagi mereka, pemulihan pertumbuhan yang sebenarnya adalah kesediaan untuk memberikan secara berkelanjutan dan kapasitas dasar bahwa fraksi itu tidak akan menjadi usang dalam seperempat。

Ini adalah inti artikel. Selanjutnya, aku akan memberikan cara menilai kemampuan dasar mana yang layak mendapat perhatianmu dan rilis mana yang dapat diteruskan secara langsung. Ambil apa pun yang tepat untuk Anda, meletakkannya。

Filter yang sangat efektif

Kau tidak bisa mengikuti pengumuman mingguan baru, dan kau tidak harus melakukan itu. Apa yang Anda butuhkan bukan aliran informasi, tapi filter。

Lima tes telah disahkan selama 18 bulan terakhir. Mari kita bahas lima pertanyaan ini sebelum kita mendapatkan sesuatu yang baru dalam teknologimu。

Apakah penting dalam dua tahun
Jika hanya berupa shell, parameter CLI, atau "beberapa versi Devin" di luar model garis depan, jawabannya hampir selalu tidak. Jika itu adalah bahasa dasar, seperti protokol, pola memori, metode kotak pasir, jawabannya lebih mungkin adalah ya. Nama setengah-kehidupan produk shell pendek, dan setengah-kehidupan bahasa dasar dapat dihitung berdasarkan tahunan。

Apakah ada seseorang yang Anda hormati yang telah membuat produk nyata atas dasar itu dan telah menulis pengalaman jujur
ARTIKEL PEMASARAN TIDAK DIHITUNG. KAMI MENCOBA X DI LINGKUNGAN PRODUKSI, DAN ADA MASALAH DI SINI" LEBIH BERHARGA DARIPADA 10 PENGUMUMAN. SINYAL YANG BENAR-BENAR BERGUNA DI DAERAH INI AKAN SELALU DATANG DARI MEREKA YANG KEHILANGAN AKHIR PEKAN UNTUK ITU。

apa itu berarti kau akan kehilangan jejak yang ada, tes ulang, konfigurasi, sertifikat
Jika demikian, itu adalah kerangka untuk mencoba membuat dirinya platform. Mencoba menjadi kerangka platform, tingkat kematian sekitar 90%. Ini adalah bahasa dasar yang baik yang seharusnya tertanam dalam sistem Anda saat ini, bukan memaksa Anda untuk bermigrasi。

Jika kau melewatkannya selama enam bulan, berapa harganya
Bagi kebanyakan publikasi, jawabannya bukan apa - apa. Kau akan tahu lebih dalam enam bulan, dan versi kemenangan akan lebih jelas. Tes ini memungkinkan Anda untuk melewatkan 90% dari rilis tanpa kekhawatiran. Tapi itu adalah salah satu yang kebanyakan orang menolak untuk digunakan karena melewatkan sesuatu membuat Anda merasa seperti Anda berada di belakang. Tidak juga。

apa kau bisa menilai apakah itu benar-benar membuatmu lebih baik
Jika tidak, maka kau hanya menebak. Tanpa evaval, tim berjalan dengan perasaan, dan akhirnya kembali online. Dengan tim evaval, Anda dapat memberitahu diri sendiri: Pada muatan spesifik minggu ini, GPT-5,5 lebih baik atau Opus 4,7 lebih baik。

Jika Anda hanya mengambil satu kebiasaan dari artikel ini, setiap kali Anda menerbitkan hal baru, tulislah apa yang perlu Anda lihat dalam enam bulan, itu benar-benar penting. Kemudian kembali dalam enam bulan untuk memeriksa. Sebagian besar waktu, pertanyaan itu sendiri telah memberikan jawaban, dan perhatian Anda akan dikhususkan untuk hal-hal yang benar-benar membentuk untuk pertumbuhan。

Kemampuan nyata di balik tes ini lebih sulit untuk disebut nama daripada salah satu dari mereka. Ini adalah kemampuan untuk menjadi "disederhanakan." Minggu ini dalam kerangka api Hacker News, mereka akan memiliki pemandu sorak dalam 14 hari, dan mereka semua akan terdengar cerdas. Namun, enam bulan kemudian, setengah dari kerangka itu tidak lagi dipertahankan dan para pemandu sorak sudah pindah ke hotspot berikutnya. Orang-orang yang tidak terlibat, menyimpan perhatian mereka dan meninggalkannya kepada orang-orang yang selamat dari "ketenangan"ujian setelah panas telah berlalu. Ini adalah keterampilan profesional nyata di bidang ini yang menahan, menonton dan berkata, "aku akan tahu dalam enam bulan waktu." Buletin dibaca oleh semua orang, tetapi hampir tidak ada yang baik tidak menanggapi mereka。

Apa yang harus dipelajari

Konsep, pola, bentuk sesuatu. Hal-hal ini yang benar-benar membuahkan hasil. Mereka dapat melintasi model, kerangka kerja dan pergeseran paradigma. Untuk mengenal mereka dengan baik, kau bisa mendapatkan alat baru dalam satu akhir pekan. Jika Anda melewatkan mereka, Anda akan selalu belajar tentang mekanisme permukaan。

Teknik Konteks

Dalam dua tahun terakhir, perubahan nama yang paling penting adalah "Prompt Engineering" to "Context Engineering". Perubahan ini nyata, bukan hanya yang baru。

Modelnya bukan lagi orang yang kau tuliskan perintah pintar untuk itu. Ini berubah menjadi sesuatu yang perlu kau kumpulkan setiap langkah untuk bekerja. Konteks ini berisi baik perintah sistem, alat, skema, dokumen yang diambil, output alat sebelumnya, keadaan scratchpad, dan catatan sejarah yang dikompresi. Perilaku Agen Agen adalah hasil dari semua elemen yang Anda masukkan ke dalam jendela konteks。

anda perlu menginternalisasi ini: konteksnya adalah negara. setiap token yang tidak relevan mengkonsumsi kualitas penalaran. konteksnya membusuk, kegagalan produksi yang nyata. pada saat langkah kedelapan dari misi 10 langkah, target awal mungkin telah terkubur melalui output. tim yang memberikan agen andal akan mengambil inisiatif untuk meringkas, memampatkan dan menyesuaikan konteksnya. mereka akan menjalankan alat deskripsi, mereka akan memperlambat bagian statis dan mereka akan menolak perubahan bagian dari cache. cara mereka melihat jendela konteks seperti seorang insinyur berpengalaman melihat memori。

salah satu cara tertentu perasaan adalah dengan mengambil anent dalam lingkungan produksi apapun dan membuka track log penuh. lihat konteks langkah pertama dan lihat konteks langkah ketujuh. memhitung berapa banyak token yang masih bekerja. kau mungkin malu saat pertama kali melakukan ini. dan kemudian anda akan memperbaikinya, dan agen yang sama jelas akan menjadi lebih dapat diandalkan tanpa mengubah model, tanpa mengubah prompt。

Jika Anda hanya membaca satu artikel tentang hal itu, Anda membaca "Effitive Contact Engineering for AI Agencyes." Dan kemudian mereka membaca repertoar mereka pada sistem penelitian multi-en, dan artikel memberikan angka tentang betapa pentingnya untuk memisahkan konteks saat sistem berkembang。

Desain Alat ALAP

Alat itu sangat penting di mana bisnismu berhubungan. Model memilih alat sesuai dengan nama dan keterangan alat dan menentukan bagaimana cara mencoba lagi berdasarkan informasi yang salah. Kontrak instrumen ini konsisten dengan cara LLM untuk mengekspresikannya, dan menentukan apakah model tersebut berhasil atau gagal。

Lima sampai sepuluh alat yang diberi nama lengkap, lebih dari 20 alat biasa. Nama-nama Alat-alat yang dipakai harus seperti kata kerja dalam bahasa Inggris alami. Keterangan harus dieja kapan seharusnya digunakan dan kapan seharusnya tidak. Pesan yang salah harus menjadi umpan balik bahwa model dapat bertindak. Lebih dari 500 langit-langit token, silakan meringkas sebelum mencoba. Salah satu tim dalam penelitian terbuka melaporkan bahwa mereka telah mengurangi siklus uji ulang hingga 40 persen dengan hanya menulis ulang informasi yang salah。

Antropik 'Menulis hal untuk tujuan' adalah titik awal yang baik. Setelah membaca, tambahkan alat dan pengamatan sendiri untuk melihat modus panggilan yang sebenarnya. Agen Agen Agen yang paling terpercaya, hampir selalu berada di sisi alat. Banyak orang terus beralih arah, mengabaikan di mana pengaruh sebenarnya adalah。

Mode Orchestra-Suragent

perdebatan antara 2024 dan 2025 atas multiagen memuncak dalam sebuah program terintegrasi yang sekarang diadopsi oleh semua. sistem nut-too-intent, i.e. beberapa agen yang menulis dalam negara bagian bersama secara paralel, akan gagal secara bencana, karena kesalahan akan selalu terkompos. sejauh mana siklus anent tunggal dapat diperpanjang sering lebih jauh dari yang anda pikirkan. hanya ada satu jenis agen ganda yang benar-benar dapat bekerja di lingkungan produksi: anent orkestrator yang menetapkan tugas yang sempit, baca-saja untuk mengisolasi subagen dan kemudian mensintesis hasil mereka。

Sistem penelitian antropik bekerja seperti ini. Anak buah Claude Code bekerja seperti ini. Foinski Spring AI dan sebagian besar kerangka kerja produksi sekarang menstandarkan model ini. Subagensi zombi memiliki konteks yang kecil dan terfokus dan tidak dapat memodifikasi status berbagi. Penulisan adalah tanggung jawab dari orkestra。

Jangan Bangun Multi-Agents" oleh Cognition dan "Bagaimana kita membangun sistem penelitian multi-agen kita" oleh Antropik tampaknya adalah pandangan yang berlawanan, tetapi hal yang sama dalam istilah yang berbeda. Keduanya layak dibaca。

lalai untuk menggunakan anen tunggal. hanya bila seorang agen tunggal melakukan memukul perbatasan nyata akan pertimbangan diberikan kepada orkestrat-subagent: misalnya, tekanan jendela konteks, penundaan yang disebabkan oleh urutan panggilan alat, atau heterogenitas misi tidak menguntungkan dari konteks fokus. ini adalah satu set hal yang anda tidak perlu sampai anda merasa sakit。

Set Eval dan Data Emas

setiap tim yang memberikan angent yang dapat diandalkan memiliki nilai evaval. tanpa tim eval, biasanya tidak ada pengiriman yang dapat diandalkan. ini adalah kebiasaan yang paling menguntungkan di lapangan dan hal yang paling tidak diremehkan yang pernah kulihat di setiap perusahaan。

Pendekatan efektifnya adalah mengumpulkan jejak lingkungan produksi, menandai kasus kegagalan dan menganggapnya sebagai kemunduran. Setiap kali kegagalan baru berjalan online, tambahkan. Bagian subjektifnya menggunakan LLM-as-judge dan bagian-bagian lainnya menggunakan pencocokan yang tepat atau pemeriksaan prosedural. ¡Larikan paket uji sebelum ada perubahan prompt, model atau alat. Blog Teknik Spotify melaporkan bahwa lapisan hakim mereka akan berhenti sekitar 25% dari output agen sebelum outputnya online. Tanpa itu, satu dari setiap empat hasil buruk mencapai pengguna。

model mental yang benar-benar mengambil akar adalah bahwa eval adalah tes unit untuk memastikan bahwa angent tidak menyimpang dari tugasnya ketika segala sesuatu yang lain berubah. model akan menghasilkan versi baru, kerangka kerja akan mempublikasikan perubahan merusak dan pemasok akan membuang titik akhir. evavalmu adalah satu-satunya hal yang bisa memberitahumu apakah angent masih bekerja. tanpa eval, kau menulis sistem yang benar tergantung pada niat baik target bergerak。

Rangka kerja Eval, seperti Braintrust, Langfuse Evals, LangSmith, baik. Tapi mereka tidak sombong. Anda pertama kali memiliki set data yang ditandai. Hari pertama harus dimulai, sebelum semuanya diperluas. Contoh asli dari 50 sampel dapat ditandai secara manual pada suatu sore. Tidak ada alasan。

Anggap sistem berkas sebagai keadaan, dan siklus Think-Act-Observasi

Untuk setiap orang yang bekerja pada multi-langkah yang asli, struktur tahan lama adalah: refleksi, tindakan, pengamatan, pengulangan. Sistem dokumen atau penyimpanan terstruktur adalah sumber faktual. Setiap gerakan direkam dan diputar kembali. Claude Code, Cursor, Devin, Aider, OpenHands, Goose semua terkondensasi ke dalam ini。

modelnya sendiri adalah non-negara. frame berjalan harus dalam keadaan. sistem berkas adalah bahasa dasar berbasis negara yang dipahami oleh setiap pengembang. setelah kerangka kerja ini diterima, seluruh disiplin secara alami akan terungkap: pos pemeriksaan, pemulihan, validasi sub-agen, eksekusi kotak pasir。

dan bagian yang lebih dalam di sini adalah bahwa dalam setiap produksi yang layak membayar tagihan, itu melakukan lebih banyak pekerjaan daripada model. model itu memilih langkah berikutnya, memeriksanya, menjalankannya di kotak pasir, menangkap output, memutuskan umpan balik apa yang harus dikembalikan, memutuskan kapan untuk berhenti, memutuskan kapan untuk memeriksa titik, memutuskan kapan untuk menghasilkan subagen. model switching dengan model lain yang berkualitas sama, harness yang baik masih memberikan produk. dan bahkan model terbaik dunia akan menghasilkan anent yang akan melupakan apa yang dia lakukan secara acak。

jika anda membangun sesuatu yang lebih rumit daripada alat satu kali untuk menelepon, maka tempat anda benar-benar harus menghabiskan waktu adalah harness. model hanya satu komponen。

SECARA KONSEPTUAL MCP DIPAHAMI

Jangan hanya belajar bagaimana menghubungi server MCP. Untuk mempelajari modelnya. Ini menciptakan pemisahan yang jelas antara kapasi, alat dan sumber daya angent dan menyediakan autentikasi dan program transmisi yang dapat diukur di bagian bawah. Setelah Anda memahami ini, kerangka integrasi lainnya " Anda lihat seperti versi berformat rendah dari MCP, dan Anda menghemat waktu untuk mengevaluasi mereka satu per satu。

Yayasan linux yang sekarang menjadi tuan rumah MCP. Semua penyedia model utama mendukungnya. Sekarang lebih dekat dengan kebenaran daripada sindiran。

Sandboxing adalah pepatah dasar

setiap kelas produksi berjalan di kotak pasir. setiap anent peramban telah mengalami suntikan masalah tidak langsung. setiap multi-tenant memiliki yurisdiksi pada beberapa tahap. anda harus menggunakan kotak pasir sebagai bahasa asli infrastruktur, daripada sebagai fungsi untuk ditambahkan atas permintaan klien。

pengetahuan dasar yang perlu dipelajari: segregasi proses, kontrol ekspor jaringan, manajemen jangkauan kunci, dan batas autentikasi antara angent dan alat. tim-tim tim yang menunggu izin keamanan pelanggan diganti atas dasar ad hoc sering kali kehilangan transaksi mereka. tim-tim yang telah bekerja di atasnya sejak minggu pertama akan lulus dengan mudah dalam proses pembelian perusahaan。

Apa yang harus dibangun dengan

Berikut ini adalah pilihan spesifik mulai April 2026. Pilihan ini berubah, tapi tidak terlalu cepat. Di lantai ini, cobalah untuk memilih sesuatu yang membosankan tapi mantap。

Lapisan

Wagona LangGrafh adalah pilihan baku dalam lingkungan produksi. Sekitar sepertiga perusahaan besar yang menjalankan angent menggunakannya. Pendekatan abstraknya sesuai dengan bentuk sejati dari sistem angent: status tipe, sisi kondisi, aliran kerja yang langgeng, dan titik pemeriksaan in-the-loop manusia. Ketidakberuntungan adalah untuk menulisnya; keuntungannya adalah ketika seorang individu memasuki lingkungan produksi, Anda benar-benar perlu mengendalikan hal-hal ini, dan obrolannya sesuai dengan kontrol ini。

Jika Anda terutama menggunakan TypeScript, Mastra adalah pilihan yang sebenarnya. Ini skenario terjelas untuk model mental ekologi ini。

Jika tim Anda menyukai Pydantic dan ingin keamanan sebagai warga kelas satu, Pydantic AI adalah pilihan lapangan hijau yang wajar. Ini dirilis pada akhir 2025 v1.0, dan momentum memang ada。

Untuk bekerja dengan provider-natif, misalnya penggunaan komputer, suara, interaksi real-time, Claude Agen SDK atau OpenAgents SDK dapat digunakan dalam node LangGraph. Jangan mencoba untuk membuat mereka lapisan atas sistem isomer. Mereka sempurna untuk apa yang mereka lakukan。

Lapisan Protokol

TAK ADA YANG LAIN。

Buat peralatanmu di server MCP. Integrasi eksternal yang dikonsumsi dengan cara yang sama. Sekarang MCP telah melewati ambang batas: dalam kebanyakan kasus, sebelum Anda perlu membangun diri sendiri, Anda dapat menemukan server buatan siap. Pada tahun 2026, alat definisi diri tulisan tangan ditambahkan, sebagian besar secara gratis。

Lapisan Memori Memory

keunggulan ketika memilih sistem memori, memilih bukan oleh panas, tetapi oleh otonomi seorang individu。

Im0 is cocok untuk personalisasi chat: preferensi pengguna, sejarah cahaya. Zepōfuchi cocok dengan sistem dialog tingkat produksi, terutama dalam situasi di mana negara akan berevolusi dan membutuhkan pelacakan fisik. Wanny Letta cocok untuk mereka yang membutuhkan konsistensi dalam beberapa hari atau bahkan minggu siklus kerja. Kebanyakan tim tidak membutuhkan ini, tapi yang benar-benar membutuhkannya, mereka membutuhkannya。

Kesalahan umum adalah bahwa tidak ada masalah memori, tetapi kerangka memori pertama. Mulailah dengan apa jendela konteks dapat menampung, ditambah database vektor. Anda hanya dapat menambahkan memori ke sistem memori jika Anda jelas menyatakan pola kegagalan yang ingin diselesaikannya。

layani dan evaval

Bahasa Langfuse adalah pilihan baku sumber terbuka. Ini dapat host sendiri, menggunakan lisensi MIT, untuk menutupi pelacakan, manajemen versi prompt, dan basis LLM-as-judge evals. Jika Anda sudah menjadi pengguna LangChain, integrasi LangSmith akan lebih dekat. Braintrust cocok untuk penelitian-jenis eval alur kerja, terutama yang membutuhkan perbandingan yang ketat. Andieldo OpenLMetry / Traceloop cocok untuk repositori multibahasa yang membutuhkan integrasi OpenTelemetry vendor-neutral。

Kau harus memiliki pelacakan dan evaluasi. (Dia menjawab, \"Apakah yang telah dilakukan oleh hawa nafsunya) yaitu dengan melakukan perbuatan-perbuatan yang keji, yaitu melakukan perbuatan-perbuatan maksiat dan perbuatan-perbuatan maksiat lainnya. Evals berkata, "Apakah Anda lebih baik dari kemarin atau lebih buruk?" Tidak, jangan online. Hari pertama, barang-barang ini diperbaiki dengan biaya yang jauh lebih murah daripada memperbaikinya setelah berlari buta。

Waktu Runtime dan Sandbox

E2B cocok untuk eksekusi kode kotak pasir biasa. Aero Brownserbase dengan Stagehand, cocok untuk otomatisasi peramban. Perusahaan Antropik Kegunaan lasdon sesuai dengan skenario yang membutuhkan kontrol desktop tingkat sistem operasi nyata. Modal Zodison cocok untuk tugas lonjakan jangka pendek。

tak pernah menjalankan kode tanpa kotak pasir. sebuah anent yang telah rusak oleh suntikan cepat, dan jika berjalan langsung di lingkungan produksi, radius ledakan menjadi cerita yang tidak pernah ingin kau ceritakan。

Model

mengejar benchmark sangat melelahkan dan sebagian besar waktu tidak sangat membantu. praktis, pada april 2026:

Claude Opus 4.7 dan Sonnet 4.6 Alat yang cocok untuk panggilan, konsistensi multi-langkah, dan pemulihan kegagalan elegan. Untuk kebanyakan beban pekerjaan. Untuk kebanyakan pekerjaan, Sonnet adalah tempat manis antara biaya dan kinerja。

Dan GPT-5-5,4 dan GPT-5,5.5 cocok untuk kebutuhan untuk kemampuan penalaran CLI/terminal terkuat, atau fakta bahwa Anda tinggal di infrastruktur OpenAI。

Gemini Gemini 2.5 dan 3 cocok untuk tugas konteks-intensif atau multi-mode-intensif。

Saat biaya lebih penting daripada kinerja tingkat atas, khususnya ketika berurusan dengan tugas yang jelas dan didefinisikan secara sempit, DeepSeek-V3.2 atau Qwen 3.6 mungkin dipertimbangkan。

model dianggap sebagai komponen pengganti. jika agen anda hanya dapat bekerja pada model, itu bukan parit, itu bau busuk. use evavals untuk memutuskan apa model untuk menyebarkan. dievaluasi kembali setiap kuartal, tidak setiap minggu。

Apa yang bisa kulewatkan

Anda akan terus-menerus dibujuk untuk belajar dan menggunakan hal-hal ini. Tidak juga. Biaya bolos mereka rendah dan menghemat banyak waktu。

OtoGen dan AG2, bukan untuk produksi。
Kerangka kerja Microsoft Microsoft telah bergeser ke pemeliharaan komunitas, dengan kecepatan distribusi yang stagnan dan pendekatan abstrak yang tidak sesuai dengan bentuk yang tim produksi benar-benar butuhkan. Penelitian Akademi Akademik bisa dilakukan, tapi tidak di atasnya。

CrewAI, bukan untuk konstruksi produksi baru。
di mana-mana, karena cocok untuk demo. para insinyur yang benar-benar membangun sistem produksi bergerak keluar dari itu. kau ingin membuat prototipe, tapi jangan mengikatnya lama-lama。

Microsoft Semantic Kernel, kecuali Anda telah terkunci jauh di dalam Microsoft Enterprise Technology, dan pembeli Anda peduli。
Ini bukan arah ekosistem menuju。

ISSPy, kecuali Anda mengkhususkan diri dalam optimalisasi skala besar program prompt。
ini memiliki nilai filosofis, tetapi penontonnya sangat sempit. ini bukan kerangka generik, juga bukan kerangka umum。

gunakan anent code-wringing independen sebagai pemilihan struktur。
Kodeks-as-aksi adalah arah penelitian yang menarik, tetapi bukan model baku dalam lingkungan produksi. Anda akan memiliki banyak peralatan dan masalah keamanan bahwa pesaing Anda mungkin tidak harus berurusan dengan sama sekali。

"Perwakilan otonom."。
OtoGPT dan BabyAGI sudah mati pada pola produk itu. Pada akhirnya, industri menerima kejujuran keterlibatan Čagentik": diawasi, berbatasan, dinilai. Pada tahun 2026, penduduk yang masih menjual anent otonom setelah penyebaran pada dasarnya menjual 2023。

Toko aplikasi agen dan tempat penandaan。
sejak 2023, orang-orang telah berkomitmen untuk ini, tapi tidak pernah benar-benar mendapat kesepakatan bisnis. perusahaan tidak akan membeli anent prefabricated generik. mereka membeli lampiran vertikal untuk hasil tertentu, atau membangunnya sendiri. jangan merancang bisnis anda sekitar mimpi cerita aplikasi。

sebagai klien, pilihan yang cermat dari horizontal "membangun anent any platform bisnis。
Contohnya adalah Google Agespace, AWS Bedrock Argentinas, Microsoft Copilot Studio. Mereka mungkin berguna di masa depan, tetapi mereka masih berantakan dan distribusi lambat, dan membeli-berlawanan-bangun buku biasanya cenderung untuk membangun anent sempit atau membeli yang vertikal. Pengecualiannya adalah Salesforce Agentforce dan Servicenow Now Assist, karena mereka menang dalam sistem workstream yang sudah Anda gunakan。

Jangan ikuti SWE-bench dan OSWorld rankings。
Para peneliti Berkeley mencatat pada tahun 2025 bahwa hampir semua benchmark terbuka dapat diperingkat tanpa benar-benar menyelesaikan tugas terbawah. Sekarang tim akan menggunakan Terminal-Bench 2.0 dan eval internal sendiri sebagai sinyal yang lebih nyata. Lalai untuk tetap curiga pada jumlah tunggal lompatan bench。

secara naif paralel struktur angent ganda。
lima agen agen zegoza mengobrol tentang berbagi memori, dan dalam demo terlihat cukup bagus, dan ketika itu dilakukan, itu putus. jika anda tidak dapat menggambar peta orkestra yang jelas di serbet dan menandai batas bacaan dan tulisan, jangan pergi online。

Produk agen agen baru tidak dijual menggunakan SaaS per kursi。
pasarnya berubah menjadi berbasis hasil dan penggunaan. biaya kursi tidak hanya akan membuat uang kurang untuk anda, tetapi juga akan mengirim sinyal kepada pembeli bahwa anda tidak percaya bahwa produk akan memberikan。

bingkai berikutnya Anda lihat pada Hacker News minggu ini。
Tunggu enam bulan. Jika masih penting, kau akan tahu. Jika tidak masalah, kau simpan satu gerakan。

Bagaimana kita melangkah maju

jika anda tidak hanya mencoba untuk bersaing dengan angent, tetapi anda benar-benar ingin menggunakan angent, urutan berikut adalah valid. ini membosankan, tapi berguna。

Pertama, hasil yang sudah penting. Jangan pilih moonshot, jangan datang dan lakukan proyek horizontal "agent platform". Anda memilih sesuatu yang menarik minat bisnis Anda, dan dapat diukur: mengurangi jumlah pesanan layanan penumpang, menghasilkan versi pertama dari ulasan hukum, penyaringan, menghasilkan laporan bulanan. Keberhasilan Agen Agen Polyna bergantung pada peningkatan hasil akhir ini. Sudah menjadi target evaluasimu sejak hari pertama。

langkah ini lebih penting daripada langkah lain karena mengikat semua keputusan selanjutnya. dengan hasil konkret, pilihan kerangka kerja tidak lagi menjadi isu filosofis, dan anda akan memilih kerangka kerja yang menyampaikan hasil ini secepat mungkin. pilihan dari model bukan lagi argumen benchmark, tapi pilihan dari eval anda untuk membuktikan model yang efektif untuk pekerjaan ini. kita tidak perlu memori, subagen, sejarah adat" bukan lagi eksperimen pemikiran, tetapi ditambahkan hanya ketika pola kegagalan tertentu diperlukan。

tim-tim yang melewati langkah ini sering berakhir membuat platform horizontal yang tak seorang pun mau. tim yang mengambil langkah ini dengan serius biasanya memberikan yang sempit yang dapat kembali dalam seperempat. dan agen online ini akan mengajari mereka lebih dari dua tahun untuk membaca。

Sebelum Anda pergi sejalan dengan apa pun, mengatur Tracing dan evaval. Ambil Langfuse atau LangSmith, ambil. Prodeskel Binapemdes dataset emas kecil secara manual jika perlu. Sampel berlabel 50 sudah cukup. Kau tak bisa memperbaiki apa yang tak bisa kau ukur. Ini akan menjadi sekitar 10 kali biaya sistem。

Mulai dengan satu putaran anent. Select LangGraph atau AI Pydantic. Pemilihan model Claude Sonet 4.6 atau GPT-5. Berikan angent tiga sampai tujuh alat yang dirancang dengan baik. Buat sistem berkas atau database sebagai negara. Kirim pertama ke kisaran kecil pengguna, menonton trek。

dia menganggap anent sebagai produk, bukan proyek. ini akan gagal dengan cara yang tidak anda harapkan, dan kegagalan itu adalah peta jalan anda. bangun set pengembalian dengan produksi nyata. setiap perubahan prompt, penggantian model, modifikasi alat disahkan sebelum penyebaran. kebanyakan tim menganggap remeh masukan di sini, dan kebanyakan keandalan berasal dari sini。

Ini hanya ketika Anda telah mendapatkan hak untuk memperluas lingkup, kemudian menambahkan kompleksitas. Ketika konteksnya menjadi kerudung, para subagen diperkenalkan. Sia-siaks menyisipkan bingkai memori ketika konteks jendela tunggal tidak dapat membawa isi yang diperlukan. Ketika API bawah benar-benar tidak ada, maka perkenalkan penggunaan perintah atau penggunaan Browner. Jangan merancang hal-hal ini di muka. Biarkan mode kegagalan menarik mereka masuk。

Infrastruktur yang membosankan. Peralatan menggunakan MCP. Sandboxes menggunakan E2B atau Brownserbase. Status dengan Postgres, atau Anda sudah menjalankan penyimpanan data. Autentifikasi dan keabsahan juga mengikuti sistem yang ada hingga sejauh mungkin. Infrastruktur aneh itu jarang pemenang yang sebenarnya, pemenang yang sebenarnya adalah disiplin。

Dari hari pertama, kami melihat model ekonomi unit. Biaya aksi masing-masing, tingkat cache, biaya siklus uji ulang, distribusi panggilan model. Agensinya terlihat murah di fase PoC, tapi jika Anda tidak mulai memantau biaya hasil, itu meledak ketika 100 kali lebih besar. A A US $ 0.50 per run dari PoC bisa menjadi US $ 50.000 per bulan pada skala sedang. Tim yang tidak melihat ini di muka akan mengadakan rapat CFO yang tidak mereka sukai。

modelnya dijual kembali secara triwulanan daripada mingguan. kunci koin. pada akhir kuartal, jalankan model depan saat ini dengan setelan eval anda. jika data menunjukkan perubahan, perubahan dilakukan. jadi anda mendapatkan manfaat kemajuan model, sementara menghindari kebingungan mengejar setiap rilis。

Bagaimana menilai air pasang

berikut ini adalah sinyal khusus bahwa sesuatu mungkin benar: sebuah tim teknik yang dihormati telah menulis postmorem digital, bukan hanya mengklaim berapa banyak orang menggunakannya; itu adalah bahasa dasar, seperti protokol, model, atau infrastruktur, bukan shell atau kemasan; ia berinteraksi dengan sistem yang sudah anda jalankan, bukan pengganti untuk itu; itu adalah bahasa dasar, seperti sebuah bahasa, seperti protokol, model, atau infrastruktur, bukan sebuah shell atau kemasan; ia berinteraksi dengan sistem yang sudah anda jalankan, bukan sebuah pengganti untuk itu; pembicaraan lapangan tentang apa yang diselesaikan, bukan apa yang terbuka; itu telah cukup lama untuk menulis blog yang " di mana tidak bekerja."。

Berikut ini adalah sinyal spesifik yang menunjukkan bahwa sesuatu mungkin hanya kebisingan: 30 hari kemudian, masih ada hanya demo video dan tidak ada kasus produksi; lompatan benchmark tidak sebersih yang mereka benar; pitch menggunakan "autonomous" " "appent OS" atau "build setiap kesempatan" tanpa kualifikasi; dokumen kerangka berjanji bahwa Anda akan membuang tracing yang ada, auth dan konfigurasi; Nomor bintang tumbuh dengan cepat, tetapi angka tidak tumbuh secara bersamaan; Twitter cepat tapi GitHub tidak bisa bersaing。

Kebiasaan mingguan yang berguna adalah memiliki 30 menit pada hari Jumat untuk melihat bidang ini. Baca tiga hal: Blog Teknik Antropika, catatan Simon Willison, Ruang Latent. Jika ada postmorem minggu ini, bersihkan satu atau dua lagi. Sisanya bisa melompat. Sesuatu yang sangat penting yang tidak akan kau lewatkan。

Apa selanjutnya

dua perempat berikutnya layak dicatat, bukan karena mereka akan menang, tetapi karena masalah apakah ini adalah sinyal atau belum sepenuhnya diselesaikan。

Model forking paralel untuk Agen Reflit 4。
ini adalah salah satu pilihan pertama untuk secara serius mencoba "multi-agent kerja paralel" tanpa tersandung oleh status bersama. jika dapat menahan setelah ukuran, pola baku ini mungkin berubah。

Kedewasaan berbasis migran。
Lintasan pendapatan dari Sierra dan Harvey telah disahkan di daerah vertikal sempit. Pertanyaannya adalah apakah itu bisa diperpanjang ke daerah lain atau hanya untuk skenario vertikal。

Keterampilan sebagai lapisan penahan kemampuan。
Pembesaran direktori AGENTS.md dan keterampilan pada GitHub menunjukkan bahwa cara baru untuk menangkap kemampuan individu muncul. Ini adalah pertanyaan terbuka apakah akan distandardisasi pada tingkat kapabilitas seperti MCP standardisasi alat。

Kode Claude, April 2026, mundur massal dan reset。
salah satu industri agen terkemuka merilis versi yang menyebabkan 47% kinerja mundur, dan pertama kali ditemukan oleh pengguna, setelah pengawasan internal. hal ini menunjukkan bahwa bahkan dalam memimpin, praktik tingkat produksi masih sangat belum dewasa. jika hal ini mendorong seluruh industri untuk berinvestasi eval online yang lebih baik, maka ini sehat。

Suara Wourdan menjadi antarmuka klien baku。
Saluran suara Melebihi saluran teks Sierra oleh 2025. Jika model berlanjut di bidang vertikal lainnya, kendala desain seperti penundaan, interupsi dan real-time tool call-up menjadi masalah kelas pertama, dan banyak struktur yang ada perlu dikerjakan ulang。

kemampuan angent model sumber terbuka terus mengurangi kesenjangan。
DeepSeek-V3.2 Dukungan penduduk asli pribumi untuk berpikir-into-tool-use, Qwen 3.6 dan ekologi model sumber terbuka yang lebih luas merupakan perhatian. Prestasi biaya dari misi angent sempit berubah. Keuntungan baku model sumber tertutup tidak akan permanen。

Setiap hal-hal ini dapat menjawab pertanyaan yang jelas: "Apa yang perlu saya lihat dalam enam bulan untuk percaya itu benar-benar penting?" Ini ujiannya. Jejak jawaban, bukan buletin。

Ini taruhan yang luar biasa

Setiap bingkai yang tak kau gunakan adalah migrasi yang tak kau berhutang masa depan. Setiap benchmark Anda tidak mengejar adalah fokus triwulan. Perusahaan - perusahaan yang memenangkan siklus ini — Sierra, Harvey, Kursor, masing - masing di bidangnya sendiri — telah memilih sasaran yang sempit, menetapkan disiplin yang membosankan dan kemudian membiarkan kebisingan di daerah ini berlalu。

Jalur tradisional adalah memilih gudang teknologi, mengambil tahun untuk menguasainya dan kemudian naik ke tangga. Ini bekerja ketika teknologi dapat stabil selama satu dekade. Tapi sekarang, kubah teknologi berubah setiap kuartal. Pemenang sebenarnya tidak lagi mengoptimalkan kemampuan untuk "mengambil kendali gudang teknologi", tetapi agak mengoptimalkan rasa, bahasa dasar dan kecepatan pengiriman. Mereka secara terbuka membangun hal - hal kecil dan belajar dengan mengantar. Orang lain diseret ke dalam ruangan karena mereka telah membuat sesuatu. Pekerjaan itu sendiri adalah kualifikasi。

Coba pikirkan baik - baik, karena inilah yang ingin dikatakan oleh seluruh artikel. Model kerja yang diterima sebagian besar dari kita menganggap bahwa dunia akan stabil cukup lama untuk memungkinkan senioritas tumbuh kembali. Anda pergi ke sekolah, mendapatkan gelar, memanjat tangga. Dua tahun di sini, tiga tahun di sana, dan resume perlahan menjadi sesuatu yang membuka pintu. Kepremisan seluruh mesin adalah bahwa itu cukup stabil untuk industri di sisinya。

tapi tidak ada kandang "lawanite di lapangan. perusahaan anda ingin bergabung mungkin berusia enam bulan. mereka mungkin membangun kerangka yang baru berusia 18 bulan. perjanjian yang mendasari mungkin hanya dua tahun. setengah artikel yang paling sering dikutip di daerah ini bahkan tidak ada di daerah ini tiga tahun yang lalu. tidak ada tangga untuk mendaki, seperti bangunan telah berubah. ketika tangganya gagal, sisanya adalah cara yang lebih tua untuk membuat sesuatu, memasukkannya ke internet, sehingga anda dapat memperkenalkan diri. ini adalah jalan yang luar biasa, karena melewati sistem kualifikasi. tapi di daerah yang bergerak, itu juga satu-satunya jalan untuk benar-benar tangguh pertumbuhan。

itulah yang kita lihat dari dalam. bahkan raksasa berada di tempat terbuka, penerbitan mengembalikan isu, menulis kilas balik dan patch online. beberapa tim paling menarik tahun ini tidak berada di daerah ini 18 bulan yang lalu. orang yang tidak menulis kode bekerja dengan angent, menyampaikan perangkat lunak nyata. dokter - dokter mungkin dikuasai oleh orang - orang yang memilih bahasa dasar dan mulai bergerak cepat. pintu telah dibuka. kebanyakan masih mencari aplikasi。

Kau benar-benar perlu untuk mengembangkan keterampilan, bukan "agen." Sebaliknya, itu adalah disiplin untuk menilai pekerjaan mana yang akan mendapat manfaat dari pertumbuhan dalam bidang yang berubah di permukaan. Semakin meningkatnya konteks akan semakin meningkat. Desain alat-alat buatan akan meningkat nilainya. Model Orchestra-subagent diharapkan meningkat. Diskon Eval akan menambah nilai. Pemikiran Betina akan meningkatkan pertumbuhan. Selasa hari selasa baru saja merilis framework API tidak akan. Setelah Anda dapat membedakan mereka, gelombang rilis baru setiap minggu berhenti terlihat seperti stres dan menjadi kebisingan Anda dapat mengabaikan。

Kau tak perlu belajar segalanya. Anda perlu belajar apa yang akan tumbuh dan melewatkan apa yang tidak akan tumbuh. Pilih satu hasil. Menangkap dan mengevaluasi sebelum Anda pergi online. Gunakan LangGraph, atau setara dengan tim Anda. Guna MCP. Dia menempatkan waktu berjalan di kotak pasir. Lalai mulai dengan anent tunggal. Skop ini diperluas hanya ketika pola kegagalan menarik dalam kompleksitas. Modelnya kembali meningkat. Baca tiga hal Jumat。

itu buku permainan. apa yang tersisa adalah rasa, kecepatan pengiriman dan kesabaran untuk tidak mengejar hal-hal yang tidak relevan。

Buat sesuatu. Mereka ada di Internet. Era ini memberi pahala kepada orang yang membuat sesuatu, bukan mereka yang hanya menggambarkannya. Sekarang itu adalah jendela terbaik untuk pembuat sejati."。

[Terkekeh]Bahasa Asli]

PANDUAN BELAJAR AI: BELAJAR, MENGGUNAKAN, TIDAK MENYENTUH