Judul asli: Apa yang harus Dipelajari, Membangun, dan Skip dalam Informasi AI (2026)
Pos ini adalah bagian dari liputan khusus Protes Suriah 2011
Foto oleh Peggy Block Beats

Editor menekan: ruas AI Agent memasuki periode ledakan alat dan kurangnya konsensus。

setiap minggu, fremeworks baru, model baru, benchmarks baru dan produk "10 kali lebih efisien" muncul, tapi pertanyaan yang benar-benar penting adalah bukan "bagaimana untuk bersaing dengan semua perubahan" tapi "apa benar-benar layak untuk diinvestasikan"。

Dalam pandangan penulis, itu bukan kerangka kerja terbaru, tapi kapasitas yang lebih rendah, yaitu, ketahanan jangka panjang yang nyata dalam waktu saat ini ketika gudang teknologi sedang ditulis ulang: Ini disebut "context engineering", desain alat, sistem eval, mode Orchebra- subagent, sandbox dan pemikiran alami. Kemampuan ini tidak akan cepat gagal dengan model, tetapi akan membentuk dasar untuk membangun AIAgent dapat diandalkan。

Artikel lebih lanjut menyatakan bahwa Agen AI juga mengubah arti dari "Kualifikasi". Di masa lalu, kualifikasi akademik, nilai-nilai dan tahun-tahun yang masuk lulus; namun, di daerah di mana bahkan raksasa terbuka mengira, CVs bukan lagi satu-satunya dokumen. Apa yang Anda lakukan, apa yang Anda disampaikan, menjadi lebih penting。

Oleh karena itu, makalah ini bukan hanya diskusi tentang apa yang Al Agen pelajari pada tahun 2026, apa yang dia gunakan, apa yang dia lompati, tapi pengingat bahwa, pada saat meningkatkan kebisingan, kapasitas yang paling langka adalah untuk menilai apa yang layak dipelajari dan untuk terus menerus membuat sesuatu yang benar-benar berguna。

Berikut adalah teks asli:

Setiap hari, kerangka kerja baru, benchmark baru, produk "10 kali lebih efisien" yang baru muncul. Pertanyaannya adalah tidak lagi "Bagaimana saya mengikuti" tapi: apa sinyal nyata di sana dan apa hanya kebisingan dalam rasa urgensi。

Setiap peta jalan, satu bulan setelah publikasi, mungkin menjadi usang. Bingkai Anda baru saja terakhir kuartal sekarang tua. Benchmark yang Anda gunakan untuk mengoptimalkan dicat dan diganti dengan cepat. Di masa lalu, kami telah dilatih untuk mengikuti jalan tradisional: sebuah gudang teknologi, sesuai dengan sekelompok tema dan penghitung; serangkaian pengalaman kerja, tahun yang berhubungan dan judul; dan langkah lambat. Tapi AI menulis ulang kanvas ini. Hari ini, selama petunjuknya benar dan estetika diakui, seseorang dapat memberikan pekerjaan yang seorang insinyur dengan dua tahun pengalaman perlu dilakukan。

KAPASITAS PROFESIONAL TETAP PENTING. TIDAK ADA PENGGANTI UNTUK ANDA MELIHAT SISTEM TURUN, PUKUL DUA PAGI DENGAN KEBOCORAN MEMORI, DAN TIDAK ADA PENGGANTI UNTUK FAKTA BAHWA ANDA TELAH MAMPU KELUAR DARI PUBLIK DAN MEMILIH SOLUSI YANG MEMBOSANKAN TAPI BENAR, DAN TERBUKTI BENAR. PENILAIAN SEPERTI ITU AKAN MENINGKATKAN NILAI. TAPI APA YANG TIDAK MENAMBAHKAN SEPERTI DI MASA LALU ADALAH KEAKRABAN ANDA DENGAN PEKAN INI FRAME PANAS PERMUKAAN API. ENAM BULAN KEMUDIAN, MUNGKIN TELAH BERUBAH LAGI. PEMENANG SEBENARNYA DUA TAHUN KEMUDIAN ADALAH MEREKA YANG TELAH MEMILIH DASAR-DASAR DAYA TAHAN DAN MEMUNGKINKAN SUARA-SUARA LAIN UNTUK LULUS。

saya telah membangun produk di daerah ini selama dua tahun terakhir, mendapatkan lebih dari $250.000 per tahun, dan saya sekarang bertanggung jawab atas teknologi di perusahaan tersembunyi. jika ada yang bertanya padaku, "apa yang harus aku pedulikan sekarang?" itu yang akan kukirim padanya。

Ini bukan peta jalan. Agen belum diberi tujuan yang jelas. Laboratorium pabrik besar juga terbuka, mendorong isu pengembalian langsung kepada jutaan pengguna, menulis ulang dan patch online. Jika tim di balik Claude Code dapat mempublikasikan versi yang menyebabkan 47% kinerja untuk mundur, dan sampai komunitas pengguna menemukan masalah, ide "peta stabil ada di bawah" adalah fiksi. Semua orang masih mencari. Kesempatan untuk start- up adalah tepat karena raksasa tidak tahu jawabannya. Orang-orang yang tidak bisa menulis kode bekerja dengan kemarahan, menyampaikan pada hari Jumat sesuatu yang M.D. pikir tidak mungkin。

hal yang paling menarik tentang saat ini adalah bahwa hal itu mengubah pemahaman kita tentang kualifikasi. jalur tradisional dioptimalkan dengan kualifikasi: derajat, posisi junior, posisi senior, pos senior, dan posting yang perlahan-lahan akumulasi. hal ini dibenarkan ketika tidak ada perubahan radikal di bagian bawah. tapi sekarang, tanah di bawah ini bergerak pada kecepatan yang sama dari kaki semua orang. perbedaan antara demo agen berusia 22 tahun yang dirilis di depan umum dan insinyur senior berusia 35 tahun tidak lagi berketerampilan selama satu dekade. ini 22 tahun - tua dan insinyur senior menghadap kanvas kosong yang sama. bagi mereka, pemulihan nyata pertumbuhan adalah kemauan untuk memberikan secara berkelanjutan dan kapasitas dasar bahwa fraksi itu tidak akan menjadi usang dalam seperempat。

Ini adalah inti dari artikel. Selanjutnya, saya akan memberikan cara menilai kemampuan dasar yang layak perhatian Anda dan yang rilis dapat diteruskan secara langsung. Ambil apa pun yang tepat untuk Anda, meletakkannya。

Filter yang sangat efektif

Kau tidak bisa mengikuti pengumuman mingguan yang baru, dan kau tidak boleh melakukan itu. Apa yang Anda butuhkan bukan aliran informasi, tapi filter。

Lima tes telah valid selama 18 bulan terakhir. Mari kita melalui lima pertanyaan ini sebelum kita mendapatkan sesuatu yang baru ke dalam teknologi Anda。

Apakah penting dalam dua tahun
Jika itu hanya sebuah shell, parameter CLI, atau "beberapa versi Devin" di luar model garis depan, jawabannya hampir selalu tidak. Jika ini adalah bahasa dasar, seperti protokol, pola memori, metode kotak pasir, jawabannya lebih mungkin ya. Kehidupan setengah-produk shell pendek, dan setengah-kehidupan dari bahasa dasar dapat dihitung secara tahunan。

Apakah ada seseorang yang Anda hormati yang telah membuat produk nyata atas dasar itu dan telah menulis pengalaman jujur
ARTIKEL PEMASARAN TIDAK MASUK HITUNGAN. SEBUAH BLOG BERJUDUL "KAMI MENCOBA X DI LINGKUNGAN PRODUKSI, DAN ADA MASALAH DI SINI" LEBIH BERHARGA DARIPADA 10 PENGUMUMAN. SINYAL YANG BENAR-BENAR BERGUNA DI DAERAH INI AKAN SELALU DATANG DARI MEREKA YANG KEHILANGAN AKHIR PEKAN SAMPAI AKHIR。

apakah itu berarti anda akan kehilangan tracing, pengujian ulang, konfigurasi, sertifikasi
Jika demikian, ini adalah kerangka kerja untuk mencoba membuat platform sendiri. Mencoba untuk menjadi platform framework, tingkat kematian sekitar 90%. Ini adalah bahasa dasar yang baik yang harus tertanam dalam sistem Anda saat ini, tidak memaksa Anda untuk bermigrasi。

Jika Anda melewatkan selama enam bulan, apa harganya
Untuk kebanyakan publikasi, jawabannya adalah apa-apa. Kau akan tahu lebih dalam enam bulan, dan versi yang menang akan lebih jelas. Tes ini memungkinkan Anda untuk melewatkan 90% dari rilis tanpa kecemasan. Tapi kebanyakan orang menolak menggunakannya karena melewatkan sesuatu membuatmu merasa kau tertinggal. Tidak juga。

dapatkah anda menilai apakah itu benar-benar membuat anda marah lebih baik
Jika tidak, maka kau hanya menebak. Tanpa ujian, tim berjalan dengan perasaan, dan akhirnya kembali online. Dengan tim evaluasi, Anda dapat memberitahu diri sendiri: Pada beban spesifik minggu ini, adalah GPT-5.5 lebih baik atau Opus 4.7 lebih baik。

Jika Anda hanya mengambil satu kebiasaan dari artikel ini, itu adalah bahwa setiap kali Anda mempublikasikan hal baru, menulis apa yang perlu Anda lihat dalam enam bulan, itu benar-benar penting. Kemudian kembali dalam enam bulan untuk memeriksa. Sebagian besar waktu, pertanyaan itu sendiri telah memberikan jawaban, dan perhatian Anda akan ditujukan untuk hal-hal yang benar-benar membuat untuk pertumbuhan。

Kemampuan nyata di balik tes ini lebih sulit untuk nama daripada mereka. Ini adalah kemampuan untuk menjadi "disederhanakan". Minggu ini dalam kerangka kebakaran Hacker News, mereka akan memiliki pemandu sorak dalam 14 hari, dan mereka semua akan terdengar cerdas. Enam bulan kemudian, bagaimanapun, setengah dari mereka frameworks tidak lagi dipertahankan dan pemandu sorak sudah pindah ke hotspot berikutnya. Mereka yang tidak terlibat, menyimpan perhatian mereka dan meninggalkan kepada mereka yang telah bertahan "keheningan" tes setelah panas telah berlalu. Ini adalah keterampilan profesional nyata di bidang ini yang menahan, menonton dan berkata, "Aku akan tahu dalam waktu enam bulan". Buletin dibaca oleh semua orang, tapi hampir tidak ada yang baik di tidak menanggapi mereka。

Apa yang harus dipelajari

Konsep, pola, bentuk-bentuk. Ini adalah hal-hal yang benar-benar melunasi. Mereka dapat menyeberangi model, framework dan pergeseran paradigma. Mengenal mereka dengan baik, Anda bisa mendapatkan alat baru dalam satu akhir pekan. Jika Anda melewatkan mereka, Anda akan selalu belajar tentang mekanisme permukaan。

Rekayasa Konteks

Dalam dua tahun terakhir, perubahan nama yang paling penting adalah "Promt Engineering" menjadi "Context Engineering". Perubahan ini nyata, bukan hanya baru。

Model ini bukan lagi salah satu yang Anda menulis perintah cerdas untuk itu. Ini berubah menjadi sesuatu yang Anda butuhkan untuk merakit setiap langkah jalan untuk bekerja. Konteks ini berisi baik perintah sistem, alat, skema, diambil dokumen, keluaran alat sebelumnya, kondisi scratchpad, dan dikompresi catatan sejarah. Perilaku Agen adalah hasil dari semua elemen yang Anda masukkan ke dalam jendela konteks。

anda perlu menginternalisasi hal ini: konteks adalah negara. setiap token tidak relevan mengkonsumsi kualitas penalaran. konteksnya membusuk, kegagalan produksi yang sebenarnya. pada saat langkah kedelapan dari misi 10-langkah, target awal mungkin telah dimakamkan oleh cara keluaran. sebuah tim yang memberikan agen yang dapat diandalkan akan mengambil inisiatif untuk meringkas, kompres dan menyesuaikan konteks. mereka akan menjalankan deskripsi alat, mereka akan memperlambat bagian statis dan mereka akan menolak perubahan bagian cache. cara mereka melihat jendela konteks seperti insinyur berpengalaman yang melihat memori。

salah satu cara khusus perasaan adalah untuk mengambil anen di setiap lingkungan produksi dan membuka log trek penuh. lihat konteks langkah pertama dan lihat konteks langkah ketujuh. menghitung berapa banyak token yang masih bekerja. anda mungkin malu ketika anda melakukan ini pertama kalinya. dan kemudian anda akan memperbaikinya, dan agen yang sama jelas akan menjadi lebih handal tanpa mengubah model, tanpa mengubah prompt。

Jika Anda hanya membaca satu artikel tentang hal itu, Anda membaca "Effictive Contacy Engineering untuk AI Agency". Dan kemudian mereka membaca repertoar mereka pada sistem penelitian multient, dan artikel memberikan gambaran tentang betapa pentingnya untuk memisahkan konteks saat sistem berkembang。

Desain alat

Alat adalah antent di mana bisnis Anda datang ke kontak. Model memilih alat sesuai dengan nama dan deskripsi alat dan menentukan bagaimana mencoba lagi berdasarkan informasi yang salah. Kontrak instrumen konsisten dengan cara LLM untuk mengekspresikannya, dan menentukan apakah modelnya sukses atau gagal。

Lima sampai sepuluh peralatan bernama, lebih dari 20 alat biasa. Nama alat harus seperti kata kerja dalam bahasa Inggris alami. Deskripsi harus ejaan ketika harus digunakan dan ketika seharusnya tidak. Pesan yang salah harus umpan balik bahwa model dapat bertindak. Lebih dari 500 gunung tanda, tolong rangkuman sebelum mencoba. Salah satu tim di ruang terbuka melaporkan bahwa mereka telah mengurangi siklus uji ulang dengan 40 persen dengan hanya menulis ulang informasi yang salah。

Anthropic 'Menulis hal-hal untuk tujuan' adalah titik awal yang baik. Setelah membaca, tambahkan alat dan pengamatan Anda sendiri untuk melihat mode panggilan yang sebenarnya. Agen yang paling handal, hampir selalu di sisi alat. Banyak orang terus mengalihkan cepat, mengabaikan di mana pengaruh nyata adalah。

Mode guru-guru

debat tahun 2024 dan 2025 mengenai multiagen berpuncak dalam program terintegrasi yang kini diadopsi oleh semua orang. nut- too- sistem maksud, misalnya beberapa agen yang menulis dalam keadaan bersama dalam paralel, akan gagal bencana, karena kesalahan akan selalu dipadatkan. sejauh mana siklus semut tunggal dapat diperpanjang sering lebih jauh dari yang anda pikirkan. hanya ada satu jenis beberapa agen yang dapat bekerja di lingkungan produksi: sebuah organisasi yang memberikan tugas yang sempit dan mudah untuk mengisolasi subagen dan kemudian mensintesis hasil mereka。

Sistem penelitian antropik bekerja seperti ini. Sub-agen Claude Code bekerja seperti ini. Spring AI dan sebagian besar produksi frameworks sekarang standardizing model ini. Sub-agen memiliki konteks kecil dan fokus dan tidak dapat mengubah status berbagi. Menulis adalah tanggung jawab dari perencana。

"Don 't Build Multi- Agents" oleh Cognition dan "How we build our multi- agent research system" by Anthropic seems to be the converse view, but it' s the same thing in different terms. Keduanya layak dibaca。

standar untuk menggunakan anent tunggal. hanya ketika satu agen tidak memukul batas yang nyata akan dipertimbangkan untuk mengatur-subagen: misalnya, tekanan jendela konteks, penundaan yang disebabkan oleh panggilan alat urutan, atau heterogen misi tidak bermanfaat dari konteks fokus. ini adalah satu set hal-hal yang anda tidak perlu sampai anda merasa sakit。

Hasil dan Data Emas Diatur

setiap tim yang memberikan angent handal memiliki eval. tanpa tim evaluasi, biasanya tidak ada pengiriman yang dapat diandalkan. ini adalah kebiasaan yang paling memanfaatkan di lapangan dan hal paling diremehkan yang pernah saya lihat di setiap perusahaan。

Pendekatan efektif adalah untuk mengumpulkan jejak lingkungan produksi, untuk menandai kasus kegagalan dan memperlakukan mereka sebagai kemunduran. Setiap kali kegagalan baru online, tambahkan. Bagian subjektif menggunakan LLM-as- hakim dan bagian lain menggunakan pencocokan yang tepat atau pemeriksaan prosedur. Jalankan paket tes sebelum perubahan model atau alat apapun. Blog Spetify Engineering melaporkan bahwa lapisan hakimnya akan berhenti sekitar 25% dari keluaran agen sebelum keluaran online. Tanpa itu, satu dari setiap empat hasil buruk mencapai pengguna。

model mental yang benar-benar mengambil akar adalah bahwa eval adalah tes unit untuk memastikan bahwa angent tidak menyimpang dari tugasnya ketika segala sesuatu yang lain berubah. model akan menghasilkan versi baru, kerangka kerja akan mempublikasikan perubahan destruktif dan pemasok akan mengabaikan titik akhir. eval anda adalah satu-satunya yang dapat memberitahu anda apakah angent masih bekerja. tanpa evaluasi, kau menulis sebuah sistem yang pembenaran tergantung pada niat baik dari target yang bergerak。

Eval frameworks, seperti Braintrust, Langfuse evals, LangSmith, baik. Tapi mereka bukan botol. Bottleneck nyata adalah bahwa Anda pertama kali memiliki set data ditandai. Hari pertama harus dimulai, sebelum apa pun diperluas. 50 sampel asli dapat ditandai secara manual dalam satu sore. Tidak ada alasan。

Perlakukan sistem berkas sebagai keadaan, dan Think- Act-Amati siklus

Untuk setiap orang yang bekerja pada dasar multi- langkah asli, struktur tahan lama adalah: refleksi, tindakan, observasi, pengulangan. Sistem dokumen atau penyimpanan yang terstruktur adalah sumber faktual. Setiap gerakan direkam dan dimainkan ulang. Claude Code, Cursor, Devin, Aider, OpenHands, Goose semua kental ke dalam ini。

model itu sendiri tidak dalam keadaan. frame yang berjalan harus dalam keadaan. sistem berkas adalah bahasa dasar berbasis negara bagian yang dimengerti setiap pengembang. setelah kerangka kerja ini diterima, seluruh disiplin secara alami akan terungkap: pos pemeriksaan, pemulihan, validasi sub- agen, eksekusi sandbox。

dan bagian yang lebih dalam di sini adalah bahwa dalam setiap produksi yang layak membayar tagihan, itu lebih bekerja daripada model. model memilih langkah berikutnya, memeriksanya, menjalankannya di kotak pasir, menangkap hasilnya, memutuskan umpan balik apa yang akan dikembalikan, memutuskan kapan harus berhenti, memutuskan kapan memeriksa titik, memutuskan kapan menghasilkan subagent. mengubah model ke model lain kualitas yang sama, harness yang baik masih memberikan produk. dan bahkan model terbaik dunia akan menghasilkan anent yang akan lupa apa yang dia lakukan secara acak。

jika anda membangun sesuatu yang lebih rumit daripada satu kali alat untuk menelepon, maka tempat anda benar-benar harus menghabiskan waktu adalah harness. model hanyalah satu komponen。

MCP CONCEPTUALLY DIPAHAMI

Jangan hanya belajar bagaimana memanggil server MCP. Untuk mempelajari modelnya. Ini menciptakan pemisahan yang jelas antara kapasitas, alat, dan sumber daya dari kemarahan dan menyediakan otentikasi skalable dan program transmisi di bagian bawah. Setelah Anda memahami ini, "framework integrasi agen" lainnya yang Anda lihat adalah seperti versi format rendah dari MCP, dan Anda menghemat waktu untuk mengevaluasi mereka satu per satu。

Linux Foundation sekarang menjadi tuan rumah MCP. Semua model utama penyedia mendukungnya. Hal ini sekarang lebih dekat dengan kebenaran daripada sarkasme。

Sandboxing adalah dasar pepatah

setiap kelas produksi berjalan dalam bak pasir. setiap peramban telah mengalami injeksi masalah tidak langsung. setiap penyewa multi- memiliki yurisdiksi di beberapa tahap. anda harus menggunakan sandboxing sebagai bahasa asli dari infrastruktur, daripada sebagai fungsi untuk ditambahkan pada permintaan klien。

pengetahuan dasar perlu dipelajari: segregasi proses, kontrol ekspor jaringan, manajemen jangkauan kunci, dan batas otentikasi antara kemarahan dan alat. tim yang menunggu izin keamanan pelanggan untuk diganti pada dasar iklan hoc sering kehilangan transaksi mereka. tim yang telah bekerja di atasnya sejak minggu pertama akan mudah berlalu dalam proses pengadaan perusahaan。

Apa yang harus dibangun dengan

Berikut ini adalah pilihan khusus pada April 2026. Pilihan ini berubah, tapi tidak terlalu cepat. Di lantai ini, cobalah untuk memilih sesuatu yang membosankan tapi mantap。

Lapis

LangGraph adalah pilihan baku dalam lingkungan produksi. Sekitar sepertiga dari perusahaan besar yang mengamuk menggunakannya. Pendekatan abstrak sesuai dengan bentuk sebenarnya dari sistem marah: status dari tipe, sisi kondisi, aliran kerja yang abadi, dan titik pemeriksaan human- in-the-loop. Kerugian adalah untuk menuliskannya; keuntungan adalah ketika seseorang benar-benar memasuki lingkungan produksi, Anda benar-benar perlu untuk mengontrol hal-hal ini, dan obrolan sesuai dengan kontrol ini。

Jika Anda terutama menggunakan TypeScript, Mastra adalah pilihan yang sebenarnya. Ini skenario terjelas untuk model mental ekologi ini。

Jika tim Anda menyukai Pydantic dan ingin keamanan sebagai warga negara kelas satu, Pydantic AI adalah pilihan yang wajar Greenfield. Itu dirilis pada akhir 2025 v1.0, dan momentum tidak ada。

Untuk bekerja dengan provider-native, misalnya penggunaan komputer, suara, interaksi real-time, Claude Agen SDK atau OpenAgents SDK dapat digunakan dalam node LangGraph. Jangan mencoba untuk membuat mereka lapisan atas sistem isomer. Mereka sempurna untuk apa yang mereka lakukan。

Tapis Protokol

MCP, TIDAK ADA YANG LAIN。

Pasang alat Anda bersama-sama ke server MCP. Integrasi eksternal dikonsumsi dengan cara yang sama. Sekarang MCP telah melewati ambang batas: dalam kebanyakan kasus, sebelum Anda perlu membangun diri sendiri, Anda dapat menemukan server yang sudah dibuat. Pada tahun 2026, alat yang ditulis sendiri-sendiri ditambahkan, sebagian besar gratis。

Tapis Memori

ketika memilih sistem memori, pilih bukan oleh panas, tetapi dengan otonomi individu。

Mem0 cocok untuk personalisasi percakapan: preferensi pengguna, riwayat cahaya. Zep cocok dengan sistem dialog tingkat produksi, terutama dalam situasi di mana negara akan berkembang dan memerlukan pelacakan fisik. Letta cocok dengan mereka yang membutuhkan konsistensi dalam beberapa hari atau bahkan minggu siklus kerja. Kebanyakan tim tidak membutuhkan ini, tetapi yang benar-benar membutuhkannya, mereka membutuhkannya。

Kesalahan umum adalah bahwa tidak ada masalah memori, tetapi kerangka memori pertama. Mulai dengan apa yang dapat mengakomodasi jendela konteks, ditambah basis data vektor. Anda hanya dapat menambahkan memori ke sistem memori jika Anda jelas menyatakan pola kegagalan yang ingin diselesaikan。

observable dan evals

Langfuse adalah pilihan baku open source. Hal ini dapat menjadi tuan rumah sendiri, menggunakan lisensi MIT, untuk menutupi penelusuran, manajemen versi cepat, dan basis LLM- as- menilai versi. Jika kau sudah menjadi pengguna LangChain, integrasi LangSmith akan lebih dekat. Braintrust cocok untuk proses-tipe proses mengalir, terutama mereka yang membutuhkan perbandingan ketat. OpenLMetry / Traceoop cocok untuk sebuah repositori multibahasa yang membutuhkan integrasi vendor- netral OpenTelemetri。

Anda perlu memiliki baik pelacakan dan evals. Tracing menjawab, "Apa yang marah lakukan?" "Apakah kau lebih baik dari kemarin atau lebih buruk?" Tidak, jangan online. Hari pertama, item-item ini tetap pada biaya yang jauh lebih rendah daripada memperbaikinya setelah berjalan buta。

Runtime dan Sandbox

E2B cocok untuk eksekusi kode sandbox umum. Brownserbase dengan Stagehand, cocok untuk otomatisasi peramban. Perusahaan Anthropic Gunakan sesuai dengan skenario yang membutuhkan kendali level sistem operasi yang nyata. Modal cocok untuk jangka pendek。

jangan pernah menjalankan kode tanpa sandboxing. anen yang telah rusak oleh suntikan cepat, dan jika itu berjalan langsung di lingkungan produksi, radius ledakan menjadi cerita yang tidak ingin anda ceritakan。

Model

pengejaran terhadap benchmark melelahkan dan sebagian besar waktu tidak sangat membantu. pada bulan april 2026:

Claude Opus 4.7 dan Sonnet 4.6 Alat yang cocok untuk panggilan, konsistensi multi- langkah, dan pemulihan kegagalan elegan. Untuk kebanyakan pekerjaan. Bagi kebanyakan pekerjaan, Sonnet adalah titik manis antara biaya dan kinerja。

GPT-5.4 dan GPT-5.5 cocok untuk kebutuhan untuk kemampuan penalaran CLI / terminal terkuat, atau fakta bahwa Anda tinggal di infrastruktur OpenAI。

Gemini 2,5 dan 3 cocok untuk konteks-intensif atau multi- mode-intensive tugas。

Ketika biaya lebih penting daripada kinerja tingkat atas, terutama ketika berhadapan dengan tugas yang jelas dan sempit, DeepSeek -V3.2 atau Qwen 3.6 dapat dipertimbangkan。

model dianggap sebagai komponen pengganti. jika agen anda hanya dapat bekerja pada model, itu bukan parit, itu bau yang buruk. gunakan eval untuk memutuskan model apa untuk disebarkan. dievaluasi ulang setiap kuartal, tidak setiap minggu。

Apa yang bisa aku lewatkan

Anda akan terus-menerus dibujuk untuk belajar dan menggunakan hal-hal ini. Tidak juga. Biaya melewatkan mereka adalah rendah dan menghemat banyak waktu。

AutoGen dan AG2, bukan untuk produksi。
Kerangka Microsoft telah bergeser ke pemeliharaan masyarakat, dengan kecepatan stagnan distribusi dan pendekatan abstrak yang tidak sesuai dengan bentuk yang tim produksi benar-benar butuhkan. Penelitian akademik dapat dilakukan, tapi tidak di atasnya。

CrewAI, bukan untuk produksi konstruksi baru。
ini di mana-mana, karena itu sempurna untuk demo. para insinyur yang benar-benar membangun sistem produksi bergerak keluar dari sana. kau ingin membuat prototipe, tapi jangan mengikatnya untuk waktu yang lama。

Microsoft Semantik Kernel, kecuali Anda telah terkunci jauh di Microsoft Enterprise Technology, dan pembeli Anda peduli。
Bukan arah ekosistem yang menuju。

DSpy, kecuali Anda mengkhususkan diri dalam optimisasi large- skala dari program prompt。
ia memiliki nilai filosofis, tapi penontonnya sangat sempit. ini bukan kerangka umum, atau bingkai umum。

gunakan kode independen untuk memeras anen sebagai seleksi struktur。
Code- as- tindakan adalah arah penelitian yang menarik, tetapi bukan model baku dalam lingkungan produksi. Anda akan memiliki banyak alat dan masalah keamanan bahwa pesaing Anda mungkin tidak harus berurusan dengan sama sekali。

"Delegasi Autonomus"。
AutoGPT dan BabyAGI sudah mati pada pola produk. Pada akhirnya, industri menerima kejujuran "keterlibatan agentic": diawasi, berbatasan, dinilai. Pada tahun 2026, orang-orang yang masih menjual anen otonom setelah penyebaran pada dasarnya menjual 2023。

Agen app store dan marktplace。
sejak 2023, orang-orang telah berkomitmen sendiri untuk ini, tapi tidak pernah benar-benar mendapat kesepakatan bisnis. perusahaan tidak akan membeli anent prapembuatan generik. mereka membeli lampiran vertikal untuk hasil tertentu, atau membangunnya sendiri. jangan desain bisnis anda sekitar mimpi cerita aplikasi。

sebagai klien, pilihan yang hati-hati untuk membangun platform bisnis apapun。
Sebagai contoh, Google Agaspace, AWS Bedrock Argentina, Microsoft Copilot Studio. Mereka mungkin berguna di masa depan, tetapi mereka masih dalam berantakan dan distribusi lambat, dan buy--versus- buku build biasanya cenderung untuk membangun anent sempit atau membeli yang vertikal. Pengecualian ini adalah Salesforce Agentforce dan Servicenow Now Assist, karena mereka menang dalam sistem workstream yang telah Anda gunakan。

Jangan ikuti aturan dan peringkat OSWorld。
Para peneliti Berkeley tercatat pada tahun 2025 bahwa hampir semua benchmarks terbuka bisa peringkat tanpa benar-benar memecahkan tugas bawah. Sekarang tim akan menggunakan Terminal- Bench 2.0 dan versi internal sendiri sebagai sinyal yang lebih nyata. Baku untuk tetap curiga dari sejumlah lompatan benchmark。

naively paralel struktur beberapa marah。
lima agen mengobrol tentang memori bersama, dan dalam demo itu terlihat cukup bagus, dan ketika itu dilakukan, itu putus. jika anda tidak dapat menggambar sebuah set yang jelas peta subagen pada serbet dan menandai batas pembacaan dan menulis, jangan online。

Produk agen baru tidak mahal dengan SaaS。
pasar telah berubah menjadi pasar-berbasis dan kuno. sebuah biaya kursi tidak hanya akan membuat uang kurang untuk anda, tetapi juga akan mengirim sinyal kepada pembeli bahwa anda tidak percaya bahwa produk akan memberikan。

Frame berikutnya yang Anda lihat pada Hacker News minggu ini。
Tunggu enam bulan. Jika itu masih penting, kau akan tahu. Jika itu tidak masalah, Anda menyimpan satu langkah。

Bagaimana kita bergerak maju

jika anda tidak hanya mencoba untuk bersaing dengan kemarahan, tetapi anda benar-benar ingin menggunakan marah, urutan berikut valid. membosankan, tapi berguna。

Pertama, hasil yang sudah penting. Jangan pilih Moonshot, jangan muncul dan lakukan proyek "peron agen horisontal". Pilih sesuatu yang menarik bagi bisnis Anda, dan terukur: mengurangi jumlah perintah layanan penumpang, menghasilkan versi pertama review hukum, penyaringan, menghasilkan laporan bulanan. Keberhasilan Agen tergantung pada peningkatan hasil ini. Sudah menjadi target eval Anda sejak hari pertama。

langkah ini lebih penting daripada langkah lain karena mengikat semua keputusan berikutnya. dengan hasil konkret, pilihan kerangka kerja tidak lagi menjadi isu filosofis, dan anda akan memilih kerangka kerja yang memberikan hasil ini secepat mungkin. pilihan model bukan lagi argumen benchmark, tapi pilihan eval anda untuk membuktikan model efektif untuk pekerjaan ini. "kita tidak perlu memori, subagen, sejarah kustom" tidak lagi percobaan berpikir, tetapi ditambahkan hanya ketika pola kegagalan tertentu diperlukan。

tim yang melewatkan langkah ini sering berakhir membuat platform horizontal yang tak seorang pun inginkan. sebuah tim yang mengambil langkah ini serius biasanya memberikan yang sempit yang dapat kembali dalam seperempat. dan ini benar-benar agen online akan mengajarkan mereka lebih dari dua tahun untuk membaca。

Sebelum Anda pergi on line dengan apa pun, Mengatur Tracing dan eval. Pilih Langfuse atau LangSmith, mengambilnya. Membangun sebuah data emas kecil secara manual jika diperlukan. 50 sampel berlabel cukup untuk memulai. Kau tak bisa memperbaiki apa yang tak bisa kau ukur. Ini akan menjadi sekitar 10 kali biaya sistem。

Mulailah dengan satu putaran. Pilih LangGraph atau Pydantic AI. Pemilihan model Claude Sonet 4.6 atau GPT-5. Berikan angen tiga sampai tujuh alat yang dirancang dengan baik. Jadikan sistem berkas atau basis data sebagai keadaan. Kirim pertama ke kisaran kecil pengguna, menonton trek。

anggap anent sebagai produk, bukan proyek. ini akan gagal dengan cara yang tidak kau duga, dan kegagalan itu adalah peta jalanmu. membangun kembali ditetapkan dengan produksi nyata. setiap perubahan cepat, penggantian model, modifikasi alat dilewatkan sebelum penyebaran. kebanyakan tim meremehkan masukan disini, dan yang paling bisa diandalkan berasal dari sini。

Hanya ketika Anda telah mendapatkan hak untuk memperluas lingkup, kemudian menambahkan kompleksitas. Ketika konteks menjadi bottleneck, sub-agen diperkenalkan. Inserts a memory frame when the context of a single window can bring the needed content. Ketika API bawah benar-benar tidak ada, maka perkenalkan penggunaan perintah atau penggunaan Browner. Jangan merancang hal-hal ini terlebih dahulu. Biarkan mode kegagalan menarik mereka masuk。

Pilih infrastruktur yang membosankan. Alat menggunakan MCP. Sandbox menggunakan E2B atau Brownserbase. Status dengan Postgres, atau Anda sudah menjalankan penyimpanan data. Otentikasi dan observabilitas juga mengikuti sistem yang ada sampai batas yang mungkin. Infrastruktur yang aneh jarang pemenang sejati, pemenang sejati adalah disiplin。

Sejak hari pertama, kami melihat model unit ekonomi. Setiap tindakan biaya, tingkat cache, siklus tes ulang biaya, distribusi model panggilan. Agen tampak murah dalam fase PoC, tetapi jika Anda tidak mulai memantau biaya hasil, itu meledak ketika 100 kali lebih besar. A US $0.50 per run dari PoC bisa menjadi US $50.000 per bulan pada skala sedang. Tim yang tidak melihat ini di muka akan memiliki pertemuan CFO yang mereka tidak suka。

model ini dipasang triwulanan daripada mingguan. kunci seperempat. pada akhir kuartal, jalankan model depan saat ini dengan setelan eval anda. jika data menunjukkan perubahan, perubahan dibuat. jadi anda mendapatkan manfaat dari kemajuan model, sementara menghindari kebingungan mengejar setiap rilis。

Bagaimana menilai air pasang

berikut ini adalah sinyal tertentu yang mungkin benar: sebuah tim teknik yang dihormati telah menulis postmorem digital, bukan hanya mengklaim berapa banyak orang menggunakannya; ini adalah bahasa dasar, seperti protokol, model, atau infrastruktur, bukan shell atau pack; ini berinteraksi dengan sistem yang telah anda jalankan, bukan pengganti untuk itu; pitch berbicara tentang apa yang terjadi, bukan apa yang terbuka, itu telah cukup lama untuk menulis sebuah blog yang "tidak bekerja"。

Berikut ini adalah sinyal tertentu yang menunjukkan bahwa sesuatu mungkin hanya kebisingan: 30 hari kemudian, masih ada video demo dan tidak ada kasus produksi; lompatan benchmark tidak bersih karena mereka benar; pitch menggunakan "otonom" "" Appent OS "atau" kesempatan apapun "tanpa kualifikasi; kerangka dokumen janji bahwa Anda akan membuang pelacakan yang ada, auth dan config; nomor Star tumbuh cepat, tetapi nomor tidak tumbuh secara bersamaan; Twitter cepat tapi GitHub tidak bisa mengikuti。

Kebiasaan mingguan yang berguna adalah untuk memiliki 30 menit pada hari Jumat untuk melihat bidang ini. Baca tiga hal: Anthropic Engineering Blog, catatan Simon Willison, Laten Space. Jika ada postmorem minggu ini, membersihkan satu atau dua lagi. Sisanya bisa dilewati. Sesuatu yang sangat penting yang tidak akan kau lewatkan。

Apa selanjutnya

dua perempat berikutnya layak dicatat, bukan karena mereka akan menang, tetapi karena masalah apakah ini adalah sinyal atau tidak belum sepenuhnya diselesaikan。

Parallel forking model untuk Reflit Agen 4。
ini adalah salah satu pilihan pertama untuk serius mencoba "multi- agen paralel kerja" tanpa sedang tersandung oleh status bersama. jika dapat menahan kembali setelah ukuran, pola baku ini dapat berubah。

Keluar berdasarkan kedewasaan。
Lintasan pendapatan Sierra dan Harvey telah disahkan di daerah vertikal yang sempit. Pertanyaannya adalah apakah itu bisa diperpanjang ke daerah lain atau hanya untuk skenario vertikal。

Keterampilan sebagai lapisan penahanan。
Perkembangan Agentsmd dan keterampilan direktori di GitHub menunjukkan bahwa cara baru untuk merangkum kemampuan individu muncul. Ini adalah pertanyaan terbuka apakah akan standardisasi pada tingkat kemampuan seperti MCP standardisasi alat。

Claude Code, April 2026, retret massa dan reset。
satu agen terkemuka industri merilis versi yang menyebabkan 47% kinerja surut, dan pertama kali ditemukan oleh pengguna, setelah pengawasan internal. hal ini menunjukkan bahwa bahkan dalam memimpin, produksi tingkat praktek masih sangat dewasa. jika hal ini mendorong seluruh industri untuk berinvestasi lebih baik versi online, maka ini sehat。

Suara menjadi antarmuka klien baku。
Saluran suara Sierra melebihi saluran teks pada tahun 2025. Jika model terus di daerah vertikal lainnya, pembatasan desain seperti penundaan, interupsi dan real-time alat panggilan-up menjadi masalah kelas pertama, dan banyak struktur yang ada perlu diperbaiki kembali。

kemampuan angen model open source terus mengurangi kesenjangan。
DeepSeek-V3.2 Dukungan asli berpikir -into -tool- gunakan, Qwen 3.6 dan terbuka lebar model ekologi adalah perhatian. Pertunjukkan biaya dari misi kemarahan sempit berubah. Keuntungan baku dari model sumber-tertutup tidak akan permanen。

Setiap hal ini dapat menjawab pertanyaan yang jelas: "Apa yang perlu saya lihat dalam enam bulan untuk percaya itu benar-benar penting?" Ini adalah tes. Track jawaban, bukan buletin。

Ini adalah taruhan yang tidak biasa

Setiap frame yang tidak Anda gunakan adalah migrasi Anda tidak berutang masa depan. Setiap benchmark Anda tidak mengejar adalah fokus triwulanan. Perusahaan yang memenangkan siklus ini - Sierra, Harvey, Cursor, masing-masing di bidang sendiri - telah memilih target sempit, mendirikan disiplin yang membosankan dan kemudian memungkinkan kebisingan di daerah ini untuk melewati。

Jalan tradisional adalah memilih gudang teknologi, butuh bertahun-tahun untuk menguasainya dan kemudian menaiki tangga. Ini bekerja ketika teknologi dapat stabil selama satu dekade. Tapi sekarang, lemari besi teknologi berubah setiap kuartal. Pemenang sebenarnya tidak lagi mengoptimalkan kemampuan untuk "mengendalikan sebuah gudang teknologi", tapi lebih mengoptimalkan rasa, bahasa dasar dan kecepatan pengiriman. Mereka secara terbuka membangun hal-hal kecil dan belajar dengan memberikan. Lainnya diseret ke dalam ruangan karena mereka telah membuat sesuatu. Pekerjaan itu sendiri adalah kualifikasi。

Pikirkan tentang hal ini dengan hati-hati, karena ini adalah apa seluruh artikel benar-benar ingin mengatakan. Model kerja yang sebagian besar dari kita menerima mengasumsikan bahwa dunia akan stabil cukup lama untuk memungkinkan senioritas untuk tumbuh kembali. Anda pergi ke sekolah, mendapatkan gelar, memanjat tangga. Dua tahun di sini, tiga tahun di sana, dan resume perlahan-lahan menjadi sesuatu yang membuka pintu. Promis dari seluruh mesin adalah bahwa itu cukup stabil bagi industri di sisinya。

tapi tidak ada yang "berlawanan" di lapangan. perusahaan anda ingin bergabung mungkin enam bulan. mereka mungkin membangun kerangka kerja yang baru 18 bulan. underlying perjanjian mungkin hanya dua tahun. setengah dari artikel yang paling sering dikutip di daerah ini bahkan tidak di daerah ini tiga tahun yang lalu. tidak ada tangga untuk mendaki, karena bangunan telah berubah. ketika tangga gagal, sisanya adalah cara yang lebih tua untuk membuat sesuatu, menaruhnya di internet, sehingga anda dapat memperkenalkan diri. ini adalah jalan yang tidak biasa, karena melewati sistem kualifikasi. tapi di daerah yang bergerak, itu juga satu-satunya jalan untuk benar-benar pertumbuhan yang tabah。

itulah yang kita lihat dari dalam. bahkan raksasa berada di tempat terbuka, menerbitkan kembali masalah, menulis kilas balik dan patch online. beberapa tim yang paling menarik tahun ini tidak di daerah ini 18 bulan yang lalu. orang yang tidak akan menulis kode bekerja dengan marah, memberikan perangkat lunak nyata. dokter mungkin ditangkap oleh mereka yang memilih bahasa dasar dan mulai bergerak cepat. pintu telah dibuka. kebanyakan masih mencari aplikasi。

Anda benar-benar perlu mengembangkan keterampilan, bukan "agen". Sebaliknya, itu adalah disiplin untuk menilai pekerjaan mana yang akan menguntungkan dari pertumbuhan dalam perubahan lapangan di permukaan. Konteks meningkat akan meningkat. Alat desain akan meningkatkan nilai. Model Subagen Orchestra- diharapkan untuk meningkat. Eval Disiplin akan menambah nilai. Pemikiran harness akan meningkatkan pertumbuhan. Selasa baru saja melepaskan kerangka kerja API. Setelah Anda dapat membedakan mereka, gelombang rilis baru setiap minggu berhenti terlihat seperti stres dan menjadi kebisingan Anda dapat mengabaikan。

Kau tidak perlu mempelajari semuanya. Anda perlu belajar apa yang akan tumbuh dan melewatkan apa yang tidak akan tumbuh. Pilih satu hasil. Menangkap dan melakukan sesuatu sebelum kau online. Gunakan LangGraph, atau setara dengan tim Anda. Gunakan MCP. Masukan waktu berjalan di kotak pasir. Baku dimulai dengan anent tunggal. Ruang lingkup hanya diperluas ketika pola kegagalan menarik kompleksitas. Model ini dipasang triwulanan. Baca tiga hal hari Jumat。

itu pedoman. yang tersisa adalah rasa, kecepatan pengiriman dan kesabaran untuk tidak mengejar hal-hal yang tidak relevan。

Pergi bangun sesuatu. Taruh di internet. Era ini memberi imbalan kepada mereka yang membuat sesuatu, bukan mereka yang hanya menggambarkan mereka. Sekarang itu adalah jendela terbaik untuk "pembuat nyata"。

[Terkekeh]Tautan Asli]

2026 AI LEARNING MANUAL: BELAJAR, MENGGUNAKAN, TIDAK MENYENTUH