クロードは常に間違いを犯していますか? これらの12のルールは、エラー率を3%まで引き上げます

2026/05/15 23:10
🌐ja

41%から3%、カルパシーの4つのルールは十分ではありません

クロードは常に間違いを犯していますか? これらの12のルールは、エラー率を3%まで引き上げます
原題:カルパシーの4 CLAUDE.mdルールは41%から11%までクロードムービーをカットします
原作:@Mnilax
ペギーブロックビートによる写真

エディターはプレスします。: 2026年1月、Claudeのライティングコードのアンドレジ・カルパシーのシュートは、AIプログラミングのワークフローにおいて、小さくても非常に重要であると思われる文書につながりました。 CLAUDE.md。 Forrest Changは、これらの問題を4つの行動規則に整理し、Claudeが通常コーディングするときに行われるエラーを制限しようとする:サイレント仮説、オーバーエンジニアリング、無関係なコードへの怪我、および明確な成功基準の欠如。

数か月後、Claudeコードは「モデルがコードを書き出す」だけではありません。 複数のステップエージェントとして、ホクチェーントリガー、スキルロード、マルチコードライブラリのコラボレーションが正常になるにつれて、失敗の新しいモデルが出現し始めます。モデルは、長いミッションで制御不能であり、本物のロジックなしでテストパス、移行が実行されますが、誤ってエラーを介して、異なるコードスタイルが混同されます。

この論文の著者は、6週間以内に30のコードライブラリをテストし、Karpathyの元の4ルールに8つの新しい規則を追加し、単一の補完からエージェントのコラボレーションへのAIプログラミングの新しい問題をカバーする試みで。

以下は元のテキストです

2026年1月、アンドレジ・カルパシーがツイート文字列を送出し、クロードのコードを書く方法に陥りました。 彼は3つの典型的な問題に指摘した: 説明の欠如に虚偽の仮定, 過度の複雑さ, 変更されていないべきコードに対する無関係の損傷。

Forrest Changは、このツイート文字列を見た、クレームを4つのルールに整理し、別々のCLAUDE.mdファイルを入力し、GitHubで公開しました。 プロジェクトの初日には、5,828 Starsが取得され、2週間で6万回収集され、今日は120,000 Stars、2026年に最速で成長する単一ファイルコード倉庫があります。

そして、6週間で30のコードライブラリでテストしました。

このルールは確かに有効です。 過去に、エラーの確率の約40パーセントは、これらの規則に合ったタスクの3パーセント未満に落ちました。 しかし、このテンプレートはもともとClaudeがコードを書いたときに1月にエラーを解決するように設計されたことです。

2026年5月、Claude Codeが直面する生態問題は異なっていた:Agent、Hookchainトリガー、スキルロードの競合、マルチステップのワークフローの混乱との間の競合。

さらに8つのルールを追加しました。 CLUDE.md: 参加するすべてのルールと、元のカルパシーテンプレートが4つの場所でサイレントに無効になる理由は。

説明をスキップしたい場合は、直接コピーしてテキストの最後にフルファイルを残します。

なぜ重要なのか

Claude Code の CLUDE.md は、AI プログラミング技術 vault の最も根本的なドキュメントです。 ほとんどの開発者は通常3種類の間違いを作ります:

まず、ゴミ箱として取ります。すべての習慣を詰めて、4000トークン以上に拡大し、コンプライアンス率を30%に落とします。

第二に、あなたは全くそれを行う必要はありません。 これにより、セッション間で5回トークンの無駄や一貫性が欠如します。

第三に、テンプレートをコピーした後、もう問題ありません。 2週間で作業することができますが、コーディングライブラリの変更に伴い、知識なしでは失敗します。

Anthropic の公式文書は非常に明確です: CLAUDE.md は本質的にのみ推奨されます。 クロードは、それに従うために約80%の時間を費やします。 200行を超えると、コンプライアンス率が大幅に低下し、重要なルールは騒音で洪水が発生します。

カルパシーテンプレートは、問題の解決を解決しました。1つの文書、65行、4つの規則。 最小限のベンチマークです。

しかし、天井が高くなる可能性があります。 次の8つの規則を追加した後、カルパシーが2026年1月に文言したコードを書く問題だけでなく、元のテンプレートが書かれていたときには存在しなかった問題は2026年5月にのみ、エージェント組織の問題もカバーします。

オリジナル4ルール

Forrest Changの倉庫が見つからない場合は、この基本版をご覧ください

ルール1:コーディングの前に考える。

前提をしないでください。 あなたの仮説を記述するために、トレードオフを公開します。 推測前の質問。 単純なオプションが存在する場合、オブジェクトは独自のイニシアチブで発生します。

ルール2:簡単な優先順位。
問題を解決する最小限のコードを使用してください。 想像した関数に追加しないでください。 抽象的なレイヤーを1回コード用に設計しないでください。 シニアエンジニアが複雑すぎると、単純化する必要があります。

ルール3:外科的修正。
変更しなければならないものだけ。 コード、ノート、フォーマットを無視して「最適化」しないでください。 壊れていないものを再現しないでください。 現在のスタイルを保ちましょう。

Rule 4: 目的指向の実装。
成功の基準を定義し、検証が完了するまで時間をかけてループします。 道のあらゆるステップを行うために何をすべきかをクラウデに伝えないでください。しかし、それが成功するべきだと思っていることを彼に伝え、それを反復的なものにします。

そして、この4つのルールは、未監督のClaudeコードの会話で見たこと、失敗パターンの約40パーセントでした。 問題の残りの60%は、以下の空白領域で隠されています。

私の新しい8つのルール、なぜですか

それぞれのルールは実際の瞬間から来る:カルパシーの元の4つの規則はもはや十分ではありません。 シーンからスタートし、対応するルールを付与します。

ルール5:モデルは非言語的作業を行わない

クラウドは、分類、ドラフト、要約、未構造のテキストから情報を抽出するプロセスに使用できます。 Claude の処理: ルート、再テスト、ステータス コードの処理、確実な変換を使用しないで下さい。 ステータスコードが質問に答えた場合、通常のコードは質問に答えます。

カルパシーのルールはこれをカバーしません。 その後、モデルは、特定のコードで対処すべき問題のいくつかを決定し始めました。APIコールを再試行するかどうか、メッセージを取得する方法、それをアップグレードするとき。 その結果、審査は週毎に異なります。 あなたが得るものは、トークン0.003あたりの揮発性 if-elseです。

現時点では、Claudeを「503が遭遇したときに再試行しないか」と呼び出すコードがあります。 2週間も経ち、急激に不安定になり、要求した身体をコンテキストとして使用し始めた。 プロンプト自体がランダムであるため、再試行戦略はランダムになります。

ルール6:例外なしでハードトークン予算を設定

個人ミッションの予算:4,000トークン。 シングルセッション予算:30,000トークン。 マンデートが予算の天井に近い場合、現在の状況は要約され、再起動されます。 プッシュしないでください。 予算オーバーランの問題を明らかにする方が良いでしょう。

予算制限のない CLADE.md は空白のチェッカーと等しいです。 各サイクルは、制御から実行し、50,000トークンのコンテキストでダンプすることができます。 モデルは止まらない。

その瞬間:デバッグセッションが90分続く。 このモデルは、同じ8KBを取り巻く誤ったメッセージを復元し、修復オプションが試したことを徐々に忘れていました。 一日の終わりに、前に拒絶した40のアイデアを制作しました。 トークンの予算がある場合、プロセスは12分で終了する必要があります。

ルール7:対立への暴露、平均を妥協しない

互いに矛盾するならば、コードライブラリの2つの既存のモデルを混在させないでください。 これらのモデルの1つを選択し、更新またはテストされたモデルを優先して、それらを正当化し、もう一方のクリーンアップをマークします。 ルールのセットを一度に満たそうとする「平均コード」は最悪です。

コーディングの2つの部分が競合しているとき、Claudeは両側を喜ばせようとします、そして結果は固有のコードです。

1つのコードライブラリに2つのエラー処理モードがあったときの瞬間でした。1つの非同期/待ち合わせなしの試み/キャッシュと、他のグローバル間違った境界線。 Claudeは、両方のセットを使用した新しいコードを書きました。 その結果、エラーは2回行われました。 間違いが2回飲み込まれた理由を調べて30分かかりました。

ルール8:最初に読み、書きします

ドキュメントのエクスポートコンテンツ、直接呼び出し、および文書にコードを追加する前に、明確に関連した共有ツール機能を読みます。 既存のコードが組織されている理由がわからない場合は、まずは直接追加しないようにしてください。 コードライブラリの中で最も危険なフレーズです。

カルパシーの「手術修正」は、隣接するコードを変更しないようにクロードに語った。 しかし、Claude: 最初に隣接するコードを理解していない。 この限り、Claude は 30 行以外の既存のコードと競合する新しいコードを書きます。

現時点では、Claude は、元の関数を最初に読み込まなかったため、既存の関数と同じ関数を追加しました。 どちらの関数も同じことをします。 しかし、報告書の順序のために、新しい機能は事実の唯一の基準として6か月のために存在していた古い機能をカバーします。

ルール9:テストはオプションではありませんが、テストはそれ自体で終わらない

各テストは「なぜこの行動が重要であるのか」と「何をしているのか」をコード化しなければならない。 `getUser'.tobe (`John') ' のようなテストは、実際にハードコードされた ID を受信した場合に値打ちします。 業務ロジックの変更時に失敗するテストを書くことができない場合は、関数自体が間違っています。

カルパシーの「ターゲット指向の実行」は、テストが成功基準になる可能性があることを示唆しています。 しかし、実際には、Claudeは「テストパス」という言葉を唯一の目標として使用しました。そのため、サブサーフェステストを通過できるコードをいくつか書いていますが、それは他のすべてを破壊します。

その瞬間でした。Claudeは認証機能の12テストを書きました。 しかし、生産環境における認証ロジックが壊れています。 これらのテストは、正しいものに戻るかどうかではなく、「何かに返す」機能をチェックするだけです。 定数を返すため、関数がテストされます。

ルール10:長時間走る操作は、チェックポイントを必要とします

複数のステップのタスクのそれぞれで、何をやっているのか、テストされたもの、そして何の残りが行われるかのまとめ。 繰り返すことができない状態からダウンしないでください。 自分の失われた状態を見つけたら、現在の状態を止めて休息します。

Karpathyテンプレートのデフォルトインタラクションはワンオフです。 しかし、実際のClaudeコードジョブは、多くの場合、マルチステップです。 20ファイル以上、1セッションで機能を構築し、複数のコミッションデバッグを経由します。 チェックポイントがない場合、ステップが間違っている場合は、進行状況が失われる可能性があります。

その瞬間でした。6段階の再構成ミッションが4ステップで間違っていました。 私が見つけた時、クロードは間違った状態の上に5と6のステップを続けていました。 解体修理に費やした時間の総量はまだ長いです。 チェックポイントがある場合、ステップ4は問題が明らかになります。

ルール11:イノベーションに対する合意の優先

コードライブラリがヘビケースを使用している場合は、キャメルケース:ヘビケースを使用してください。 コードライブラリがクラスベースのコンピューターを使用している場合、クラスベースのコンピューターを使用する: 掛かることを好む。 別の議論があった。 一貫性は、コーディングハウス内の個々の好みに優先されます。 契約が有害であると思われる場合は、明確にしてください。 スプリットパスをサイレンスに開けないでください。

クロードは、よく確立されたコードライブラリで自分自身を紹介するのが好きです。 「ベター」と書いても、2つ目のモデル自体がどのモデルよりも悪くなります。

クラスコンポーネントに基づいて React リポジトリで Hooks を導入した瞬間でした。 それは本当に実行することができます. しかし、同時に、コンピュータのDid Mountに頼るテストから、コードライブラリの元のテストモデルを破壊しました。 削除し、書き換えに1日半かかります。

ルール12:目に見えるためには、静かに失敗しません

何かを確かめることができない場合は、明確に言ってください。 30レコードが静かに飛び込んでいたら、マイグレーションが完了したとはいえなかった。 どんなテストを省略しても、「テストが通過する」と言うことはできません。 自分が求めた境界線を検証していない場合は、「機能」とは言えません。 デフォルトは不確実性への暴露、それを隠さない。

クロードの最も高価な故障, 多くの場合、成功のように見えるもの. 関数 "can run", しかし、間違ったデータを返す; 移行 "completed" が 30 レコードをスキップする; 単にアサーション自体が間違っていたのでテスト "passed" 。

クロードがデータベースの移行が「成功」と言った瞬間でした。 しかし、実際には、バインディングコンフリクトをトリガーした14パーセントのレコードを黙って過去に消えています。 ログにスワイプして、明示的に露出せずにログに記録されました。 後日、報告書データが消え始めたら問題を発見しました。

データ結果

6週間で、私は同じグループを追跡しました 50 代表ミッション, カバー 30 コードライブラリと3つの構成をテスト。

エラー率は、ミッションが元の意図と一致するように修正または書き換える必要があることを意味します。 含まれているエラー:サイレントエラーの仮定、オーバーエンジニアリング、未処理の損傷、サイレント障害、合意の違反、競合の妥協、および欠落したチェックポイント。

コンプライアンス率とは、ルールが適用される場合、Claude ' s アプリケーションが明らかな確率を指します。

実際の興味深い結果は、エラー率が41%から3%に低下するだけではありません。 より重要なのは、ルール4の拡張は12を支配し、コンプライアンスの負担がほとんど増加し、コンプライアンス率は78パーセントから76パーセントまで低下しますが、エラー率は8パーセントのポイントで減少しました。 新しいルールカバーは、元の4規則に対処されていないモデルに失敗し、同じ注意の予算を競争しません。

カルパシーのテンプレートが静かに失敗する場所

新しいルールがなくても、元の4ルールのテンプレートは少なくとも4か所で十分ではありませんでした。

まず、エージェントのタスクを長時間実行します。
カルパシーのルールは、主にコードを書く瞬間をクロードするものです。 しかし、Claudeがマルチステップパイプラインを実行するとどうなりますか? 元のテンプレートは予算のルールがなく、チェックポイントのルールと「失敗」のルールはありません。 パイプラインはゆっくりと漂流します。

第二に、マルチコードライブラリの一貫性。
デフォルトでは1つのスタイルしかありません。 しかし、12サービスのモノレポでは、クロードはどのスタイルが一致するかを選択しなければなりませんでした。 元のルールは、選択方法がわかりませんでした。 ランダムに選ばれたか、いくつかのスタイルをミックスします。

第三、テスト品質。
「ターゲット指向の実装」は、テスト自体が有意義であることが言うことなく、成功として「テストが通過」表示されます。 その結果、Claudeは、ほぼ統一されたテストを書いていましたが、彼は確信していたと思います。

量産環境と試作段階の違いは4つ。
同じルールは、製造コードのオーバーエンジニアリングを防止しますが、プロトタイプの開発を遅くすることもできます。 試作フェーズでは、100行の露光を要求することもありますので、まずは方向を探します。 カルパシーの「単純化優先」は、初期のコードで簡単にトリガーされます。

これらの8つの新しい規則は、カルパシーの元の4つの規則を置き換えることを目的としていませんが、そのギャップを埋めます。 オリジナルのテンプレートは、2026年1月に自動補完されたコード作成シーンに対応しています。2026年5月までに、Claude Code は異なる問題を持つ Agent-driven、マルチステップ、マルチコードリポジトリのコラボレーション環境に入力しました。

何がうまくいかなかったのか

12ルールを確定する前に他のオプションも試しました。

Reddit / Xで見たルールを追加します。
それらのほとんどは、カルパシーの元の4つの規則を異なる用語で繰り返すか、または「テールウィンドクラスの使用経路」など、一般化できないフィールド固有のルールです。 それらはすべて削除されました。

12. 以上。
私は18までテストしました。 14記事を上回った後、コンプライアンス率は76%から52%に下がりました。 ラインの天井は本当です。 それよりも、Claudeは実際のルールバイルールの代わりに、 "rules here" でパターンに一致し始めます。

特定のツールの存在に依存する規則。
例えば、「常にeslint を使う」というルールは、プロジェクトに eslint がインストールされていないときに、 エラーを破棄します。 「コードライブラリの強制的なスタイルに従う」ではなく、特定のツールに依存しなかった式に変更しました。

ルールの代わりに CLAUDE.md で例を使用してください。
例はルールよりも文脈が多い。 3つの例を消費するコンテキストは10のルールとほぼ同等であり、Claudeは簡単に例を圧倒することができます。 ルールは抽象的であり、例は具体的です。 したがって、ルールを使用する必要があります。

注意して、慎重に考え、もっと集中してください。
ノイズです。 そのようなディレクティブの遵守率は、テストできないため、約30セントに低下しました。 それから、"specify assums" など、より具体的なコマンドルールに置き換えました。

Claudeはシニアエンジニアのように行動するように指示します。
働いていません。 クロードはシニアエンジニアのように感じました。 実際の質問は、それが信じているかどうかではありませんが、その方法で実装されているかどうか。 コマンドルールは、このギャップを狭くし、アイデンティティのヒントはできない。

フル12ルーラー

直接貼り付けるために使用できる完全版です。

フライブック文書の外に表示できない

倉庫のルートディレクトリに CLAUDE.md として保存します。 このルールでは、技術スタック、テスト注文、エラーパターンなどの項目に別々のルールを追加します。 全体として200行を超えることはありません。 その後、コンプライアンスの低下がマークされます。

インストール方法

2つのステップは十分です:

カルパシーの4つの基本ルールをCLAUDE.mdに追加する
カール https://raw.githubusercontent.com/forrestchange/andrej-karpathy-skills/main/CLAUDE.md > > CLAUDE.md


2. 下の規則5-12をのりて下さい

リポジトリのルートディレクトリにあるファイルを保存します。 ここでは、>>;; 既存のCLAUDE.mdに追加することが重要です。, ではなく、あなたが書いた排他的なルールを圧倒します。

メンタルモデル

CLUDE.mdは希望のリストではありませんが、観察した障害の特定のパターンをブロックするための行動の契約です。

各規則は質問に答えるべきです:それは防ぐことができますか

カルパシーの4つの規則は、彼が1月に見た失敗のパターンをガードすることだった 2026:サイレント仮定、オーバーエンジニアリング、虚栄心、弱い成功基準。 それらは基礎であり、スキップしません。

2026年5月以降、新しい障害パターンの出現からガードする8つの新しいルールを追加しました。未発見のエージェントループ、チェックポイントのないマルチステップミッション、テスト済みに見えるテストが、実際には重要なロジックを検出せず、サイレント障害をサイレントな成功にパッケージングする質問。 彼らは増分パッチです。

もちろん、効果は人から人まで様々です。 複数のステップを実行しない場合は、ルール10は重要ではありません。 コードライブラリが1つの均一なスタイルで、intによって強制されている場合は、ルール11は冗長です。 12記事を読んでから、本当にあなたを誤解し、残りの部分を削除したルールを保ちます。

6つのバージョンのCLUDE.mdは、真の失敗パターンに合わせて調整され、6つのバージョンでは使用しません。

特定商取引法に基づく表示

2026年1月、カルパシーのつぶやきは本質的に不満でした。 Forrest Changは4つのルールにしました。 最終的には、120,000人の開発者がスターに結果を出した。 そして、そのほとんどは、今日の4つのルールを使っています。

モデルは高度および生態学が変更されました。 マルチステップエージェント、フークアップチェーントリガー、スキルロード、マルチコードライブラリのコラボレーション - Karpathyがツイートを書いたときにこのどれも存在しません。 元の4ルールは、これらの問題に対処しなかった。 彼らは間違っていませんが、不完全な。

新しいルール 8. 6週間、30以上のコードライブラリ。 エラー率は41%から3%に低下します。

この記事では、この12ルールをCLAUDE.mdに貼り付けるために、今夜に収集されます。 週未満のクロードベンドを歩くのに役立ちます。

[ チャック ]オリジナルリンク]

QQlink

No crypto backdoors, no compromises. A decentralized social and financial platform based on blockchain technology, returning privacy and freedom to users.

© 2024 QQlink R&D Team. All Rights Reserved.