Mengapa kualitas deskripsi alat sangat berpengaruh pada akurasi pemanggilan alat Claude?

Claude mengandalkan deskripsi alat dan schema parameter untuk memutuskan kapan dan bagaimana memanggil alat. Deskripsi yang tidak jelas membuat model menebak nilai argumen sehingga menurunkan akurasi. Menambahkan tipe enum, batasan array, dan contoh konkret di field deskripsi membantu model mengoreksi diri sendiri dan meningkatkan tingkat keberhasilan pemanggilan alat secara signifikan.

Bagaimana cara mengembalikan error dari eksekusi alat ke Claude?

Baik error argumen tidak valid (tertangkap oleh validasi schema) maupun kegagalan eksekusi alat harus dikembalikan ke model sebagai pesan tool_result dengan is_error diset true. Ini memungkinkan Claude memahami apa yang salah dan mencoba pemanggilan alat yang diperbaiki atau memberikan respons yang berguna kepada pengguna.

Apakah pemanggilan alat paralel bisa menimbulkan masalah, dan bagaimana cara menghindarinya?

Ya — Claude terkadang mengembalikan beberapa pemanggilan alat dalam satu respons, dan eksekusi paralel bisa menyebabkan race condition saat alat berbagi state atau memiliki efek samping. Di AI Gymbro, dua panggilan log_workout paralel membuat catatan latihan duplikat karena keduanya membaca state yang sama sebelum salah satunya menulis. Solusinya adalah menegakkan eksekusi sekuensial atau mendesain alat agar idempoten.

Berapa biaya token dari definisi alat, dan bagaimana cara mengurangi overhead tersebut?

Setiap definisi alat dengan schema dan deskripsi rinci biayanya sekitar 100–300 token, yang bisa menjadi ribuan token overhead per request ketika banyak alat didefinisikan. Rata-rata token per definisi alat di AI Gymbro adalah 180 token. Mengimplementasikan pemilih alat yang sadar konteks yang hanya menyertakan alat relevan untuk setiap request berhasil mengurangi overhead ini sebesar 60%.

Claude API Tool Use in Production: A Real-World Guide

Q: Apa itu pola alat 'done' dan mengapa berguna dalam alur kerja multi-alat?

Alat 'done' adalah alat sentinel yang dipanggil agent saat selesai dengan tugas, mengambil parameter 'summary' yang mendeskripsikan apa yang telah dicapai. Pola ini memecahkan masalah 'bagaimana saya tahu kapan agent selesai' tanpa mengandalkan model mengembalikan respons teks bebas. Pola ini direkomendasikan khususnya untuk alur kerja multi-alat yang kompleks di API Claude.

Claude API Tool Use di Produksi: Panduan Dunia Nyata

Oktober 202510 menit baca

Saya telah menggunakan tool use Claude (yang disebut OpenAI sebagai function calling) di produksi untuk aplikasi fitness AI Gymbro selama beberapa bulan. Dokumentasi Anthropic bagus, tetapi ada kesenjangan antara contoh tutorial dan kekacauan produksi nyata. Posting ini mencakup apa yang saya harapkan seseorang memberitahu saya ketika saya mulai.

Desain Schema Alat: Detail yang Penting

Tool use Claude bekerja dengan memberikan model schema JSON yang mendeskripsikan alat yang tersedia. Kualitas deskripsi alat Anda adalah faktor terpenting dalam akurasi pemanggilan alat. Deskripsi yang tidak jelas seperti 'mencatat latihan' menyebabkan model menebak nilai argumen.

Praktik Terbaik Schema Parameter

Gunakan tipe enum sebisa mungkin untuk membatasi pilihan model. Jika field hanya bisa 'sets', 'reps', atau 'weight', definisikan sebagai enum. Tambahkan contoh di field deskripsi — model menggunakan contoh ini untuk mengoreksi diri saat tidak yakin dengan format yang benar.

Parameter tool_choice

API Claude mendukung parameter tool_choice yang memungkinkan Anda mengontrol apakah model harus menggunakan alat (tool_choice: 'any' atau menentukan nama alat) atau boleh menggunakan alat secara opsional. Menggunakan tool_choice: { type: 'tool', name: 'log_workout' } memaksa model untuk selalu mengembalikan panggilan alat log_workout.

Claude Tool Use Flow

  User: "Log 3 sets of 8 reps bench press at 80kg"
        │
        ▼
  ┌──────────────────────────────────────┐
  │  Claude receives:                    │
  │  - User message                      │
  │  - Tool definitions (JSON Schema)    │
  │  - System prompt (cached)            │
  └──────────────────┬───────────────────┘
                     │
                     ▼
  ┌──────────────────────────────────────┐
  │  Claude returns:                     │
  │  stop_reason: "tool_use"             │
  │  content: [{                         │
  │    type: "tool_use",                 │
  │    name: "log_workout_set",          │
  │    input: {                          │
  │      exercise: "Barbell Bench Press",│
  │      sets: 3, reps: 8, weight_kg: 80│
  │    }                                 │
  │  }]                                  │
  └──────────────────┬───────────────────┘
                     │
                     ▼
  ┌──────────────────────────────────────┐
  │  Your App: Execute Tool              │
  │  - Validate args (enum, range)       │
  │  - Write to database                 │
  │  - Return tool_result                │
  └──────────────────┬───────────────────┘
                     │
                     ▼
  ┌──────────────────────────────────────┐
  │  Second Claude call with result      │
  │  → Natural language confirmation     │
  │  "Logged 3x8 Barbell Bench Press..."│
  └──────────────────────────────────────┘

Untuk alur kerja multi-alat yang kompleks di API Claude, saya mendefinisikan alat 'done' yang dipanggil agent saat selesai. Alat ini mengambil parameter 'summary' yang mendeskripsikan apa yang telah dicapai. Pola ini memecahkan masalah 'bagaimana saya tahu kapan agent selesai' dengan bersih.

Penanganan Error untuk Pemanggilan Alat

Pemanggilan alat gagal karena dua alasan: model memanggil alat dengan argumen tidak valid (validasi schema Anda menangkap ini), atau eksekusi alat itu sendiri gagal. Kedua kasus memerlukan pengembalian hasil ke model dengan informasi error — ini dilakukan dengan mengembalikan tool_result dengan is_error: true.

Streaming dengan Tool Use

API streaming Claude mengirim peristiwa tool use saat dibuat, tetapi argumen pemanggilan alat tiba dalam fragmen. Membangun parser streaming untuk pemanggilan alat memerlukan buffering stream argumen dan hanya memicu eksekusi alat setelah peristiwa stop_reason: 'tool_use' tiba.

// Claude tool definition with precise schema
const tools = [
  {
    name: "log_workout_set",
    description:
      "Records a single completed exercise set to the user's workout log. " +
      "Call this ONCE per set, not once per exercise. " +
      "Use the exact exercise name from our library, e.g. 'Barbell Back Squat'.",
    input_schema: {
      type: "object",
      properties: {
        exercise_name: {
          type: "string",
          description: "Exercise name from library, e.g. 'Barbell Bench Press', 'Cable Row'",
        },
        reps: { type: "integer", minimum: 1, maximum: 100 },
        weight_kg: { type: "number", minimum: 0, maximum: 1000 },
        set_type: {
          type: "string",
          enum: ["working", "warmup", "dropset", "failure"],
          description: "Type of set — default 'working' if not specified",
        },
      },
      required: ["exercise_name", "reps"],
    },
  },
  {
    name: "done",
    description: "Call when you have finished all requested actions.",
    input_schema: {
      type: "object",
      properties: {
        summary: { type: "string", description: "Brief summary of what was accomplished" },
      },
      required: ["summary"],
    },
  },
]

// Handle tool call errors gracefully
async function executeTool(name: string, args: Record<string, unknown>) {
  try {
    const result = await toolHandlers[name](args)
    return { type: "tool_result", content: JSON.stringify(result), is_error: false }
  } catch (error) {
    return {
      type: "tool_result",
      content: JSON.stringify({
        error: String(error),
        suggestion: "Try using a different exercise name or check the arguments",
      }),
      is_error: true,
    }
  }
}

Biaya Token dari Tool Use

Definisi alat berkontribusi pada jumlah token input Anda. Alat tipikal dengan schema dan deskripsi rinci biaya 100-300 token per definisi alat. Saya mengimplementasikan pemilih alat yang sadar konteks yang mengurangi 60% overhead alat.

Claude terkadang mengembalikan beberapa pemanggilan alat dalam satu respons. Jika implementasi alat Anda memiliki efek samping atau membaca dari state bersama, eksekusi paralel dapat menyebabkan race condition. Saya belajar hal ini dengan cara yang sulit ketika dua panggilan log_workout paralel membuat catatan latihan duplikat.

Menguji Aplikasi yang Banyak Menggunakan Alat

Menguji aplikasi LLM yang bergantung pada pemanggilan alat memerlukan pendekatan berbeda dari pengujian unit tradisional. Saya menggunakan strategi pengujian dua lapisan: mock test yang menstub LLM, dan integration test yang menggunakan panggilan LLM nyata terhadap set percakapan uji.

Metrik Produksi Nyata dari AI Gymbro

Setelah enam bulan tool use Claude di produksi: tingkat keberhasilan pemanggilan alat 94,2% pada percobaan pertama, 98,8% setelah satu retry. Rata-rata token per definisi alat: 180. Rata-rata pemanggilan alat per sesi pengguna: 4,3. Mode kegagalan paling umum: model memanggil alat dengan argumen yang secara semantik salah.

Sumber & Bacaan Lanjutan

Artikel Terkait

Desain Schema Alat: Detail yang Penting

Praktik Terbaik Schema Parameter

Parameter tool_choice

Claude Tool Use Flow User: "Log 3 sets of 8 reps bench press at 80kg" │ ▼ ┌──────────────────────────────────────┐ │ Claude receives: │ │ - User message │ │ - Tool definitions (JSON Schema) │ │ - System prompt (cached) │ └──────────────────┬───────────────────┘ │ ▼ ┌──────────────────────────────────────┐ │ Claude returns: │ │ stop_reason: "tool_use" │ │ content: [{ │ │ type: "tool_use", │ │ name: "log_workout_set", │ │ input: { │ │ exercise: "Barbell Bench Press",│ │ sets: 3, reps: 8, weight_kg: 80│ │ } │ │ }] │ └──────────────────┬───────────────────┘ │ ▼ ┌──────────────────────────────────────┐ │ Your App: Execute Tool │ │ - Validate args (enum, range) │ │ - Write to database │ │ - Return tool_result │ └──────────────────┬───────────────────┘ │ ▼ ┌──────────────────────────────────────┐ │ Second Claude call with result │ │ → Natural language confirmation │ │ "Logged 3x8 Barbell Bench Press..."│ └──────────────────────────────────────┘

Penanganan Error untuk Pemanggilan Alat

Streaming dengan Tool Use

// Claude tool definition with precise schema const tools = [ { name: "log_workout_set", description: "Records a single completed exercise set to the user's workout log. " + "Call this ONCE per set, not once per exercise. " + "Use the exact exercise name from our library, e.g. 'Barbell Back Squat'.", input_schema: { type: "object", properties: { exercise_name: { type: "string", description: "Exercise name from library, e.g. 'Barbell Bench Press', 'Cable Row'", }, reps: { type: "integer", minimum: 1, maximum: 100 }, weight_kg: { type: "number", minimum: 0, maximum: 1000 }, set_type: { type: "string", enum: ["working", "warmup", "dropset", "failure"], description: "Type of set — default 'working' if not specified", }, }, required: ["exercise_name", "reps"], }, }, { name: "done", description: "Call when you have finished all requested actions.", input_schema: { type: "object", properties: { summary: { type: "string", description: "Brief summary of what was accomplished" }, }, required: ["summary"], }, }, ] // Handle tool call errors gracefully async function executeTool(name: string, args: Record<string, unknown>) { try { const result = await toolHandlers[name](args) return { type: "tool_result", content: JSON.stringify(result), is_error: false } } catch (error) { return { type: "tool_result", content: JSON.stringify({ error: String(error), suggestion: "Try using a different exercise name or check the arguments", }), is_error: true, } } }

Biaya Token dari Tool Use

Pertanyaan Umum

Claude API Tool Use di Produksi: Panduan Dunia Nyata

Pertanyaan Umum

Claude API Tool Use di Produksi: Panduan Dunia Nyata

Desain Schema Alat: Detail yang Penting

Praktik Terbaik Schema Parameter

Parameter tool_choice

Penanganan Error untuk Pemanggilan Alat

Streaming dengan Tool Use

Biaya Token dari Tool Use

Menguji Aplikasi yang Banyak Menggunakan Alat

Metrik Produksi Nyata dari AI Gymbro

Sumber & Bacaan Lanjutan

Artikel Terkait

Desain Schema Alat: Detail yang Penting

Praktik Terbaik Schema Parameter

Parameter tool_choice

Penanganan Error untuk Pemanggilan Alat

Streaming dengan Tool Use

Biaya Token dari Tool Use

Menguji Aplikasi yang Banyak Menggunakan Alat

Metrik Produksi Nyata dari AI Gymbro

Sumber & Bacaan Lanjutan

Artikel Terkait