Metodoloji23 Nisan 2026 · 8 dk okuma

Auditor'un %35 Tasarruf Metodolojisi: Üç Analiz Katmanı

Ürün sayfasında Auditor'un ortalama %35 tasarruf sağladığını yazıyoruz. Bu yazı o rakamın nasıl hesaplandığını açıklıyor: üç ayrı analiz katmanı, her birinin adreslediği maliyet kaynağı, ölçüm yöntemi ve gerçek kullanım aralıkları.

Model seçimi optimizasyonu

%15-20

Geliştirme ekiplerinin çoğu, pratikte task'ların büyük kısmını en güçlü modele (genellikle Opus) yönlendirir. Bu bir strateji değil, varsayılan seçimden kaynaklanır. Oysa küçük kod değişiklikleri, syntax düzeltmeleri veya belirli refactor tipleri çoğu zaman Sonnet veya Haiku ile aynı çıktıyı üretir.

Ölçüm yöntemi

Auditor geçmiş 200-500 task'lık pencereden örnek seçer ve her task'ı küçük modellerle shadow modunda yeniden çalıştırır. Çıktılar otomatik kalite skoruna (diff doğruluğu, syntax validity, test-geçme oranı) tabi tutulur. Eşit kalite eşiğini geçen task tipleri için 'downgrade önerilir' etiketi üretilir.

Somut örnek

Bir takımın son ayda 12 adet 'API endpoint refactor' tipi task'ı oldu. Ortalama Opus maliyeti: task başına ~$38. Shadow evaluation sonucu: aynı task tipinin 11/12'si Sonnet ile %95+ benzer çıktı üretti; ortalama maliyet task başına ~$9.

Aylık tasarruf: 11 × ($38 − $9) = $319

Sınırlar

Shadow evaluation tüm task tipleri için anlamlı değil — mimari kararlar, büyük sistem refactor'ları veya çok-adımlı agent akışları hâlâ en güçlü modelden yararlanır. Auditor bu task tiplerinde 'Opus kal' önerisi verir, downgrade zorlamaz.

Prompt ve bağlam optimizasyonu

%10-15

Şişkin system prompt'lar, her çağrıda tekrarlanan style guide'lar ve gereğinden büyük context pencereleri ölçülebilir maliyet üretir. Bu maliyet çıktının kalitesine büyük oranda katkı sağlamaz — ama ay sonunda faturanın %10-15'ini oluşturur.

Ölçüm yöntemi

Auditor benzer task tiplerinde prompt'un hangi segmentlerinin çıktıyı değiştirdiğini diff analiziyle ölçer. Segment-bazlı ablation çalıştırır: prompt'un belirli bölümlerini kaldırır ve çıktının kalite skorundaki değişimi kaydeder. Skora etki etmeyen segmentler 'gereksiz' olarak işaretlenir.

Ayrı bir analiz Anthropic prompt cache kullanımını takip eder: cache hit oranı < %30 olan büyük prompt segmentleri 'cache'lemeye aday' olarak işaretlenir. Doğru kullanımda cache'lenen input token'ın maliyeti 1/10.

Somut örnek

180 satırlık bir system prompt her task'ta ~600 input token tüketiyor. Ablation analizi 62 satırın çıktıya etki ettiğini, kalan 118 satırın 'stil rehberi' içeriği olduğunu gösterdi. Stabil bölüm cache'lendi. Yeni maliyet: task başına 180 yerine 62 token + cache hit.

Input token maliyetinde -%67, aylık ~$140 tasarruf

Anomali ve runaway tespiti

%5-10

En az konuşulan ama pratikte en büyük etkiye sahip katman. Bir developer yanlış döngüye girer, bir test agent'ı sonsuz iterasyon yapar, bir task normal baseline'ının 5-10 katı token yer. Ay sonunda beklenmeyen faturanın en yaygın kaynağı budur.

Ölçüm yöntemi

Auditor her task tipi için maliyet dağılımı (ortalama + standart sapma) kurar. Task tiplerini otomatik kümeler: 'small-refactor', 'auth-flow', 'schema-migration' gibi. Her aktif task için akan token harcaması baseline'a kıyasla kontrol edilir. 2-3σ üstü sapma tespit edildiğinde Slack bildirimi gönderilir — developer hâlâ pencereyi açıktayken.

Somut örnek

Bir authentication refactor task'ının baseline'ı ~$50. Saatlik $80 token harcaması tespit edildi (baseline'ın 1.6 katı 1 saatte). Auditor developer'a Slack'te uyarı gönderdi: 'bu task beklenenin üstünde, durdurmak ister misin?' Developer bir tool loop tespit etti ve task'ı durdurdu.

Engellenen harcama: ~$400+ (tam loop tamamlansaydı)

Neden 'ortalama' değil?

Bu katmanın etkisi normal dağılmaz — bazı aylar hiç anomali olmaz, bazı aylarda tek bir olay aylık %20-30 fazladan harcama engeller. %5-10 aralığı 6 aylık pencerede ortalama — tekil olay bazında etki çok daha büyüktür.

Gerçek aralık ve dürüst sınırlar

Beta sürecindeki kullanıcılarda gözlemlenen tasarruf aralığı %20-50. Alt band zaten disiplinli kullanım yapan takımlarda (küçük modeli zaten kullanan, cache kullanımı olan, kodun kritik bölümlerini review'dan geçiren). Üst band Opus'u varsayılan yapan, prompt cache kullanmayan, anomali takibi olmayan takımlarda.

%35 rakamı bu aralığın ortalamasıdır — her takım için garanti değil, olasılık dağılımının merkezidir. Auditor kurulumundan sonraki ilk 30 gün içinde takımın beklenen band'ı görünür hale gelir; gerçek tasarruf rakamı bu ölçümden türer.

Dürüst çerçeveleme: %35 bir vaat değil, metodolojik bir tahmin. Production kullanımında beta sayısı büyüdükçe 'ortalama X, gözlenen Y' şeklinde daha net rakamlar yayınlayacağız.

Takımında bu metodolojiyi uygula

Talos Auditor beta kullanıcısı ol — kurulum 10 dakika, ilk 30 gün içinde takımının tasarruf aralığı görünür olur.

Auditor'u İncele →