Question 1

What is ai-system-evaluation?

Accepted Answer

This Claude skill provides a comprehensive framework for end-to-end AI system evaluation, assisting developers and architects in model selection, performance benchmarking, and cost-benefit analysis. It covers critical metrics such as generation quality, latency (TTFT/TPOT), and strategic 'build vs. buy' decision-making to ensure optimal AI infrastructure and deployment.

Question 2

When should I use ai-system-evaluation?

Accepted Answer

ai-system-evaluation is useful in the following scenarios: • Model Selection & Comparison: Evaluating different LLMs (proprietary vs. open-source) based on task-specific requirements, quality thresholds, and budget constraints. • Performance Benchmarking: Designing and running evaluation pipelines using domain-specific datasets like GSM-8K for reasoning or HumanEval for coding to measure accuracy and reliability. • Cost and Latency Optimization: Analyzing operational metrics including Time to First Token (TTFT) and throughput to balance user experience with infrastructure expenses. • Architectural Decision Making: Conducting 'Build vs. Buy' assessments to determine whether to utilize managed APIs or self-hosted models based on data privacy and customization needs.

name	ai-system-evaluation
description	End-to-end AI system evaluation - model selection, benchmarks, cost/latency analysis, build vs buy decisions. Use when selecting models, designing eval pipelines, or making architecture decisions.

Domain	Benchmarks
Math & Reasoning	GSM-8K, MATH
Code	HumanEval, MBPP
Knowledge	MMLU, ARC
Multi-turn Chat	MT-Bench

Criterion	Measurement
Factual Consistency	NLI, SAFE, SelfCheckGPT
Coherence	AI judge rubric
Relevance	Semantic similarity
Fluency	Perplexity

Factor	API	Self-Host
Data Privacy	Less control	Full control
Performance	Best models	Slightly behind
Cost at Scale	Expensive	Amortized
Customization	Limited	Full control
Maintenance	Zero	Significant

Benchmark	Focus
MMLU	Knowledge (57 subjects)
HumanEval	Code generation
GSM-8K	Math reasoning
TruthfulQA	Factuality
MT-Bench	Multi-turn chat

ai-system-evaluation

When & Why to Use This Skill

Use Cases

AI System Evaluation

Evaluation Criteria

1. Domain-Specific Capability

2. Generation Quality

3. Cost & Latency

Model Selection Workflow

Build vs Buy

Public Benchmarks

Best Practices