feat(llm-router): add @bytelyst/llm-router — pure-code LLM router for free-tier providers

- 4 providers: Groq, OpenRouter, Together AI, Cerebras - Regex-based prompt classifier (code/math/reasoning/creative/general) - Instance-level round-robin state (no shared module globals) - Sliding-window health tracker (latency, error rate, rate-limit rate) - Auto-fallback on 429/5xx with per-attempt latency tracking - Telemetry hook for all routing decisions (auto + explicit) - OpenRouter recommended headers (HTTP-Referer, X-Title) - 47 tests across 5 test files, zero runtime deps
2026-03-12 13:45:49 -07:00 · 2026-03-12 13:45:49 -07:00 · b1b3fe42df
commit b1b3fe42df
parent ae13abfab2
17 changed files with 1817 additions and 0 deletions
--- a/packages/llm-router/README.md
+++ b/packages/llm-router/README.md
@ -0,0 +1,134 @@
+# @bytelyst/llm-router
+
+Pure-code LLM router for free-tier API providers. No LLM-in-the-loop — deterministic routing with automatic fallback, health tracking, and round-robin load distribution.
+
+## Features
+
+- **4 free providers** out of the box: Groq, OpenRouter, Together AI, Cerebras
+- **Prompt classification** — regex-based detection of code/math/reasoning/creative prompts
+- **Smart selection** — routes to the best model for each prompt category
+- **Round-robin** — distributes load across providers to maximize free-tier usage
+- **Auto-fallback** — retries on 429/5xx with next-best provider
+- **Health tracking** — sliding-window stats (latency, error rate, rate-limit rate)
+- **Telemetry hook** — log every routing decision for analysis
+- **OpenAI-compatible** — same request/response format as OpenAI chat completions
+- **Zero dependencies** — pure TypeScript, uses native `fetch`
+
+## Quick Start
+
+```bash
+# Set at least one API key
+export GROQ_API_KEY=gsk_...
+export OPENROUTER_API_KEY=sk-or-...
+export TOGETHER_API_KEY=...
+export CEREBRAS_API_KEY=...
+```
+
+```typescript
+import { LlmRouter } from '@bytelyst/llm-router';
+
+const router = new LlmRouter();
+
+// Automatic routing — classifier picks best provider+model
+const result = await router.chat({
+  messages: [{ role: 'user', content: 'Write a quicksort in TypeScript' }],
+});
+
+console.log(result.response.choices[0].message.content);
+console.log(`Served by: ${result.provider}/${result.model} in ${result.totalLatencyMs}ms`);
+```
+
+## Explicit Provider Routing
+
+```typescript
+// Force a specific provider:model
+const result = await router.chat({
+  messages: [{ role: 'user', content: 'Hello' }],
+  model: 'groq:llama-3.3-70b-versatile',
+});
+```
+
+## Telemetry
+
+```typescript
+const router = new LlmRouter({
+  onTelemetry: entry => {
+    // entry: { event, provider, model, attempt, latencyMs, category, tokens?, error? }
+    console.log(`[${entry.event}] ${entry.provider}/${entry.model} — ${entry.latencyMs}ms`);
+  },
+});
+```
+
+## Health Monitoring
+
+```typescript
+const snapshots = router.getHealth();
+// Returns: HealthSnapshot[] with per-provider stats
+// { provider, model, totalRequests, successes, rateLimits, errors, avgLatencyMs, p95LatencyMs, healthy }
+```
+
+## Configuration
+
+```typescript
+const router = new LlmRouter({
+  // Override default providers
+  providers: [...],
+  // Health window (default: 60s)
+  healthWindowMs: 120_000,
+  // Error rate to mark unhealthy (default: 50%)
+  errorThreshold: 0.4,
+  // Rate-limit rate to mark unhealthy (default: 30%)
+  rateLimitThreshold: 0.2,
+  // Request timeout (default: 30s)
+  timeoutMs: 15_000,
+  // Max retry attempts (default: 3)
+  maxRetries: 4,
+});
+```
+
+## Provider Selection Logic
+
+1. **Classify** prompt → code, math, reasoning, creative, or general
+2. **Score** each available model based on category match, speed tier, context window, and model size
+3. **Filter** unhealthy models (based on sliding-window error/rate-limit rates)
+4. **Round-robin** across top-scoring providers to spread rate-limit load
+5. **Fallback** on 429/5xx → exclude failed model, pick next best
+
+## Default Provider Registry
+
+| Provider       | Models                                   | Speed      | Strengths                |
+| -------------- | ---------------------------------------- | ---------- | ------------------------ |
+| **Groq**       | Llama 3.3 70B, Llama 3.1 8B, Gemma 2 9B  | ⚡ Fastest | General, reasoning, code |
+| **OpenRouter** | DeepSeek R1, Llama 3.3 70B, Gemma 2 9B   | Medium     | Reasoning, code, math    |
+| **Together**   | Llama 3.3 70B Turbo, DeepSeek R1 Distill | Medium     | General, reasoning, code |
+| **Cerebras**   | Llama 3.3 70B                            | ⚡ Fastest | General, reasoning, code |
+
+## Adding Custom Providers
+
+Any OpenAI-compatible endpoint works:
+
+```typescript
+import { LlmRouter, DEFAULT_PROVIDERS } from '@bytelyst/llm-router';
+
+const router = new LlmRouter({
+  providers: [
+    ...DEFAULT_PROVIDERS,
+    {
+      name: 'my-provider',
+      baseUrl: 'https://my-api.example.com/v1',
+      apiKeyEnv: 'MY_PROVIDER_KEY',
+      rpmLimit: 60,
+      tpmLimit: 100_000,
+      models: [
+        {
+          id: 'my-model',
+          label: 'My Model',
+          contextWindow: 32_000,
+          strengths: ['general', 'code'],
+          speedTier: 2,
+        },
+      ],
+    },
+  ],
+});
+```
--- a/packages/llm-router/package.json
+++ b/packages/llm-router/package.json
@ -0,0 +1,26 @@
+{
+  "name": "@bytelyst/llm-router",
+  "version": "0.1.0",
+  "description": "Pure-code LLM router for free-tier API providers with round-robin, fallback, and health tracking",
+  "type": "module",
+  "exports": {
+    ".": {
+      "import": "./dist/index.js",
+      "types": "./dist/index.d.ts"
+    }
+  },
+  "main": "./dist/index.js",
+  "types": "./dist/index.d.ts",
+  "files": [
+    "dist"
+  ],
+  "scripts": {
+    "build": "tsc",
+    "test": "vitest run",
+    "typecheck": "tsc --noEmit"
+  },
+  "devDependencies": {
+    "vitest": "^3.0.0",
+    "typescript": "^5.7.0"
+  }
+}
--- a/packages/llm-router/src/tests/classifier.test.ts
+++ b/packages/llm-router/src/tests/classifier.test.ts
@ -0,0 +1,73 @@
+import { describe, it, expect } from 'vitest';
+import { classifyPrompt } from '../classifier.js';
+
+describe('classifyPrompt', () => {
+  it('classifies code prompts', () => {
+    const result = classifyPrompt([
+      { role: 'user', content: 'Write a typescript function to sort an array' },
+    ]);
+    expect(result.category).toBe('code');
+    expect(result.estimatedTokens).toBeGreaterThan(0);
+  });
+
+  it('classifies code with keywords like refactor and debug', () => {
+    const result = classifyPrompt([
+      { role: 'user', content: 'Debug this error in my React component and refactor the handler' },
+    ]);
+    expect(result.category).toBe('code');
+  });
+
+  it('classifies math prompts', () => {
+    const result = classifyPrompt([
+      { role: 'user', content: 'Calculate the integral of x^2 from 0 to 5' },
+    ]);
+    expect(result.category).toBe('math');
+  });
+
+  it('classifies reasoning prompts', () => {
+    const result = classifyPrompt([
+      {
+        role: 'user',
+        content:
+          'Explain step by step why this approach has trade-offs and analyze the implications',
+      },
+    ]);
+    expect(result.category).toBe('reasoning');
+  });
+
+  it('classifies creative prompts', () => {
+    const result = classifyPrompt([
+      { role: 'user', content: 'Write a short story about a robot who learns to paint' },
+    ]);
+    expect(result.category).toBe('creative');
+  });
+
+  it('defaults to general for ambiguous prompts', () => {
+    const result = classifyPrompt([{ role: 'user', content: 'Hello, how are you?' }]);
+    expect(result.category).toBe('general');
+  });
+
+  it('estimates tokens roughly correctly', () => {
+    const text = 'a'.repeat(400); // ~100 tokens
+    const result = classifyPrompt([{ role: 'user', content: text }]);
+    expect(result.estimatedTokens).toBe(100);
+  });
+
+  it('handles multi-message conversations', () => {
+    const result = classifyPrompt([
+      { role: 'system', content: 'You are a coding assistant' },
+      { role: 'user', content: 'Fix the bug in my python function' },
+    ]);
+    expect(result.category).toBe('code');
+  });
+
+  it('detects code blocks in backticks', () => {
+    const result = classifyPrompt([
+      {
+        role: 'user',
+        content: 'What is wrong with this?\n```\nconst x = 1;\nconsole.log(x);\n```',
+      },
+    ]);
+    expect(result.category).toBe('code');
+  });
+});
--- a/packages/llm-router/src/tests/health.test.ts
+++ b/packages/llm-router/src/tests/health.test.ts
@ -0,0 +1,121 @@
+import { describe, it, expect, beforeEach } from 'vitest';
+import { HealthTracker } from '../health.js';
+
+describe('HealthTracker', () => {
+  let tracker: HealthTracker;
+
+  beforeEach(() => {
+    tracker = new HealthTracker({ windowMs: 10_000, errorThreshold: 0.5, rateLimitThreshold: 0.3 });
+  });
+
+  it('reports healthy with no data', () => {
+    expect(tracker.isHealthy('groq', 'llama-3.3-70b')).toBe(true);
+  });
+
+  it('reports healthy with all successes', () => {
+    for (let i = 0; i < 5; i++) {
+      tracker.record('groq', 'llama-3.3-70b', {
+        timestamp: Date.now(),
+        latencyMs: 200,
+        status: 'success',
+      });
+    }
+    expect(tracker.isHealthy('groq', 'llama-3.3-70b')).toBe(true);
+  });
+
+  it('marks unhealthy when error rate exceeds threshold', () => {
+    for (let i = 0; i < 5; i++) {
+      tracker.record('groq', 'llama-3.3-70b', {
+        timestamp: Date.now(),
+        latencyMs: 200,
+        status: 'error',
+      });
+    }
+    expect(tracker.isHealthy('groq', 'llama-3.3-70b')).toBe(false);
+  });
+
+  it('marks unhealthy when rate-limit rate exceeds threshold', () => {
+    // 2 successes + 3 rate limits = 60% rate limit rate > 30% threshold
+    for (let i = 0; i < 2; i++) {
+      tracker.record('openrouter', 'model-a', {
+        timestamp: Date.now(),
+        latencyMs: 100,
+        status: 'success',
+      });
+    }
+    for (let i = 0; i < 3; i++) {
+      tracker.record('openrouter', 'model-a', {
+        timestamp: Date.now(),
+        latencyMs: 50,
+        status: 'rate_limit',
+      });
+    }
+    expect(tracker.isHealthy('openrouter', 'model-a')).toBe(false);
+  });
+
+  it('assumes healthy with fewer than 3 records', () => {
+    tracker.record('groq', 'llama-3.3-70b', {
+      timestamp: Date.now(),
+      latencyMs: 200,
+      status: 'error',
+    });
+    tracker.record('groq', 'llama-3.3-70b', {
+      timestamp: Date.now(),
+      latencyMs: 200,
+      status: 'error',
+    });
+    // Only 2 records — not enough data, should still be healthy
+    expect(tracker.isHealthy('groq', 'llama-3.3-70b')).toBe(true);
+  });
+
+  it('computes avg and p95 latency', () => {
+    const latencies = [100, 200, 300, 400, 500];
+    for (const latencyMs of latencies) {
+      tracker.record('groq', 'model-a', {
+        timestamp: Date.now(),
+        latencyMs,
+        status: 'success',
+      });
+    }
+    const snap = tracker.snapshot('groq', 'model-a');
+    expect(snap.avgLatencyMs).toBe(300);
+    expect(snap.p95LatencyMs).toBe(500);
+    expect(snap.successes).toBe(5);
+  });
+
+  it('tracks different providers independently', () => {
+    tracker.record('groq', 'model-a', {
+      timestamp: Date.now(),
+      latencyMs: 100,
+      status: 'success',
+    });
+    tracker.record('openrouter', 'model-b', {
+      timestamp: Date.now(),
+      latencyMs: 500,
+      status: 'error',
+    });
+
+    const snapA = tracker.snapshot('groq', 'model-a');
+    const snapB = tracker.snapshot('openrouter', 'model-b');
+    expect(snapA.successes).toBe(1);
+    expect(snapB.errors).toBe(1);
+  });
+
+  it('returns all snapshots', () => {
+    tracker.record('groq', 'model-a', { timestamp: Date.now(), latencyMs: 100, status: 'success' });
+    tracker.record('together', 'model-b', {
+      timestamp: Date.now(),
+      latencyMs: 200,
+      status: 'success',
+    });
+
+    const all = tracker.allSnapshots();
+    expect(all).toHaveLength(2);
+  });
+
+  it('resets all data', () => {
+    tracker.record('groq', 'model-a', { timestamp: Date.now(), latencyMs: 100, status: 'success' });
+    tracker.reset();
+    expect(tracker.allSnapshots()).toHaveLength(0);
+  });
+});
--- a/packages/llm-router/src/tests/registry.test.ts
+++ b/packages/llm-router/src/tests/registry.test.ts
@ -0,0 +1,83 @@
+import { describe, it, expect, beforeEach, afterEach } from 'vitest';
+import { getAvailableProviders, DEFAULT_PROVIDERS } from '../registry.js';
+import type { ProviderConfig } from '../types.js';
+
+describe('getAvailableProviders', () => {
+  const saved: Record<string, string | undefined> = {};
+
+  beforeEach(() => {
+    // Save and clear all default provider env vars
+    for (const p of DEFAULT_PROVIDERS) {
+      saved[p.apiKeyEnv] = process.env[p.apiKeyEnv];
+      delete process.env[p.apiKeyEnv];
+    }
+  });
+
+  afterEach(() => {
+    // Restore original env
+    for (const [key, val] of Object.entries(saved)) {
+      if (val === undefined) {
+        delete process.env[key];
+      } else {
+        process.env[key] = val;
+      }
+    }
+  });
+
+  it('returns empty array when no API keys are set', () => {
+    expect(getAvailableProviders()).toEqual([]);
+  });
+
+  it('returns only providers with API keys set', () => {
+    process.env.GROQ_API_KEY = 'gsk_test';
+    const result = getAvailableProviders();
+    expect(result).toHaveLength(1);
+    expect(result[0]!.name).toBe('groq');
+  });
+
+  it('returns multiple providers when multiple keys are set', () => {
+    process.env.GROQ_API_KEY = 'gsk_test';
+    process.env.CEREBRAS_API_KEY = 'csk_test';
+    const result = getAvailableProviders();
+    expect(result).toHaveLength(2);
+    const names = result.map(p => p.name);
+    expect(names).toContain('groq');
+    expect(names).toContain('cerebras');
+  });
+
+  it('excludes providers with empty string API key', () => {
+    process.env.GROQ_API_KEY = '';
+    expect(getAvailableProviders()).toEqual([]);
+  });
+
+  it('works with custom provider list', () => {
+    const custom: ProviderConfig[] = [
+      {
+        name: 'custom',
+        baseUrl: 'https://example.com/v1',
+        apiKeyEnv: 'CUSTOM_TEST_KEY',
+        rpmLimit: 10,
+        tpmLimit: 0,
+        models: [],
+      },
+    ];
+    expect(getAvailableProviders(custom)).toEqual([]);
+
+    process.env.CUSTOM_TEST_KEY = 'test';
+    expect(getAvailableProviders(custom)).toHaveLength(1);
+    delete process.env.CUSTOM_TEST_KEY;
+  });
+
+  it('DEFAULT_PROVIDERS includes all 4 providers', () => {
+    expect(DEFAULT_PROVIDERS).toHaveLength(4);
+    const names = DEFAULT_PROVIDERS.map(p => p.name);
+    expect(names).toEqual(['groq', 'openrouter', 'together', 'cerebras']);
+  });
+
+  it('OpenRouter provider has recommended extra headers', () => {
+    const openrouter = DEFAULT_PROVIDERS.find(p => p.name === 'openrouter');
+    expect(openrouter?.extraHeaders).toBeDefined();
+    expect(openrouter?.extraHeaders?.['HTTP-Referer']).toBeDefined();
+    expect(openrouter?.extraHeaders?.['X-Title']).toBeDefined();
+  });
+});
--- a/packages/llm-router/src/tests/router.test.ts
+++ b/packages/llm-router/src/tests/router.test.ts
@ -0,0 +1,290 @@
+import { describe, it, expect, vi, beforeEach, afterEach } from 'vitest';
+import { LlmRouter } from '../router.js';
+import type { ProviderConfig, ChatCompletionResponse } from '../types.js';
+import * as client from '../client.js';
+
+// Mock the HTTP client
+vi.mock('../client.js', () => ({
+  sendChatCompletion: vi.fn(),
+}));
+
+const MOCK_RESPONSE: ChatCompletionResponse = {
+  id: 'chatcmpl-test',
+  object: 'chat.completion',
+  created: Date.now(),
+  model: 'test-model',
+  choices: [
+    {
+      index: 0,
+      message: { role: 'assistant', content: 'Hello!' },
+      finish_reason: 'stop',
+    },
+  ],
+  usage: { prompt_tokens: 10, completion_tokens: 5, total_tokens: 15 },
+};
+
+const TEST_PROVIDERS: ProviderConfig[] = [
+  {
+    name: 'test-fast',
+    baseUrl: 'https://fast.test/v1',
+    apiKeyEnv: 'TEST_FAST_KEY',
+    rpmLimit: 30,
+    tpmLimit: 10_000,
+    models: [
+      {
+        id: 'fast-model',
+        label: 'Fast',
+        contextWindow: 8_192,
+        strengths: ['general'],
+        speedTier: 1,
+      },
+    ],
+  },
+  {
+    name: 'test-quality',
+    baseUrl: 'https://quality.test/v1',
+    apiKeyEnv: 'TEST_QUALITY_KEY',
+    rpmLimit: 20,
+    tpmLimit: 0,
+    models: [
+      {
+        id: 'quality-model',
+        label: 'Quality',
+        contextWindow: 128_000,
+        strengths: ['code', 'reasoning'],
+        speedTier: 2,
+      },
+    ],
+  },
+];
+
+describe('LlmRouter', () => {
+  beforeEach(() => {
+    vi.resetAllMocks();
+    // Set fake API keys
+    process.env.TEST_FAST_KEY = 'test-key-fast';
+    process.env.TEST_QUALITY_KEY = 'test-key-quality';
+  });
+
+  afterEach(() => {
+    delete process.env.TEST_FAST_KEY;
+    delete process.env.TEST_QUALITY_KEY;
+  });
+
+  it('throws if no providers have API keys', () => {
+    delete process.env.TEST_FAST_KEY;
+    delete process.env.TEST_QUALITY_KEY;
+    expect(() => new LlmRouter({ providers: TEST_PROVIDERS })).toThrow('No providers available');
+  });
+
+  it('routes a simple prompt to a provider', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 150,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    const result = await router.chat({
+      messages: [{ role: 'user', content: 'Hello' }],
+    });
+
+    expect(result.response.choices[0]!.message.content).toBe('Hello!');
+    expect(result.attempts).toBe(1);
+    expect(result.provider).toBeDefined();
+    expect(result.model).toBeDefined();
+  });
+
+  it('retries on 429 with fallback provider', async () => {
+    // First call: rate limited
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: null as unknown as ChatCompletionResponse,
+      latencyMs: 50,
+      status: 429,
+    });
+    // Second call: success
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 200,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    const result = await router.chat({
+      messages: [{ role: 'user', content: 'Hello' }],
+    });
+
+    expect(result.attempts).toBe(2);
+    expect(result.response.choices[0]!.message.content).toBe('Hello!');
+  });
+
+  it('retries on error with fallback provider', async () => {
+    // First call: error
+    vi.mocked(client.sendChatCompletion).mockRejectedValueOnce(new Error('Network error'));
+    // Second call: success
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 200,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    const result = await router.chat({
+      messages: [{ role: 'user', content: 'Hello' }],
+    });
+
+    expect(result.attempts).toBe(2);
+  });
+
+  it('throws after exhausting all retries', async () => {
+    vi.mocked(client.sendChatCompletion).mockRejectedValue(new Error('All down'));
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS, maxRetries: 2 });
+    await expect(router.chat({ messages: [{ role: 'user', content: 'Hello' }] })).rejects.toThrow(
+      'All providers exhausted'
+    );
+  });
+
+  it('routes code prompts to code-capable models', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 200,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    await router.chat({
+      messages: [{ role: 'user', content: 'Write a typescript function to sort an array' }],
+    });
+
+    // Should have been called with quality-model (has 'code' strength)
+    const callArgs = vi.mocked(client.sendChatCompletion).mock.calls[0]!;
+    expect(callArgs[1]).toBe('quality-model');
+  });
+
+  it('fires telemetry callback on success', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 150,
+      status: 200,
+    });
+
+    const telemetry = vi.fn();
+    const router = new LlmRouter({ providers: TEST_PROVIDERS, onTelemetry: telemetry });
+    await router.chat({ messages: [{ role: 'user', content: 'Hello' }] });
+
+    expect(telemetry).toHaveBeenCalledWith(
+      expect.objectContaining({ event: 'success', attempt: 1 })
+    );
+  });
+
+  it('fires telemetry callback on rate limit', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: null as unknown as ChatCompletionResponse,
+      latencyMs: 50,
+      status: 429,
+    });
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 200,
+      status: 200,
+    });
+
+    const telemetry = vi.fn();
+    const router = new LlmRouter({ providers: TEST_PROVIDERS, onTelemetry: telemetry });
+    await router.chat({ messages: [{ role: 'user', content: 'Hello' }] });
+
+    expect(telemetry).toHaveBeenCalledWith(expect.objectContaining({ event: 'rate_limit' }));
+  });
+
+  it('handles explicit provider:model routing', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 100,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    const result = await router.chat({
+      messages: [{ role: 'user', content: 'Hello' }],
+      model: 'test-fast:fast-model',
+    });
+
+    expect(result.provider).toBe('test-fast');
+    expect(result.model).toBe('fast-model');
+  });
+
+  it('throws for unknown explicit provider', async () => {
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    await expect(
+      router.chat({ messages: [{ role: 'user', content: 'Hello' }], model: 'unknown:model' })
+    ).rejects.toThrow('Provider "unknown" not found');
+  });
+
+  it('returns health snapshots', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 150,
+      status: 200,
+    });
+
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    await router.chat({ messages: [{ role: 'user', content: 'Hello' }] });
+
+    const health = router.getHealth();
+    expect(health.length).toBeGreaterThan(0);
+    expect(health[0]!.successes).toBe(1);
+  });
+
+  it('lists available providers', () => {
+    const router = new LlmRouter({ providers: TEST_PROVIDERS });
+    expect(router.getProviders()).toEqual(['test-fast', 'test-quality']);
+  });
+
+  it('fires telemetry for explicit model routing', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: MOCK_RESPONSE,
+      latencyMs: 100,
+      status: 200,
+    });
+
+    const telemetry = vi.fn();
+    const router = new LlmRouter({ providers: TEST_PROVIDERS, onTelemetry: telemetry });
+    await router.chat({
+      messages: [{ role: 'user', content: 'Hello' }],
+      model: 'test-fast:fast-model',
+    });
+
+    expect(telemetry).toHaveBeenCalledWith(
+      expect.objectContaining({
+        event: 'success',
+        provider: 'test-fast',
+        model: 'fast-model',
+        category: 'explicit',
+      })
+    );
+  });
+
+  it('records health on explicit model 429', async () => {
+    vi.mocked(client.sendChatCompletion).mockResolvedValueOnce({
+      response: null as unknown as ChatCompletionResponse,
+      latencyMs: 50,
+      status: 429,
+    });
+
+    const telemetry = vi.fn();
+    const router = new LlmRouter({ providers: TEST_PROVIDERS, onTelemetry: telemetry });
+    await expect(
+      router.chat({ messages: [{ role: 'user', content: 'Hello' }], model: 'test-fast:fast-model' })
+    ).rejects.toThrow('Rate limited');
+
+    expect(telemetry).toHaveBeenCalledWith(
+      expect.objectContaining({ event: 'rate_limit', provider: 'test-fast' })
+    );
+
+    // Health should have recorded the rate limit
+    const health = router.getHealth();
+    expect(health).toHaveLength(1);
+    expect(health[0]!.rateLimits).toBe(1);
+  });
+});
--- a/packages/llm-router/src/tests/selector.test.ts
+++ b/packages/llm-router/src/tests/selector.test.ts
@ -0,0 +1,138 @@
+import { describe, it, expect, beforeEach } from 'vitest';
+import {
+  selectCandidates,
+  pickNext,
+  excludeCandidate,
+  createRoundRobinState,
+} from '../selector.js';
+import { HealthTracker } from '../health.js';
+import type { ProviderConfig } from '../types.js';
+
+const MOCK_PROVIDERS: ProviderConfig[] = [
+  {
+    name: 'fast-provider',
+    baseUrl: 'https://fast.example.com/v1',
+    apiKeyEnv: 'FAST_KEY',
+    rpmLimit: 30,
+    tpmLimit: 10_000,
+    models: [
+      {
+        id: 'small-8b',
+        label: 'Small 8B',
+        contextWindow: 8_192,
+        strengths: ['general'],
+        speedTier: 1,
+      },
+      {
+        id: 'large-70b',
+        label: 'Large 70B',
+        contextWindow: 128_000,
+        strengths: ['code', 'reasoning'],
+        speedTier: 1,
+      },
+    ],
+  },
+  {
+    name: 'quality-provider',
+    baseUrl: 'https://quality.example.com/v1',
+    apiKeyEnv: 'QUALITY_KEY',
+    rpmLimit: 20,
+    tpmLimit: 0,
+    models: [
+      {
+        id: 'deepseek-r1',
+        label: 'DeepSeek R1',
+        contextWindow: 64_000,
+        strengths: ['reasoning', 'code', 'math'],
+        speedTier: 3,
+      },
+    ],
+  },
+];
+
+describe('selectCandidates', () => {
+  let health: HealthTracker;
+
+  beforeEach(() => {
+    health = new HealthTracker();
+  });
+
+  it('returns candidates sorted by score for code', () => {
+    const candidates = selectCandidates(MOCK_PROVIDERS, 'code', health);
+    expect(candidates.length).toBeGreaterThan(0);
+    // large-70b and deepseek-r1 should score high for code
+    const names = candidates.map(c => c.model.id);
+    expect(names[0]).toBe('large-70b'); // speed 1 + code strength + 70b bonus
+  });
+
+  it('returns candidates sorted by score for general', () => {
+    const candidates = selectCandidates(MOCK_PROVIDERS, 'general', health);
+    // small-8b has 'general' strength + speed tier 1
+    expect(candidates[0]!.model.id).toBe('small-8b');
+  });
+
+  it('filters out unhealthy providers', () => {
+    // Make fast-provider/large-70b unhealthy
+    for (let i = 0; i < 5; i++) {
+      health.record('fast-provider', 'large-70b', {
+        timestamp: Date.now(),
+        latencyMs: 100,
+        status: 'error',
+      });
+    }
+    const candidates = selectCandidates(MOCK_PROVIDERS, 'code', health);
+    const ids = candidates.map(c => `${c.provider.name}::${c.model.id}`);
+    expect(ids).not.toContain('fast-provider::large-70b');
+  });
+});
+
+describe('pickNext', () => {
+  it('returns null for empty candidates', () => {
+    const state = createRoundRobinState();
+    expect(pickNext([], state)).toBeNull();
+  });
+
+  it('returns the only candidate when there is one', () => {
+    const state = createRoundRobinState();
+    const candidate = { provider: MOCK_PROVIDERS[0]!, model: MOCK_PROVIDERS[0]!.models[0]! };
+    expect(pickNext([candidate], state)).toBe(candidate);
+  });
+
+  it('round-robins across providers', () => {
+    const state = createRoundRobinState();
+    const candidates = [
+      { provider: MOCK_PROVIDERS[0]!, model: MOCK_PROVIDERS[0]!.models[0]! },
+      { provider: MOCK_PROVIDERS[1]!, model: MOCK_PROVIDERS[1]!.models[0]! },
+    ];
+
+    const first = pickNext(candidates, state);
+    const second = pickNext(candidates, state);
+    expect(first!.provider.name).not.toBe(second!.provider.name);
+  });
+
+  it('uses independent state per instance', () => {
+    const stateA = createRoundRobinState();
+    const stateB = createRoundRobinState();
+    const candidates = [
+      { provider: MOCK_PROVIDERS[0]!, model: MOCK_PROVIDERS[0]!.models[0]! },
+      { provider: MOCK_PROVIDERS[1]!, model: MOCK_PROVIDERS[1]!.models[0]! },
+    ];
+
+    const fromA = pickNext(candidates, stateA);
+    const fromB = pickNext(candidates, stateB);
+    // Both start at same position since states are independent
+    expect(fromA!.provider.name).toBe(fromB!.provider.name);
+  });
+});
+
+describe('excludeCandidate', () => {
+  it('removes the specified candidate', () => {
+    const candidates = [
+      { provider: MOCK_PROVIDERS[0]!, model: MOCK_PROVIDERS[0]!.models[0]! },
+      { provider: MOCK_PROVIDERS[1]!, model: MOCK_PROVIDERS[1]!.models[0]! },
+    ];
+    const remaining = excludeCandidate(candidates, 'fast-provider', 'small-8b');
+    expect(remaining).toHaveLength(1);
+    expect(remaining[0]!.provider.name).toBe('quality-provider');
+  });
+});
--- a/packages/llm-router/src/classifier.ts
+++ b/packages/llm-router/src/classifier.ts
@ -0,0 +1,85 @@
+import type { ClassificationResult, PromptCategory } from './types.js';
+
+// ── Keyword patterns for classification ────────────────────────
+
+const CODE_PATTERNS = [
+  /\b(function|const |let |var |class |import |export |return |async |await )\b/,
+  /\b(def |print\(|if __name__|lambda )\b/,
+  /[{}();]=>/,
+  /```[\s\S]*```/,
+  /\b(typescript|javascript|python|rust|golang|java|kotlin|swift|sql|html|css|react|node)\b/i,
+  /\b(debug|refactor|compile|build|deploy|lint|test|api|endpoint|route|middleware)\b/i,
+  /\b(fix|bug|error|exception|stack trace|undefined|null|NaN)\b/i,
+];
+
+const MATH_PATTERNS = [
+  /\b(calculate|compute|solve|equation|formula|integral|derivative|matrix)\b/i,
+  /\b(probability|statistics|regression|correlation|variance|median|mean)\b/i,
+  /\b(algebra|geometry|calculus|theorem|proof|hypothesis)\b/i,
+  /[+\-*/^=]{2,}/,
+  /\d+\s*[+\-*/^]\s*\d+/,
+];
+
+const REASONING_PATTERNS = [
+  /\b(explain|analyze|compare|evaluate|reason|logic|argument|conclusion)\b/i,
+  /\b(why|how does|what if|pros and cons|trade-?offs|implications)\b/i,
+  /\b(step[- ]by[- ]step|chain of thought|think through|break down)\b/i,
+  /\b(strategy|approach|methodology|framework|architecture|design)\b/i,
+];
+
+const CREATIVE_PATTERNS = [
+  /\b(write|compose|draft|create|generate|story|poem|essay|blog|article)\b/i,
+  /\b(creative|imaginative|brainstorm|ideas|fiction|narrative|dialogue)\b/i,
+  /\b(rewrite|rephrase|summarize|translate|tone|style|voice)\b/i,
+];
+
+// ── Token estimation ───────────────────────────────────────────
+
+/**
+ * Rough token estimate: ~4 chars per token for English text.
+ * Good enough for routing decisions.
+ */
+function estimateTokens(text: string): number {
+  return Math.ceil(text.length / 4);
+}
+
+// ── Classifier ─────────────────────────────────────────────────
+
+function countMatches(text: string, patterns: RegExp[]): number {
+  let count = 0;
+  for (const pattern of patterns) {
+    if (pattern.test(text)) count++;
+  }
+  return count;
+}
+
+/**
+ * Classify a prompt into a category based on keyword matching.
+ * No LLM needed — pure regex heuristics.
+ */
+export function classifyPrompt(
+  messages: { role: string; content: string }[]
+): ClassificationResult {
+  const fullText = messages.map(m => m.content).join('\n');
+  const estimatedTokens = estimateTokens(fullText);
+
+  const scores: Record<PromptCategory, number> = {
+    code: countMatches(fullText, CODE_PATTERNS),
+    math: countMatches(fullText, MATH_PATTERNS),
+    reasoning: countMatches(fullText, REASONING_PATTERNS),
+    creative: countMatches(fullText, CREATIVE_PATTERNS),
+    general: 1, // baseline
+  };
+
+  // Pick highest scoring category
+  let best: PromptCategory = 'general';
+  let bestScore = 0;
+  for (const [cat, score] of Object.entries(scores) as [PromptCategory, number][]) {
+    if (score > bestScore) {
+      bestScore = score;
+      best = cat;
+    }
+  }
+
+  return { category: best, estimatedTokens };
+}
--- a/packages/llm-router/src/client.ts
+++ b/packages/llm-router/src/client.ts
@ -0,0 +1,66 @@
+import type { ChatCompletionRequest, ChatCompletionResponse, ProviderConfig } from './types.js';
+
+/**
+ * Send an OpenAI-compatible chat completion request to a provider.
+ * Returns the parsed response or throws on HTTP/network errors.
+ */
+export async function sendChatCompletion(
+  provider: ProviderConfig,
+  modelId: string,
+  request: ChatCompletionRequest,
+  timeoutMs: number = 30_000
+): Promise<{ response: ChatCompletionResponse; latencyMs: number; status: number }> {
+  const apiKey = process.env[provider.apiKeyEnv];
+  if (!apiKey) {
+    throw new Error(`Missing API key: env var ${provider.apiKeyEnv} is not set`);
+  }
+
+  const url = `${provider.baseUrl}/chat/completions`;
+  const headers: Record<string, string> = {
+    'Content-Type': 'application/json',
+    Authorization: `Bearer ${apiKey}`,
+    ...provider.extraHeaders,
+  };
+
+  const body = JSON.stringify({
+    model: modelId,
+    messages: request.messages,
+    ...(request.temperature !== undefined && { temperature: request.temperature }),
+    ...(request.max_tokens !== undefined && { max_tokens: request.max_tokens }),
+    ...(request.top_p !== undefined && { top_p: request.top_p }),
+    stream: false,
+  });
+
+  const controller = new AbortController();
+  const timer = setTimeout(() => controller.abort(), timeoutMs);
+  const start = Date.now();
+
+  try {
+    const res = await fetch(url, {
+      method: 'POST',
+      headers,
+      body,
+      signal: controller.signal,
+    });
+
+    const latencyMs = Date.now() - start;
+
+    if (res.status === 429) {
+      return {
+        response: null as unknown as ChatCompletionResponse,
+        latencyMs,
+        status: 429,
+      };
+    }
+
+    if (!res.ok) {
+      const text = await res.text().catch(() => '');
+      throw new Error(`${provider.name} returned ${res.status}: ${text.slice(0, 200)}`);
+    }
+
+    const data = (await res.json()) as ChatCompletionResponse;
+    return { response: data, latencyMs, status: res.status };
+  } finally {
+    clearTimeout(timer);
+  }
+}
--- a/packages/llm-router/src/health.ts
+++ b/packages/llm-router/src/health.ts
@ -0,0 +1,103 @@
+import type { HealthSnapshot, RequestRecord } from './types.js';
+
+/**
+ * Sliding-window health tracker for provider+model pairs.
+ * Tracks latency, error rates, and rate-limit hits.
+ */
+export class HealthTracker {
+  private records = new Map<string, RequestRecord[]>();
+  private readonly windowMs: number;
+  private readonly errorThreshold: number;
+  private readonly rateLimitThreshold: number;
+
+  constructor(opts?: { windowMs?: number; errorThreshold?: number; rateLimitThreshold?: number }) {
+    this.windowMs = opts?.windowMs ?? 60_000;
+    this.errorThreshold = opts?.errorThreshold ?? 0.5;
+    this.rateLimitThreshold = opts?.rateLimitThreshold ?? 0.3;
+  }
+
+  private key(provider: string, model: string): string {
+    return `${provider}::${model}`;
+  }
+
+  private prune(records: RequestRecord[]): RequestRecord[] {
+    const cutoff = Date.now() - this.windowMs;
+    return records.filter(r => r.timestamp >= cutoff);
+  }
+
+  /** Record a completed request (success, rate_limit, or error). */
+  record(provider: string, model: string, entry: RequestRecord): void {
+    const k = this.key(provider, model);
+    const existing = this.records.get(k) ?? [];
+    existing.push(entry);
+    this.records.set(k, this.prune(existing));
+  }
+
+  /** Get health snapshot for a provider+model pair. */
+  snapshot(provider: string, model: string): HealthSnapshot {
+    const k = this.key(provider, model);
+    const raw = this.records.get(k) ?? [];
+    const records = this.prune(raw);
+    this.records.set(k, records);
+
+    const total = records.length;
+    const successes = records.filter(r => r.status === 'success').length;
+    const rateLimits = records.filter(r => r.status === 'rate_limit').length;
+    const errors = records.filter(r => r.status === 'error').length;
+
+    const successLatencies = records
+      .filter(r => r.status === 'success')
+      .map(r => r.latencyMs)
+      .sort((a, b) => a - b);
+
+    const avgLatencyMs =
+      successLatencies.length > 0
+        ? successLatencies.reduce((a, b) => a + b, 0) / successLatencies.length
+        : 0;
+
+    const p95LatencyMs =
+      successLatencies.length > 0
+        ? (successLatencies[Math.floor(successLatencies.length * 0.95)] ??
+          successLatencies[successLatencies.length - 1]!)
+        : 0;
+
+    // Healthy = not too many errors or rate limits
+    const errorRate = total > 0 ? errors / total : 0;
+    const rateLimitRate = total > 0 ? rateLimits / total : 0;
+    const healthy =
+      total < 3 || // not enough data → assume healthy
+      (errorRate < this.errorThreshold && rateLimitRate < this.rateLimitThreshold);
+
+    return {
+      provider,
+      model,
+      totalRequests: total,
+      successes,
+      rateLimits,
+      errors,
+      avgLatencyMs: Math.round(avgLatencyMs),
+      p95LatencyMs: Math.round(p95LatencyMs),
+      healthy,
+    };
+  }
+
+  /** Check if a specific provider+model is currently healthy. */
+  isHealthy(provider: string, model: string): boolean {
+    return this.snapshot(provider, model).healthy;
+  }
+
+  /** Get all tracked snapshots. */
+  allSnapshots(): HealthSnapshot[] {
+    const snapshots: HealthSnapshot[] = [];
+    for (const k of this.records.keys()) {
+      const [provider, model] = k.split('::') as [string, string];
+      snapshots.push(this.snapshot(provider, model));
+    }
+    return snapshots;
+  }
+
+  /** Clear all tracking data. */
+  reset(): void {
+    this.records.clear();
+  }
+}
--- a/packages/llm-router/src/index.ts
+++ b/packages/llm-router/src/index.ts
@ -0,0 +1,25 @@
+export { LlmRouter } from './router.js';
+export type { TelemetryEntry } from './router.js';
+
+export { DEFAULT_PROVIDERS, getAvailableProviders } from './registry.js';
+export { classifyPrompt } from './classifier.js';
+export { HealthTracker } from './health.js';
+export { selectCandidates, pickNext, excludeCandidate, createRoundRobinState } from './selector.js';
+export type { SelectionCandidate } from './selector.js';
+export { sendChatCompletion } from './client.js';
+
+export type {
+  ModelConfig,
+  ProviderConfig,
+  PromptCategory,
+  ClassificationResult,
+  HealthSnapshot,
+  RequestRecord,
+  RouterConfig,
+  ChatMessage,
+  ChatCompletionRequest,
+  ChatCompletionChoice,
+  ChatCompletionUsage,
+  ChatCompletionResponse,
+  RouteResult,
+} from './types.js';
--- a/packages/llm-router/src/registry.ts
+++ b/packages/llm-router/src/registry.ts
@ -0,0 +1,134 @@
+import type { ProviderConfig } from './types.js';
+
+/**
+ * Default free-tier provider configurations.
+ * All use OpenAI-compatible /v1/chat/completions endpoints.
+ */
+export const DEFAULT_PROVIDERS: ProviderConfig[] = [
+  // ── Groq ─────────────────────────────────────────────────────
+  // Free tier: 30 RPM, 14.4K TPM (large), 30K TPM (small)
+  {
+    name: 'groq',
+    baseUrl: 'https://api.groq.com/openai/v1',
+    apiKeyEnv: 'GROQ_API_KEY',
+    rpmLimit: 30,
+    tpmLimit: 14_400,
+    models: [
+      {
+        id: 'llama-3.3-70b-versatile',
+        label: 'Llama 3.3 70B',
+        contextWindow: 128_000,
+        strengths: ['general', 'reasoning', 'code'],
+        speedTier: 1,
+      },
+      {
+        id: 'llama-3.1-8b-instant',
+        label: 'Llama 3.1 8B Instant',
+        contextWindow: 128_000,
+        strengths: ['general'],
+        speedTier: 1,
+      },
+      {
+        id: 'gemma2-9b-it',
+        label: 'Gemma 2 9B',
+        contextWindow: 8_192,
+        strengths: ['general', 'creative'],
+        speedTier: 1,
+      },
+    ],
+  },
+
+  // ── OpenRouter ───────────────────────────────────────────────
+  // Free models available (rate-limited per model)
+  {
+    name: 'openrouter',
+    baseUrl: 'https://openrouter.ai/api/v1',
+    apiKeyEnv: 'OPENROUTER_API_KEY',
+    extraHeaders: {
+      'HTTP-Referer': 'https://bytelyst.com',
+      'X-Title': 'ByteLyst LLM Router',
+    },
+    rpmLimit: 20,
+    tpmLimit: 0,
+    models: [
+      {
+        id: 'deepseek/deepseek-r1:free',
+        label: 'DeepSeek R1 (Free)',
+        contextWindow: 64_000,
+        strengths: ['reasoning', 'code', 'math'],
+        speedTier: 3,
+      },
+      {
+        id: 'meta-llama/llama-3.3-70b-instruct:free',
+        label: 'Llama 3.3 70B (Free)',
+        contextWindow: 128_000,
+        strengths: ['general', 'reasoning', 'code'],
+        speedTier: 2,
+      },
+      {
+        id: 'google/gemma-2-9b-it:free',
+        label: 'Gemma 2 9B (Free)',
+        contextWindow: 8_192,
+        strengths: ['general', 'creative'],
+        speedTier: 2,
+      },
+    ],
+  },
+
+  // ── Together AI ──────────────────────────────────────────────
+  // Free tier: limited RPM, several open models
+  {
+    name: 'together',
+    baseUrl: 'https://api.together.xyz/v1',
+    apiKeyEnv: 'TOGETHER_API_KEY',
+    rpmLimit: 20,
+    tpmLimit: 0,
+    models: [
+      {
+        id: 'meta-llama/Llama-3.3-70B-Instruct-Turbo',
+        label: 'Llama 3.3 70B Turbo',
+        contextWindow: 128_000,
+        strengths: ['general', 'reasoning', 'code'],
+        speedTier: 2,
+      },
+      {
+        id: 'deepseek-ai/DeepSeek-R1-Distill-Llama-70B',
+        label: 'DeepSeek R1 Distill 70B',
+        contextWindow: 128_000,
+        strengths: ['reasoning', 'math', 'code'],
+        speedTier: 2,
+      },
+    ],
+  },
+
+  // ── Cerebras ─────────────────────────────────────────────────
+  // Free inference tier — extremely fast
+  {
+    name: 'cerebras',
+    baseUrl: 'https://api.cerebras.ai/v1',
+    apiKeyEnv: 'CEREBRAS_API_KEY',
+    rpmLimit: 30,
+    tpmLimit: 60_000,
+    models: [
+      {
+        id: 'llama-3.3-70b',
+        label: 'Llama 3.3 70B (Cerebras)',
+        contextWindow: 128_000,
+        strengths: ['general', 'reasoning', 'code'],
+        speedTier: 1,
+      },
+    ],
+  },
+];
+
+/**
+ * Filter providers to only those with API keys present in env.
+ */
+export function getAvailableProviders(
+  providers: ProviderConfig[] = DEFAULT_PROVIDERS
+): ProviderConfig[] {
+  return providers.filter(p => {
+    const key = process.env[p.apiKeyEnv];
+    return key !== undefined && key !== '';
+  });
+}
--- a/packages/llm-router/src/router.ts
+++ b/packages/llm-router/src/router.ts
@ -0,0 +1,285 @@
+import type {
+  ChatCompletionRequest,
+  RouterConfig,
+  ProviderConfig,
+  RouteResult,
+  HealthSnapshot,
+} from './types.js';
+import { DEFAULT_PROVIDERS, getAvailableProviders } from './registry.js';
+import { classifyPrompt } from './classifier.js';
+import { HealthTracker } from './health.js';
+import { selectCandidates, pickNext, excludeCandidate, createRoundRobinState } from './selector.js';
+import { sendChatCompletion } from './client.js';
+
+export class LlmRouter {
+  private readonly providers: ProviderConfig[];
+  private readonly health: HealthTracker;
+  private readonly timeoutMs: number;
+  private readonly maxRetries: number;
+  private readonly log: (entry: TelemetryEntry) => void;
+  private readonly roundRobinState: Map<string, number>;
+
+  constructor(config?: RouterConfig & { onTelemetry?: (entry: TelemetryEntry) => void }) {
+    const allProviders = config?.providers ?? DEFAULT_PROVIDERS;
+    this.providers = getAvailableProviders(allProviders);
+
+    if (this.providers.length === 0) {
+      throw new Error(
+        'No providers available. Set at least one API key env var: ' +
+          allProviders.map(p => p.apiKeyEnv).join(', ')
+      );
+    }
+
+    this.health = new HealthTracker({
+      windowMs: config?.healthWindowMs,
+      errorThreshold: config?.errorThreshold,
+      rateLimitThreshold: config?.rateLimitThreshold,
+    });
+
+    this.timeoutMs = config?.timeoutMs ?? 30_000;
+    this.maxRetries = config?.maxRetries ?? 3;
+    this.log = config?.onTelemetry ?? (() => {});
+    this.roundRobinState = createRoundRobinState();
+  }
+
+  /**
+   * Route a chat completion request to the best available provider.
+   * Automatically retries on 429/5xx with fallback to other providers.
+   */
+  async chat(request: ChatCompletionRequest): Promise<RouteResult> {
+    const startTime = Date.now();
+
+    // If user specified a specific provider:model or provider/model, try that first
+    if (request.model && (request.model.includes(':') || request.model.includes('/'))) {
+      return this.chatWithExplicitModel(request, startTime);
+    }
+
+    // Classify the prompt
+    const classification = classifyPrompt(request.messages);
+
+    // Get ranked candidates
+    let candidates = selectCandidates(this.providers, classification.category, this.health);
+
+    if (candidates.length === 0) {
+      throw new Error('No healthy providers available for routing');
+    }
+
+    let lastError: Error | null = null;
+
+    for (let attempt = 1; attempt <= this.maxRetries; attempt++) {
+      const pick = pickNext(candidates, this.roundRobinState);
+      if (!pick) break;
+
+      const { provider, model } = pick;
+      const attemptStart = Date.now();
+
+      try {
+        const result = await sendChatCompletion(provider, model.id, request, this.timeoutMs);
+
+        if (result.status === 429) {
+          // Rate limited — record and try next provider
+          this.health.record(provider.name, model.id, {
+            timestamp: Date.now(),
+            latencyMs: result.latencyMs,
+            status: 'rate_limit',
+          });
+
+          this.log({
+            event: 'rate_limit',
+            provider: provider.name,
+            model: model.id,
+            attempt,
+            latencyMs: result.latencyMs,
+            category: classification.category,
+          });
+
+          candidates = excludeCandidate(candidates, provider.name, model.id);
+          continue;
+        }
+
+        // Success
+        this.health.record(provider.name, model.id, {
+          timestamp: Date.now(),
+          latencyMs: result.latencyMs,
+          status: 'success',
+        });
+
+        this.log({
+          event: 'success',
+          provider: provider.name,
+          model: model.id,
+          attempt,
+          latencyMs: result.latencyMs,
+          category: classification.category,
+          tokens: result.response.usage?.total_tokens,
+        });
+
+        return {
+          response: result.response,
+          provider: provider.name,
+          model: model.id,
+          totalLatencyMs: Date.now() - startTime,
+          attempts: attempt,
+        };
+      } catch (err) {
+        lastError = err instanceof Error ? err : new Error(String(err));
+        const attemptLatency = Date.now() - attemptStart;
+
+        this.health.record(provider.name, model.id, {
+          timestamp: Date.now(),
+          latencyMs: attemptLatency,
+          status: 'error',
+        });
+
+        this.log({
+          event: 'error',
+          provider: provider.name,
+          model: model.id,
+          attempt,
+          latencyMs: attemptLatency,
+          category: classification.category,
+          error: lastError.message,
+        });
+
+        candidates = excludeCandidate(candidates, provider.name, model.id);
+      }
+    }
+
+    throw new Error(
+      `All providers exhausted after ${this.maxRetries} attempts. Last error: ${lastError?.message ?? 'unknown'}`
+    );
+  }
+
+  /**
+   * Handle explicit provider:model routing (bypass classifier).
+   */
+  private async chatWithExplicitModel(
+    request: ChatCompletionRequest,
+    startTime: number
+  ): Promise<RouteResult> {
+    // Support both "provider:model" and "provider/model" separators
+    // Use first colon or first slash (whichever comes first) as separator
+    const raw = request.model!;
+    const colonIdx = raw.indexOf(':');
+    const slashIdx = raw.indexOf('/');
+    let sepIdx: number;
+    if (colonIdx === -1 && slashIdx === -1) {
+      sepIdx = -1;
+    } else if (colonIdx === -1) {
+      sepIdx = slashIdx;
+    } else if (slashIdx === -1) {
+      sepIdx = colonIdx;
+    } else {
+      sepIdx = Math.min(colonIdx, slashIdx);
+    }
+
+    const providerName = sepIdx === -1 ? raw : raw.slice(0, sepIdx);
+    const modelId = sepIdx === -1 ? '' : raw.slice(sepIdx + 1);
+
+    const provider = this.providers.find(p => p.name === providerName);
+    if (!provider) {
+      throw new Error(
+        `Provider "${providerName}" not found. Available: ${this.providers.map(p => p.name).join(', ')}`
+      );
+    }
+
+    try {
+      const result = await sendChatCompletion(provider, modelId, request, this.timeoutMs);
+
+      if (result.status === 429) {
+        this.health.record(provider.name, modelId, {
+          timestamp: Date.now(),
+          latencyMs: result.latencyMs,
+          status: 'rate_limit',
+        });
+
+        this.log({
+          event: 'rate_limit',
+          provider: provider.name,
+          model: modelId,
+          attempt: 1,
+          latencyMs: result.latencyMs,
+          category: 'explicit',
+        });
+
+        throw new Error(`Rate limited by ${providerName} for model ${modelId}`);
+      }
+
+      this.health.record(provider.name, modelId, {
+        timestamp: Date.now(),
+        latencyMs: result.latencyMs,
+        status: 'success',
+      });
+
+      this.log({
+        event: 'success',
+        provider: provider.name,
+        model: modelId,
+        attempt: 1,
+        latencyMs: result.latencyMs,
+        category: 'explicit',
+        tokens: result.response.usage?.total_tokens,
+      });
+
+      return {
+        response: result.response,
+        provider: provider.name,
+        model: modelId,
+        totalLatencyMs: Date.now() - startTime,
+        attempts: 1,
+      };
+    } catch (err) {
+      // Re-throw rate-limit errors (already logged above)
+      if (err instanceof Error && err.message.startsWith('Rate limited by')) {
+        throw err;
+      }
+
+      const latency = Date.now() - startTime;
+      this.health.record(provider.name, modelId, {
+        timestamp: Date.now(),
+        latencyMs: latency,
+        status: 'error',
+      });
+
+      this.log({
+        event: 'error',
+        provider: provider.name,
+        model: modelId,
+        attempt: 1,
+        latencyMs: latency,
+        category: 'explicit',
+        error: err instanceof Error ? err.message : String(err),
+      });
+
+      throw err;
+    }
+  }
+
+  /** Get health snapshots for all tracked provider+model pairs. */
+  getHealth(): HealthSnapshot[] {
+    return this.health.allSnapshots();
+  }
+
+  /** Get list of available (configured) providers. */
+  getProviders(): string[] {
+    return this.providers.map(p => p.name);
+  }
+
+  /** Reset health tracking data. */
+  resetHealth(): void {
+    this.health.reset();
+  }
+}
+
+// ── Telemetry types ────────────────────────────────────────────
+
+export interface TelemetryEntry {
+  event: 'success' | 'rate_limit' | 'error';
+  provider: string;
+  model: string;
+  attempt: number;
+  latencyMs: number;
+  category: string;
+  tokens?: number;
+  error?: string;
+}
--- a/packages/llm-router/src/selector.ts
+++ b/packages/llm-router/src/selector.ts
@ -0,0 +1,101 @@
+import type { ModelConfig, PromptCategory, ProviderConfig } from './types.js';
+import type { HealthTracker } from './health.js';
+
+export interface SelectionCandidate {
+  provider: ProviderConfig;
+  model: ModelConfig;
+}
+
+/** Create a fresh round-robin state map (one per router instance). */
+export function createRoundRobinState(): Map<string, number> {
+  return new Map<string, number>();
+}
+
+/**
+ * Score a model for a given prompt category.
+ * Higher = better fit.
+ */
+function scoreModel(model: ModelConfig, category: PromptCategory): number {
+  let score = 0;
+
+  // Direct strength match is the strongest signal
+  if (model.strengths.includes(category)) {
+    score += 10;
+  }
+
+  // Speed bonus (lower tier = faster = better for simple tasks)
+  score += (4 - model.speedTier) * 2;
+
+  // Context window bonus for reasoning/creative (often longer)
+  if ((category === 'reasoning' || category === 'creative') && model.contextWindow >= 64_000) {
+    score += 3;
+  }
+
+  // Prefer larger models for code/math/reasoning
+  if (['code', 'math', 'reasoning'].includes(category)) {
+    if (model.id.includes('70b') || model.id.includes('70B')) score += 5;
+    if (model.id.includes('r1') || model.id.includes('R1')) score += 4;
+  }
+
+  return score;
+}
+
+/**
+ * Select the best provider+model candidates for a prompt category.
+ * Returns candidates sorted by score (best first), filtered by health.
+ */
+export function selectCandidates(
+  providers: ProviderConfig[],
+  category: PromptCategory,
+  health: HealthTracker
+): SelectionCandidate[] {
+  const candidates: (SelectionCandidate & { score: number })[] = [];
+
+  for (const provider of providers) {
+    for (const model of provider.models) {
+      if (!health.isHealthy(provider.name, model.id)) continue;
+
+      const score = scoreModel(model, category);
+      candidates.push({ provider, model, score });
+    }
+  }
+
+  // Sort by score descending
+  candidates.sort((a, b) => b.score - a.score);
+
+  return candidates;
+}
+
+/**
+ * Pick the next candidate using round-robin within the top tier.
+ * Groups candidates by provider, rotates between them to spread rate-limit load.
+ */
+export function pickNext(
+  candidates: SelectionCandidate[],
+  state: Map<string, number>
+): SelectionCandidate | null {
+  if (candidates.length === 0) return null;
+  if (candidates.length === 1) return candidates[0]!;
+
+  // Group by provider name for round-robin
+  const providerNames = [...new Set(candidates.map(c => c.provider.name))];
+  const key = providerNames.join(',');
+
+  const idx = state.get(key) ?? 0;
+  const targetProvider = providerNames[idx % providerNames.length]!;
+  state.set(key, idx + 1);
+
+  // Pick the best model from the selected provider
+  return candidates.find(c => c.provider.name === targetProvider) ?? candidates[0]!;
+}
+
+/**
+ * Remove a candidate from the list (after failure) and return remaining.
+ */
+export function excludeCandidate(
+  candidates: SelectionCandidate[],
+  provider: string,
+  model: string
+): SelectionCandidate[] {
+  return candidates.filter(c => !(c.provider.name === provider && c.model.id === model));
+}
--- a/packages/llm-router/src/types.ts
+++ b/packages/llm-router/src/types.ts
@ -0,0 +1,136 @@
+// ── Provider & Model Types ─────────────────────────────────────
+
+export interface ModelConfig {
+  /** Model identifier as the provider expects it */
+  id: string;
+  /** Human-readable label */
+  label: string;
+  /** Max context window tokens */
+  contextWindow: number;
+  /** What this model is good at */
+  strengths: PromptCategory[];
+  /** Relative speed tier: 1 = fastest, 3 = slowest */
+  speedTier: 1 | 2 | 3;
+}
+
+export interface ProviderConfig {
+  /** Unique provider name */
+  name: string;
+  /** OpenAI-compatible base URL (e.g. https://api.groq.com/openai/v1) */
+  baseUrl: string;
+  /** Environment variable name that holds the API key */
+  apiKeyEnv: string;
+  /** Available models on this provider */
+  models: ModelConfig[];
+  /** Extra headers to send with every request */
+  extraHeaders?: Record<string, string>;
+  /** Free-tier rate limit: requests per minute (0 = unknown) */
+  rpmLimit: number;
+  /** Free-tier rate limit: tokens per minute (0 = unknown) */
+  tpmLimit: number;
+}
+
+// ── Prompt Classification ──────────────────────────────────────
+
+export type PromptCategory = 'code' | 'math' | 'reasoning' | 'creative' | 'general';
+
+export interface ClassificationResult {
+  category: PromptCategory;
+  estimatedTokens: number;
+}
+
+// ── Health Tracking ────────────────────────────────────────────
+
+export interface HealthSnapshot {
+  provider: string;
+  model: string;
+  /** Total requests in the window */
+  totalRequests: number;
+  /** Successful requests */
+  successes: number;
+  /** 429 rate-limit hits */
+  rateLimits: number;
+  /** 5xx / network errors */
+  errors: number;
+  /** Average latency in ms (successes only) */
+  avgLatencyMs: number;
+  /** p95 latency in ms */
+  p95LatencyMs: number;
+  /** Whether this provider is currently considered healthy */
+  healthy: boolean;
+}
+
+export interface RequestRecord {
+  timestamp: number;
+  latencyMs: number;
+  status: 'success' | 'rate_limit' | 'error';
+}
+
+// ── Router Config ──────────────────────────────────────────────
+
+export interface RouterConfig {
+  /** Provider configurations (use DEFAULT_PROVIDERS if omitted) */
+  providers?: ProviderConfig[];
+  /** Health window in ms (default: 60_000 = 1 minute) */
+  healthWindowMs?: number;
+  /** Error rate threshold to mark unhealthy (default: 0.5 = 50%) */
+  errorThreshold?: number;
+  /** Rate-limit rate threshold to mark unhealthy (default: 0.3 = 30%) */
+  rateLimitThreshold?: number;
+  /** Request timeout in ms (default: 30_000) */
+  timeoutMs?: number;
+  /** Max retry attempts across providers (default: 3) */
+  maxRetries?: number;
+}
+
+// ── OpenAI-Compatible Request/Response ─────────────────────────
+
+export interface ChatMessage {
+  role: 'system' | 'user' | 'assistant';
+  content: string;
+}
+
+export interface ChatCompletionRequest {
+  messages: ChatMessage[];
+  /** Optional: force a specific model (provider:model format or just model id) */
+  model?: string;
+  temperature?: number;
+  max_tokens?: number;
+  top_p?: number;
+  stream?: boolean;
+}
+
+export interface ChatCompletionChoice {
+  index: number;
+  message: ChatMessage;
+  finish_reason: string | null;
+}
+
+export interface ChatCompletionUsage {
+  prompt_tokens: number;
+  completion_tokens: number;
+  total_tokens: number;
+}
+
+export interface ChatCompletionResponse {
+  id: string;
+  object: 'chat.completion';
+  created: number;
+  model: string;
+  choices: ChatCompletionChoice[];
+  usage?: ChatCompletionUsage;
+}
+
+// ── Router Result (wraps response + metadata) ──────────────────
+
+export interface RouteResult {
+  response: ChatCompletionResponse;
+  /** Which provider served this request */
+  provider: string;
+  /** Which model was used */
+  model: string;
+  /** Total latency in ms (including retries) */
+  totalLatencyMs: number;
+  /** How many attempts were made */
+  attempts: number;
+}
--- a/packages/llm-router/tsconfig.json
+++ b/packages/llm-router/tsconfig.json
@ -0,0 +1,9 @@
+{
+  "extends": "../../tsconfig.base.json",
+  "compilerOptions": {
+    "outDir": "dist",
+    "rootDir": "src"
+  },
+  "include": ["src/**/*.ts"],
+  "exclude": ["src/**/*.test.ts"]
+}
--- a/packages/llm-router/vitest.config.ts
+++ b/packages/llm-router/vitest.config.ts
@ -0,0 +1,8 @@
+import { defineConfig } from 'vitest/config';
+
+export default defineConfig({
+  test: {
+    globals: true,
+    passWithNoTests: true,
+  },
+});