feat(extraction-service): add /api/transcribe route — speech-to-text via OpenAI Whisper API

- POST /api/transcribe: download audio from URL, call Whisper API, return transcript - Types: TranscribeRequestSchema (Zod), TranscribeResponse, SUPPORTED_AUDIO_TYPES - Guards: 25MB size limit, 30s download timeout, 120s Whisper timeout, 429 rate limit - Config: OPENAI_API_KEY, OPENAI_BASE_URL, WHISPER_MODEL env vars - 12 new tests (schema validation + constants) - Registered in server.ts alongside extract + task routes
2026-04-06 11:10:57 -07:00 · 2026-04-06 11:10:57 -07:00 · cc3fbf8187
commit cc3fbf8187
parent 8e5403a47e
5 changed files with 390 additions and 0 deletions
--- a/services/extraction-service/src/lib/config.ts
+++ b/services/extraction-service/src/lib/config.ts
@ -19,6 +19,9 @@ const envSchema = z.object({
  EXTRACTION_QUEUE_FILE: z.string().optional(),
  EXTRACTION_QUEUE_POLL_MS: z.coerce.number().default(100),
  EXTRACTION_QUEUE_LEASE_MS: z.coerce.number().default(30000),
+  OPENAI_API_KEY: z.string().optional(),
+  OPENAI_BASE_URL: z.string().default('https://api.openai.com/v1'),
+  WHISPER_MODEL: z.string().default('whisper-1'),
 });

 export const config = envSchema.parse(process.env);
--- a/services/extraction-service/src/modules/transcribe/routes.test.ts
+++ b/services/extraction-service/src/modules/transcribe/routes.test.ts
@ -0,0 +1,124 @@
+import { describe, it, expect, vi, beforeEach, afterEach } from 'vitest';
+import { TranscribeRequestSchema, MAX_AUDIO_SIZE_BYTES, SUPPORTED_AUDIO_TYPES } from './types.js';
+
+// ── Schema validation tests ─────────────────────────────────────
+
+describe('TranscribeRequestSchema', () => {
+  it('validates a minimal valid request', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'https://blob.example.com/audio.mp3',
+    });
+    expect(result.success).toBe(true);
+    if (result.success) {
+      expect(result.data.audioUrl).toBe('https://blob.example.com/audio.mp3');
+      expect(result.data.responseFormat).toBe('text');
+    }
+  });
+
+  it('validates a full request with all optional fields', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'https://blob.example.com/audio.wav',
+      model: 'whisper-1',
+      language: 'en',
+      prompt: 'Technical meeting about software architecture.',
+      responseFormat: 'verbose_json',
+      productId: 'notelett',
+    });
+    expect(result.success).toBe(true);
+    if (result.success) {
+      expect(result.data.language).toBe('en');
+      expect(result.data.responseFormat).toBe('verbose_json');
+      expect(result.data.productId).toBe('notelett');
+    }
+  });
+
+  it('rejects missing audioUrl', () => {
+    const result = TranscribeRequestSchema.safeParse({});
+    expect(result.success).toBe(false);
+  });
+
+  it('rejects invalid URL', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'not-a-url',
+    });
+    expect(result.success).toBe(false);
+  });
+
+  it('rejects invalid responseFormat', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'https://example.com/a.mp3',
+      responseFormat: 'xml',
+    });
+    expect(result.success).toBe(false);
+  });
+
+  it('rejects language longer than 5 chars', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'https://example.com/a.mp3',
+      language: 'toolong',
+    });
+    expect(result.success).toBe(false);
+  });
+
+  it('rejects prompt longer than 1000 chars', () => {
+    const result = TranscribeRequestSchema.safeParse({
+      audioUrl: 'https://example.com/a.mp3',
+      prompt: 'x'.repeat(1001),
+    });
+    expect(result.success).toBe(false);
+  });
+});
+
+// ── Constants tests ─────────────────────────────────────────────
+
+describe('transcription constants', () => {
+  it('MAX_AUDIO_SIZE_BYTES is 25MB', () => {
+    expect(MAX_AUDIO_SIZE_BYTES).toBe(25 * 1024 * 1024);
+  });
+
+  it('SUPPORTED_AUDIO_TYPES includes common audio formats', () => {
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/mpeg')).toBe(true);
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/wav')).toBe(true);
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/webm')).toBe(true);
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/ogg')).toBe(true);
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/flac')).toBe(true);
+    expect(SUPPORTED_AUDIO_TYPES.has('audio/mp4')).toBe(true);
+  });
+
+  it('SUPPORTED_AUDIO_TYPES does not include text types', () => {
+    expect(SUPPORTED_AUDIO_TYPES.has('text/plain')).toBe(false);
+    expect(SUPPORTED_AUDIO_TYPES.has('application/json')).toBe(false);
+  });
+});
+
+// ── Route integration tests (mocked fetch) ──────────────────────
+
+describe('transcribe route', () => {
+  const originalFetch = globalThis.fetch;
+
+  beforeEach(() => {
+    vi.stubEnv('OPENAI_API_KEY', 'test-key');
+  });
+
+  afterEach(() => {
+    globalThis.fetch = originalFetch;
+    vi.unstubAllEnvs();
+  });
+
+  it('deriveFilename extracts extension from URL path', async () => {
+    // Import the module to test the helper indirectly via the route
+    // The deriveFilename is not exported, but we can verify behavior through integration
+    const { TranscribeRequestSchema } = await import('./types.js');
+    const req = TranscribeRequestSchema.parse({
+      audioUrl: 'https://blob.example.com/uploads/meeting.wav?sv=2024-01-01&sig=abc',
+    });
+    expect(req.audioUrl).toContain('meeting.wav');
+  });
+
+  it('schema defaults responseFormat to text', () => {
+    const result = TranscribeRequestSchema.parse({
+      audioUrl: 'https://example.com/a.mp3',
+    });
+    expect(result.responseFormat).toBe('text');
+  });
+});
--- a/services/extraction-service/src/modules/transcribe/routes.ts
+++ b/services/extraction-service/src/modules/transcribe/routes.ts
@ -0,0 +1,206 @@
+/**
+ * Transcription routes — speech-to-text via OpenAI Whisper API.
+ *
+ * POST /transcribe — Download audio from URL, transcribe via Whisper.
+ * Product-agnostic: any product backend can call this endpoint.
+ *
+ * Requires OPENAI_API_KEY environment variable.
+ */
+
+import type { FastifyInstance } from 'fastify';
+import { BadRequestError } from '@bytelyst/errors';
+import { config } from '../../lib/config.js';
+import { TranscribeRequestSchema, MAX_AUDIO_SIZE_BYTES, type TranscribeResponse } from './types.js';
+
+export async function transcribeRoutes(app: FastifyInstance): Promise<void> {
+  /**
+   * POST /transcribe — Transcribe audio from a URL.
+   *
+   * Flow:
+   * 1. Validate request (audioUrl, optional language/model/prompt)
+   * 2. Download audio from the provided URL
+   * 3. Send to OpenAI Whisper API as multipart/form-data
+   * 4. Return transcribed text + metadata
+   */
+  app.post('/transcribe', async (req, reply) => {
+    const parsed = TranscribeRequestSchema.safeParse(req.body);
+    if (!parsed.success) {
+      throw new BadRequestError(parsed.error.issues.map(i => i.message).join('; '));
+    }
+
+    if (!config.OPENAI_API_KEY) {
+      return reply.status(503).send({
+        error: 'Transcription not available — OPENAI_API_KEY not configured',
+      });
+    }
+
+    const { audioUrl, model, language, prompt, responseFormat, productId } = parsed.data;
+    const requestId = req.headers['x-request-id'] as string | undefined;
+
+    req.log.info(
+      { audioUrl: audioUrl.substring(0, 80), language, model, productId },
+      'transcription request'
+    );
+
+    const startMs = Date.now();
+
+    // ── Step 1: Download audio from URL ──────────────────────────
+    let audioBuffer: ArrayBuffer;
+    let contentType: string | null;
+    try {
+      const audioResponse = await fetch(audioUrl, {
+        signal: AbortSignal.timeout(30_000),
+      });
+
+      if (!audioResponse.ok) {
+        throw new BadRequestError(`Failed to download audio: HTTP ${audioResponse.status}`);
+      }
+
+      contentType = audioResponse.headers.get('content-type');
+
+      // Check size via Content-Length header first (fast fail)
+      const contentLength = audioResponse.headers.get('content-length');
+      if (contentLength && parseInt(contentLength, 10) > MAX_AUDIO_SIZE_BYTES) {
+        throw new BadRequestError(
+          `Audio file too large (${Math.round(parseInt(contentLength, 10) / 1024 / 1024)}MB). Maximum is 25MB.`
+        );
+      }
+
+      audioBuffer = await audioResponse.arrayBuffer();
+
+      if (audioBuffer.byteLength > MAX_AUDIO_SIZE_BYTES) {
+        throw new BadRequestError(
+          `Audio file too large (${Math.round(audioBuffer.byteLength / 1024 / 1024)}MB). Maximum is 25MB.`
+        );
+      }
+
+      if (audioBuffer.byteLength === 0) {
+        throw new BadRequestError('Audio file is empty');
+      }
+    } catch (err) {
+      if (err instanceof BadRequestError) throw err;
+      const message = err instanceof Error ? err.message : 'Audio download failed';
+      req.log.error({ error: message }, 'audio download failed');
+      throw new BadRequestError(`Failed to download audio: ${message}`);
+    }
+
+    // ── Step 2: Determine filename from URL or content-type ──────
+    const filename = deriveFilename(audioUrl, contentType);
+
+    // ── Step 3: Call OpenAI Whisper API ──────────────────────────
+    const whisperModel = model || config.WHISPER_MODEL;
+    const baseUrl = config.OPENAI_BASE_URL.replace(/\/+$/, '');
+
+    const formData = new FormData();
+    formData.append('file', new Blob([audioBuffer]), filename);
+    formData.append('model', whisperModel);
+    if (language) formData.append('language', language);
+    if (prompt) formData.append('prompt', prompt);
+    formData.append('response_format', responseFormat === 'text' ? 'verbose_json' : responseFormat);
+
+    let whisperResponse: Response;
+    try {
+      whisperResponse = await fetch(`${baseUrl}/audio/transcriptions`, {
+        method: 'POST',
+        headers: {
+          Authorization: `Bearer ${config.OPENAI_API_KEY}`,
+        },
+        body: formData,
+        signal: AbortSignal.timeout(120_000),
+      });
+    } catch (err) {
+      const message = err instanceof Error ? err.message : 'Whisper API call failed';
+      req.log.error({ error: message }, 'whisper API failed');
+      return reply.status(502).send({
+        error: 'Transcription failed',
+        detail: message,
+      });
+    }
+
+    if (!whisperResponse.ok) {
+      const errorText = await whisperResponse.text();
+      req.log.error({ status: whisperResponse.status, error: errorText }, 'whisper API error');
+
+      if (whisperResponse.status === 429) {
+        return reply.status(429).send({
+          error: 'Transcription rate limit exceeded',
+          detail: errorText,
+          retryAfter: 60,
+        });
+      }
+
+      return reply.status(502).send({
+        error: `Whisper API error ${whisperResponse.status}`,
+        detail: errorText,
+      });
+    }
+
+    // ── Step 4: Parse response ───────────────────────────────────
+    const data = (await whisperResponse.json()) as {
+      text: string;
+      language?: string;
+      duration?: number;
+    };
+
+    const durationMs = Date.now() - startMs;
+
+    req.log.info(
+      {
+        durationMs,
+        model: whisperModel,
+        language: data.language,
+        audioSizeBytes: audioBuffer.byteLength,
+        textLength: data.text.length,
+        productId,
+      },
+      'transcription complete'
+    );
+
+    const result: TranscribeResponse = {
+      text: data.text,
+      language: data.language ?? language ?? null,
+      durationSeconds: data.duration ?? null,
+      model: whisperModel,
+      durationMs,
+      requestId,
+    };
+
+    return reply.send(result);
+  });
+}
+
+// ── Helpers ───────────────────────────────────────────────────────
+
+function deriveFilename(url: string, contentType: string | null): string {
+  // Try to extract extension from URL path
+  try {
+    const pathname = new URL(url).pathname;
+    const lastSegment = pathname.split('/').pop();
+    if (lastSegment && /\.(mp3|m4a|wav|webm|ogg|flac|mp4|mpeg|mpga)$/i.test(lastSegment)) {
+      return lastSegment;
+    }
+  } catch {
+    // URL parsing failed — use fallback
+  }
+
+  // Map content-type to extension
+  const extMap: Record<string, string> = {
+    'audio/mpeg': 'audio.mp3',
+    'audio/mp4': 'audio.m4a',
+    'audio/mp4a-latm': 'audio.m4a',
+    'audio/x-m4a': 'audio.m4a',
+    'audio/wav': 'audio.wav',
+    'audio/x-wav': 'audio.wav',
+    'audio/webm': 'audio.webm',
+    'audio/ogg': 'audio.ogg',
+    'audio/flac': 'audio.flac',
+    'video/mp4': 'audio.mp4',
+  };
+
+  if (contentType) {
+    const base = contentType.split(';')[0].trim().toLowerCase();
+    if (extMap[base]) return extMap[base];
+  }
+
+  return 'audio.mp3';
+}
--- a/services/extraction-service/src/modules/transcribe/types.ts
+++ b/services/extraction-service/src/modules/transcribe/types.ts
@ -0,0 +1,55 @@
+import { z } from 'zod';
+
+// ── Transcription request schema ────────────────────────────────
+
+export const TranscribeRequestSchema = z.object({
+  /** URL of the audio file (e.g. Azure Blob SAS URL). */
+  audioUrl: z.string().url('audioUrl must be a valid URL'),
+  /** Override the Whisper model (default: whisper-1). */
+  model: z.string().optional(),
+  /** ISO 639-1 language hint (e.g. 'en', 'es'). Improves accuracy. */
+  language: z.string().max(5).optional(),
+  /** Optional prompt to guide the transcription style. */
+  prompt: z.string().max(1000).optional(),
+  /** Response format: 'text' returns plain text, 'verbose_json' returns word-level timestamps. */
+  responseFormat: z.enum(['text', 'json', 'verbose_json']).default('text'),
+  /** Product ID for scoping / rate limiting. */
+  productId: z.string().optional(),
+});
+
+export type TranscribeRequest = z.infer<typeof TranscribeRequestSchema>;
+
+// ── Transcription response ──────────────────────────────────────
+
+export interface TranscribeResponse {
+  /** The transcribed text. */
+  text: string;
+  /** Detected or specified language code. */
+  language: string | null;
+  /** Duration of the audio in seconds (when available). */
+  durationSeconds: number | null;
+  /** Whisper model used. */
+  model: string;
+  /** Processing time in milliseconds. */
+  durationMs: number;
+  /** Request ID for tracing. */
+  requestId?: string;
+}
+
+// ── Supported audio formats ─────────────────────────────────────
+
+export const SUPPORTED_AUDIO_TYPES = new Set([
+  'audio/mpeg', // .mp3
+  'audio/mp4', // .m4a
+  'audio/mp4a-latm',
+  'audio/x-m4a',
+  'audio/wav', // .wav
+  'audio/x-wav',
+  'audio/webm', // .webm
+  'audio/ogg', // .ogg
+  'audio/flac', // .flac
+  'video/mp4', // .mp4 (video with audio track)
+]);
+
+/** Max audio file size: 25 MB (OpenAI Whisper limit). */
+export const MAX_AUDIO_SIZE_BYTES = 25 * 1024 * 1024;
--- a/services/extraction-service/src/server.ts
+++ b/services/extraction-service/src/server.ts
@ -20,6 +20,7 @@ await resolveSecrets([
 import { createServiceApp, startService } from '@bytelyst/fastify-core';
 import { extractRoutes } from './modules/extract/routes.js';
 import { taskRoutes } from './modules/tasks/routes.js';
+import { transcribeRoutes } from './modules/transcribe/routes.js';
 import { config } from './lib/config.js';

 const app = await createServiceApp({
@ -38,5 +39,6 @@ const app = await createServiceApp({
 // Register route modules
 await app.register(extractRoutes, { prefix: '/api' });
 await app.register(taskRoutes, { prefix: '/api' });
+await app.register(transcribeRoutes, { prefix: '/api' });

 await startService(app, { port: config.PORT, host: config.HOST });