Media Processing

Process audio, images, and other media types automatically.

Audio Transcription

Transcribe audio files to text using multiple providers:

import { transcribe, Media } from '@runflow-ai/sdk';

// Standalone function (default: OpenAI Whisper)
const result = await transcribe({
  audioUrl: 'https://example.com/audio.ogg',
  language: 'pt',
});

console.log(result.text); // "Olá, como vai?"

// Using specific provider
const result2 = await transcribe({
  audioUrl: 'https://example.com/audio.ogg',
  provider: 'deepgram', // openai | deepgram | assemblyai | google
  language: 'pt',
});

// Or via Media class
const result3 = await Media.transcribe({
  audioUrl: 'https://example.com/audio.ogg',
  provider: 'openai',
});

Supported Providers

Provider	Status	Description
`openai`	✅ Available	OpenAI Whisper (default)
`deepgram`	🔜 Coming	Deepgram
`assemblyai`	🔜 Coming	AssemblyAI
`google`	🔜 Coming	Google Speech-to-Text

Agent with Auto Media Processing

Configure agents to automatically process media files:

import { Agent, openai } from '@runflow-ai/sdk';

const agent = new Agent({
  name: 'WhatsApp Assistant',
  instructions: 'You are a helpful assistant.',
  model: openai('gpt-4o'),
  
  // Auto media processing
  media: {
    transcribeAudio: true,    // Transcribe audio files automatically
    processImages: true,      // Process images as multimodal (GPT-4o Vision)
    audioProvider: 'openai',  // Transcription provider
    audioLanguage: 'pt',      // Default language for transcription
  },
});

// Audio files are automatically transcribed before processing
const result = await agent.process({
  message: '',  // Can be empty when file has audio
  file: {
    url: 'https://zenvia.com/storage/audio.ogg',
    contentType: 'audio/ogg',
    caption: 'Voice message',  // Optional
  },
});

// Images are automatically processed as multimodal
const result2 = await agent.process({
  message: 'What is in this image?',
  file: {
    url: 'https://example.com/image.jpg',
    contentType: 'image/jpeg',
  },
});

Media Config Options

Option	Type	Description
`transcribeAudio`	`boolean`	Auto-transcribe audio (default: false)
`processImages`	`boolean`	Auto-process images (default: false)
`audioLanguage`	`string`	Language code (pt, en, es, etc.)
`audioProvider`	`string`	openai \| deepgram \| assemblyai \| google
`audioModel`	`string`	Provider-specific model

Getting Started

CLI

Core Concepts

Real-World Examples

Advanced

Configuration

Extending Runflow

Help & Support

Media Processing

Audio Transcription

Supported Providers

Agent with Auto Media Processing

Media Config Options

Next Steps

Agents

LLM Standalone

Getting Started

CLI

Core Concepts

Real-World Examples

Advanced

Configuration

Extending Runflow

Help & Support

​Audio Transcription

​Supported Providers

​Agent with Auto Media Processing

​Media Config Options

​Next Steps

Agents

LLM Standalone

Audio Transcription

Supported Providers

Agent with Auto Media Processing

Media Config Options

Next Steps