ia.rest/Blog
ProductoMayo 2026 · 6 min lectura

Comanda por voz en restaurantes: cómo funciona y por qué funciona

La comanda por voz no es ciencia ficción. Es transcripción de voz con IA aplicada a un problema muy concreto: el camarero tiene que transmitir la comanda a cocina sin errores, sin perder tiempo y sin soltar al cliente. Te explicamos cómo funciona en la práctica.


El problema que resuelve

Un camarero tarda entre 30 y 60 segundos en anotar una comanda en un TPV táctil. En ese tiempo, tiene la espalda al cliente, busca el plato en un menú digital de 200 ítems y, si hay ruido, puede equivocarse. Un servicio de 50 mesas con 3 rondas implica hasta 150 comandas por turno.

La comanda por voz elimina ese cuello de botella. El camarero habla durante 4 segundos. La comanda ya está en cocina.

La tecnología detrás: Whisper + IA de estructura

ia.rest usa dos capas de IA en secuencia:

  1. Transcripción (Whisper de Groq): convierte el audio a texto en menos de 200ms. El modelo está optimizado para vocabulario hostelero en español: entiende "marchar", "sin", "86", "la dos", "de la casa", "medio de crevetas"... con todos los acentos regionales.
  2. Estructuración (LLM con few-shot): el texto transcrito se convierte en una comanda estructurada — producto, cantidad, modificaciones, alérgenos — usando el contexto de la carta del restaurante. Si el camarero dice "dos de lo de siempre y el del ocho sin sal", el LLM lo resuelve usando las últimas comandas del turno activo como referencia.

Ejemplo real

Camarero dice:

“Mesa cuatro: dos de la casa, un agua sin gas fría, el del seis sin sal y ojo que es celíaco”

ia.rest estructura:

Mesa 4 · Menú del día ×2
Mesa 4 · Agua mineral sin gas ×1 · fría
Mesa 4 · Menú del día ×1 · sin sal · ⚠️ CELÍACO

Detección de ruido: los 4 filtros

El principal temor con la comanda por voz es el error en entornos ruidosos. ia.rest filtra la calidad de cada transcripción con cuatro capas:

  1. Detección de alucinaciones en el texto transcrito (frases sin sentido hostelero)
  2. Longitud mínima del texto (menos de 4 caracteres = ruido, no comanda)
  3. Probabilidad de no-speech alta = aviso automático
  4. Score de confianza del perfil de voz del camarero (si está configurado)

Si cualquiera de los cuatro filtros falla, ia.rest emite un tono de alerta y reabre el micrófono para que el camarero repita. En la práctica, esto ocurre en menos del 2% de las comandas.

Del móvil del camarero al KDS de cocina

Una vez estructurada, la comanda viaja por Supabase Realtime en menos de 100ms adicionales hasta el KDS (Kitchen Display System). En cocina se muestra con:

  • Platos ordenados por partida (entrantes, principales, postres)
  • Alérgenos destacados en ámbar
  • Número de mesa y nombre del camarero
  • Tiempo transcurrido desde la comanda

El cocinero confirma cada plato con un toque. El camarero recibe notificación cuando la mesa está lista.

¿Con qué hardware funciona?

Cualquier smartphone Android moderno. ia.rest recomienda el Samsung Galaxy A15 5G (desde 180 €) por su batería, su micrófono y su soporte a larga duración. No se necesita hardware propietario, ni terminales TPV, ni datáfonos especiales.

Para locales con mucho ruido (discotecas, terrazas con música), unos auriculares con micrófono de solapa mejoran significativamente la tasa de acierto.

Resultados reales

En restaurantes con alta rotación de mesas, la comanda por voz produce tres efectos medibles:

  • Reducción del 85% en errores de comanda frente a libreta manual
  • Tiempo de atención por mesa reducido de 40-60s (TPV táctil) a 4-6s
  • El camarero puede gestionar hasta 2 mesas más por turno sin aumentar el estrés

Prueba la comanda por voz en tu restaurante

14 días gratis · Sin tarjeta · Alta en 30 minutos

Empezar prueba gratuita →
← Volver al blogVer la landing completa →