¿Qué sucede cuando la IA deja de ser una herramienta a la que escribes y comienza a ser algo con lo que hablas? En este episodio, Galen Low conversa con Oliver Shoulson, líder de Diseño y Desarrollo de Agentes en PolyAI, para analizar el sorprendente problema humano en el centro de la IA conversacional: la mayoría de las conversaciones con IA siguen resultando extrañas.
Desde guiones torpes de chatbots hasta personalidades excesivamente educadas con “voz de LLM” que suenan como si hubieran sido entrenadas por un comité de recursos humanos, Oliver explica por qué un buen diseño conversacional se trata menos de imitar perfectamente a los humanos y más de eliminar fricciones. La conversación explora la psicología de la confianza, la mecánica de la presencia social y por qué el futuro de las interfaces de IA puede depender menos del diseño visual y más de comprender cómo las personas hablan, interrumpen, dudan, aclaran y colaboran de forma natural.
Lo que aprenderás
- Por qué la IA conversacional tiene éxito o fracasa según la presencia social y la confianza
- Los fallos de diseño ocultos que hacen que las interacciones con IA resulten extrañas o frustrantes
- Cómo el tiempo, las interrupciones y el ritmo conversacional influyen en la experiencia del usuario
- Por qué la IA de voz genera comportamientos diferentes en los clientes respecto a los chatbots textuales
- El papel de la pragmática y el contexto compartido en el diseño de conversaciones naturales
- Por qué el comportamiento “servicial” de los LLM suele minar la confianza en lugar de fortalecerla
- Cómo las empresas usan voces de IA con marca para ampliar la experiencia del cliente
- Por qué el lenguaje sigue siendo uno de los problemas más difíciles de la IA pese a los avances recientes
- Qué deben replantearse los diseñadores visuales al crear interfaces conversacionales
- Cómo la comunicación entre IAs podría evolucionar más allá de los patrones de lenguaje humano
Puntos clave
- La mayoría de las conversaciones con IA fallan porque hacen que el usuario tenga que esforzarse demasiado
Un buen diseño conversacional elimina la carga de tener que navegar la propia interacción. Como explica Oliver, los usuarios no deberían tener que descifrar la lógica de menús o la estructura de conversación de un sistema de IA solo para resolver un problema sencillo. Las mejores interacciones con IA permiten que las personas se apoyen en sus hábitos conversacionales instintivos en vez de forzarlas a seguir flujos rígidos. - Las interacciones de voz generan confianza de manera diferente al texto
La gente todavía levanta el teléfono porque las conversaciones habladas crean una mayor sensación de “presencia social”. El diálogo en tiempo real aumenta la confianza, la adherencia y la seguridad en la interacción. No es nostalgia. Es cableado cognitivo. - El valle inquietante de la IA suele ser lingüístico, no visual
El problema no son solo las voces sintéticas o las frases robóticas. Es cuando la IA viola normas conversacionales sutiles que los humanos apenas notan conscientemente. Explicar excesivamente las peticiones, narrar pasos obvios o ignorar el contexto compartido rompen la ilusión de una conversación colaborativa. - La IA “servicial” a menudo suena condescendiente
Los modelos de lenguaje a gran escala están entrenados para ser generalmente seguros, agradables y explicativos. Pero en la conversación real, el exceso de explicaciones puede dar a entender incompetencia o distancia. A veces, la interacción más natural es simplemente: “¿Cuál es su número de cuenta?”. No un descargo de responsabilidad de seis líneas sobre por qué se necesita. - El tiempo importa más de lo que muchos equipos creen
La conversación humana es rápida. Retrasos mayores a unos cientos de milisegundos empiezan a sentirse antinaturales. Diseñar IA conversacional implica tener en cuenta interrupciones, pausas, palabras de relleno y dinámicas de toma de turnos que los humanos procesan de forma subconsciente. - Los trabajadores reales de los centros de llamadas ya contienen los datos de diseño que los equipos necesitan
Una de las recomendaciones más importantes de Oliver: pasa tiempo acompañando a los equipos de atención al cliente. Escucha cómo la gente realmente hace preguntas, interrumpe, aclara y resuelve problemas. La mayoría de las organizaciones ya poseen los patrones conversacionales que intentan recrear. - La IA no necesita engañar a las personas para que se sienta natural
La meta no es el engaño. Es reducir la fricción. Un diseño conversacional natural permite a los usuarios centrarse en resolver su problema en lugar de tener que descifrar cómo interactuar con el sistema. - Estamos cerca de llegar al límite de los modelos de lenguaje por fuerza bruta
Oliver sostiene que los LLM actuales representan un logro de ingeniería, pero no una comprensión completa de la cognición humana. Simplemente aumentar el tamaño de estos modelos podría llegar a un punto de rendimientos decrecientes, especialmente en lo que respecta a razonamiento y comprensión contextual. - Los agentes de IA del futuro podrían no hablar como los humanos
A medida que los sistemas de IA se comuniquen entre sí, las normas conversacionales humanas podrían desaparecer por completo. El intercambio educado que asociamos al lenguaje podría ser, en última instancia, más una cuestión de cognición humana que de transferencia óptima de información.
Capítulos
- 00:00 — Por qué las conversaciones con IA se sienten extrañas
- 02:33 — IA, sitios web y navegación
- 06:30 — Voz vs. diseño visual
- 10:33 — Dónde funciona la IA de voz hoy en día
- 13:35 — Corrigiendo la “voz LLM”
- 16:37 — Por qué la gente todavía llama por teléfono
- 20:06 — Presencia social y confianza
- 22:12 — Ética conversacional
- 25:38 — Errores comunes en el diseño de IA
- 31:06 — Ritmo y pausas en la conversación
- 33:40 — Por qué explicar demasiado rompe la confianza
- 40:16 — Diseño de conversaciones naturales
- 42:22 — Por qué el lenguaje es difícil para la IA
- 46:53 — Diseñar para interfaces de voz
- 51:06 — IA hablando con IA
- 54:11 — El futuro del hardware de IA
Conoce a nuestro invitado

Oliver Shoulson es el líder de Diseño y Desarrollo de Agentes en PolyAI, donde ayuda a diseñar y desarrollar sistemas avanzados de IA conversacional que permiten interacciones naturales y humanas para empresas globales. Con experiencia en ingeniería de IA, sistemas de diálogo y diseño centrado en el usuario, Oliver se especializa en conectar la innovación técnica con la usabilidad en el mundo real para crear experiencias escalables de voz y chat. Le apasiona el futuro de la IA conversacional y cómo los agentes inteligentes pueden transformar el servicio al cliente, la eficiencia operativa y la interacción humano-computadora.
Recursos de este episodio:
- Únete a la comunidad de Digital Project Manager
- Suscríbete al boletín para recibir nuestros últimos artículos y pódcasts
- Conecta con Oliver en LinkedIn
- Visita el sitio web de Oliver
- Visita PolyAI
Artículos y pódcasts relacionados:
Galen Low: Hola, soy Galen, el avatar virtual impulsado por IA del podcast de Digital Project Manager. Es broma. Pero, ¿cuánto apostarías a que tu experiencia en este podcast sería diferente si pensaras que soy solo una IA? Ese es el tema que vamos a tratar hoy, los principios sobre lo que hace que una interacción conversacional con la IA sea buena frente a los antiejemplos inútiles, frustrantes y del valle inquietante que vemos como memes en nuestro Instagram.
La realidad es que a muchos nos están pidiendo crear agentes y compañeros de IA con los que nuestros colegas y partes interesadas interactuarán, y no solo herramientas basadas en texto, también en voz. Pero si lo que construimos añade demasiada fricción a la experiencia, esas herramientas podrían terminar acumulando polvo en la estantería de experimentos fallidos de IA.
Así que para ayudarnos a empezar a diseñar mejores interacciones con la IA, he invitado a un experto que trabaja a la vanguardia del diseño conversacional. Juntos, vamos a analizar el ROI de crear interacciones de voz humanistas y sin fricción con la IA, explorar hasta dónde llega ese esfuerzo de diseño antes de encontrar retornos decrecientes, y mostrar cómo pequeños ajustes pueden ayudarte a alejarte de esa voz de LLM excesivamente servicial y complaciente que los humanos están empezando a odiar.
Espero que disfrutes el episodio.
Bienvenidos al Podcast de Digital Project Manager: el programa que ayuda a los líderes de entrega a trabajar de manera más inteligente, entregar con mayor fluidez y liderar sus equipos con confianza en la era de la IA. Soy Galen y cada semana profundizamos en estrategias del mundo real, tendencias emergentes, marcos probados y alguna anécdota de guerra desde la primera línea de los proyectos. Ya sea que estés liderando grandes proyectos de transformación, administrando flujos de trabajo con IA, o simplemente tratando de mantener el caos bajo control, estás en el lugar correcto. Vamos allá.
Hoy nos sumergimos en el papel que desempeña el diseño conversacional en cómo construimos la confianza con la IA. Hablaremos sobre los mayores errores que cometen los equipos al diseñar experiencias de IA basadas en conversaciones y cómo solucionarlos. Nos obsesionaremos sobre por qué el lenguaje y la IA son, en cierta forma, compañeros complicados y haremos algunas predicciones sobre cómo la IA hablará con otras IA en el futuro.
Hoy me acompaña Oliver Shoulson, líder de Diseño y Tecnología de Agentes en PolyAI. Oliver es lingüista y referente en IA conversacional, cuyo trabajo se sitúa en la intersección entre el lenguaje, el diseño de producto y la IA. Durante su paso por Yale, se centró en la variación sintáctica, estudiando cómo los hablantes construyen y ordenan las oraciones de manera diferente dentro de las reglas estructuradas del idioma. Y eso es absolutamente relevante hoy, ya que Oliver utiliza su papel en PolyAI para ayudar a los equipos a ir más allá de guiones rígidos y valles inquietantes hacia interacciones de voz con IA que realmente se sientan naturales y útiles.
Oliver, gracias por acompañarme hoy.
Oliver Shoulson: Muchas gracias por invitarme. Es realmente un placer estar aquí.
Galen Low: Este tema me resulta muy interesante. Me encantaron nuestras conversaciones previas porque pude empaparme aún más. Estudié un poco de gramática inglesa y algo de lingüística en la universidad.
Siempre fue algo que captó mi atención. Tomé otro camino, me dediqué a estudios de cine. Pero ahora que estamos en este camino de la IA y chatbots, todas estas interacciones más fluidas y menos rígidas sintácticamente, me he reenamorado del tema. Así que, en cuanto salió tu nombre, pensé, “Tengo que hablar con este tipo”.
Lo agradezco mucho. Espero que exploremos todos los temas posibles. Hay muchos conejos al agujero a donde ir, pero soy gestor de proyectos, así que, por si acaso, te traigo la hoja de ruta que planeé para nosotros hoy. Para empezar, simplemente quiero plantearte una gran pregunta en la que mi audiencia quiere tu opinión.
Luego pensé que podríamos ampliar y hablar de tres cosas. Primero, de por qué importan las interacciones por voz con IA y cómo están teniendo un impacto tangible en negocios y usuarios hoy en día. Después, revisar qué caracteriza a una buena interacción conversacional y cómo los equipos que construyen agentes o compañeros IA pueden evitar ese valle inquietante que hace encoger a los usuarios.
Y por último, tu opinión sobre el futuro del diseño de interacción y si tal vez lo visual pase a un segundo plano frente al lenguaje conversacional. ¿Qué te parece?
Oliver Shoulson: Me parece perfecto.
Galen Low: Genial, vamos allá. Quiero empezar preguntando una gran cuestión, pero voy a tomar impulso porque, en mis círculos, la mayoría son profesionales digitales: personas que crean sitios web, campañas de marketing digital o estrategias de transformación digital.
Por eso estamos atentos cuando los titulares anuncian que las páginas web, tal y como las conocemos, están a punto de cambiar para siempre, al menos en parte gracias a cómo la IA se ha integrado en la experiencia de navegación, con cosas como resúmenes de la IA, navegadores IA y copilotos IA, etcétera, etcétera.
Así que quería preguntarte: ¿Qué tan cerca crees que estamos de un internet en el que la conversación reemplaza a la navegación, y qué obstáculos podrían frenar ese avance?
Oliver Shoulson: Creo que es totalmente seguro que diseñaremos páginas web y la internet en general para que sean navegables por agentes de IA.
Creo que eso es inevitable, y probablemente es positivo. Aumentará la eficiencia con la que nuestros agentes y asistentes completan tareas para nosotros. Ahora bien, no sé si yo —ni nadie que conozca— quiere un internet al que solo le hablas y nunca ves nada.
Diría que la tarea de los diseñadores de interfaces y de interacción en general —ya sean de conversación o visuales— es usar nuestro entendimiento de los sesgos cognitivos y la arquitectura cognitiva que los humanos tienen para interactuar con el mundo real, para así crear interfaces intuitivas para el mundo digital o virtual.
Por mucho tiempo, diseñadores gráficos han encontrado formas ingeniosas de simular interacciones del mundo físico en una web, haciendo que esas navegaciones sean intuitivas. Cosas como barras deslizantes, interruptores y botones, cosas con las que interactuamos físicamente y para las que nuestra arquitectura cognitiva ya está preparada, y que simplemente aplicamos al entorno digital e inmediatamente resulta intuitivo.
No tenemos que aprender mucho sobre cómo interactuar allí. Con las interfaces conversacionales, ocurre lo mismo: apelamos a otra parte de nuestra arquitectura cognitiva, nuestras facultades lingüísticas, que hasta hace muy poco no teníamos cómo simular de forma realista.
Ese es el gran avance de los modelos grandes de lenguaje: aunque sean estos grandes motores probabilísticos, pueden —con suficiente datos, entrenamiento y supervisión— producir lo que se siente como lenguaje humano natural por primera vez. Así que nos abre otra vía para interactuar, pero no creo que la conversación sea inherentemente mejor que las interfaces gráficas.
Simplemente apelan a partes diferentes de la experiencia humana.
Galen Low: Me gusta esa vinculación con el mundo real. Yo soy digital, así que pienso en “botones, casillas, sliders”, y ni siquiera los había equiparado últimamente con sus equivalentes físicos, como interruptores y cosas con las que interactuamos físicamente.
Tiene sentido entonces pensar que ya tenemos esta facultad del lenguaje y la podemos usar como parte de la experiencia. Pero no necesariamente será mejor ni va a reemplazar nada. Simplemente tenemos varias herramientas disponibles.
Oliver Shoulson: Sí, me considero una persona muy visual. Fuera del trabajo, soy artista visual.
Galen Low: Oh, sí.
Oliver Shoulson: Y realmente me entristecería que el diseño web y gráfico quedara en segundo plano frente a la conversación. Ese no es mi objetivo como diseñador conversacional, y espero que no lo sea para nadie más.
Creo que ambas son áreas hermosas que requieren habilidades únicas e interesantes, y espero que las dos sigan prosperando.
Galen Low: Lo que me preocupa es, ¿qué pasa si la gente ya no visita sitios web? Parte de la economía web es que la gente los visita, ve la interfaz.
Hoy se habla de resúmenes IA u otras mecánicas como una web intermedia no bajo control de los propietarios originales, que puede tener un diseño de interacción diferente a la intención del negocio —lo que puede implicar más conversación, porque le hablas a Gemini o a tu LLM favorito para hacer preguntas.
Quizá valga la pena abordarlo, ya que tú aprecias tanto el diseño visual como el conversacional y tienes esa perspectiva de la intención del creador. ¿Está bien sacrificar parte de esa experiencia? ¿Puede ser incluso algo bueno?
Oliver Shoulson: La verdad es que no lo he pensado mucho, así que es algo improvisado para mí también. Ojalá esa “capa intermedia” llegue a formar parte estándar del branding y desarrollo web, para que las empresas puedan ejercer cierto control allí también.
Lo interesante para los negocios al crear interfaces conversacionales —como llevan haciendo siempre con las visuales— es la oportunidad de desarrollar una identidad de marca unificada. Entiendo la preocupación de que tu identidad se pierda, distorsione o desaparezca en esa capa intermedia, lo cual sería preocupante.
Imagino que las agencias que crean sitios web o presencias digitales para clientes ya están buscando maneras de ejercer control sobre ese resumen IA del que hablas.
Galen Low: Me encanta.
La voz de marca es parte de la experiencia. Básicamente le pedimos a un asistente que resuma, que nos lea el sitio. No recibimos la experiencia diseñadapropiamente, sino una información rápida y conveniente, pero mucho menos intencionada que la original.
Por cierto, tal vez sirva de transición, dado que tu trabajo en PolyAI gira en torno a experiencias de usuario con IA por voz que en algunos casos reemplazan a quien atiende el teléfono en un restaurante, un banco o una clínica.
¿Qué están viendo en PolyAI sobre dónde la IA de voz genera valor real y tangible para empresas y clientes hoy? ¿Y cómo es distinta de las experiencias de chatbot de la última década?
Oliver Shoulson: Pregúntale a cualquier gerente o líder de centro de contacto o de experiencia de cliente y te dirán que la gente sigue llamando por teléfono.
Puede que parezca lo contrario. Conozco a mucha gente que odia hacer llamadas. Yo mismo lo detesto. Pero el canal telefónico sigue siendo fundamental en la atención al cliente. Así que, como sugerías, una de las grandes ventajas de implementar este tipo de soluciones de voz es la capacidad de gestionar la estacionalidad, picos de volumen y rotación en los centros de contacto.
Por ejemplo, uno de nuestros mayores clientes de retail, su temporada alta es en fiestas y especialmente en Black Friday. Y gracias a nuestra solución, pudieron por primera vez dar libre a sus agentes en Black Friday además de Acción de Gracias.
Galen Low: ¿En serio?
Oliver Shoulson: Sí, ese tipo de cosas aporta valor no solo al cliente y al usuario, sino también a los propios agentes. En PolyAI, vemos nuestro trabajo como complemento a los agentes humanos, no reemplazo. Siempre habrá situaciones y necesidades donde se requiere el toque humano.
La mayoría de nuestros clientes busca automatizar ese 20 % de los problemas que explican la mayoría de llamadas, liberando recursos para los casos complejos que sí necesitan humanos. Automatizando ese 20 % se obtiene un impacto enorme en los centros de contacto. Además, la voz, más allá del texto, permite ofrecer una experiencia de marca, evitando que tu personalidad, actitud e identidad se disuelvan en la voz genérica de un LLM o chatbot común.
Por ejemplo, un cliente nuestro es Fogo de Chão, la cadena de churrasquerías brasileñas. Para ellos clonamos la voz de Selma, una de sus líderes de CX. Gracias a eso, la propia Selma ahora contesta llamadas como agente IA, procesando reservas, consultas, recompensas, etc. Eso permitió que su identidad de marca se extendiera de manera imposible de otra forma, multiplicando su alcance.
Eso entusiasma mucho a los clientes y es algo que no logras solo con texto.
Galen Low: Es curioso, porque todos entendemos a qué nos referimos con “voz de LLM”, aunque la tecnología avanza. En el fondo, el agente suele ser demasiado complaciente, gente agradando, pero no Selma —no una experiencia personal y auténtica. Mucha gente está cansada de esa voz genérica. ¿Puedes explicar brevemente cómo se logra captar la personalidad de Selma y si es un proceso arduo?
Oliver Shoulson: Para clonar la voz, hay que recopilar datos y entrenar un modelo personalizado para captar su acento y las muletillas características. En el diseño de personalidad, interviene el diseñador conversacional trabajando el prompting, la recuperación y los límites para controlar el estilo conversacional y ajustarlo al cliente. Podemos modificar parámetros para evitar la típica blandura de LLM, lo cual se logra mejor con modelos propios y entrenados en casa, sensibles a los prompts de personalidad y estilo conversacional además de instrucciones.
Galen Low: Me llama la atención porque cuando hablamos de “límites”, solemos referirnos a seguridad y ética. Pero tú te refieres también a cuánta personalidad extraer de los datos, incluso para que no sea raro o excesivo.
Oliver Shoulson: Exacto. Hay límites ligados a la identidad de marca. No queremos que el modelo filtre información personal o genere respuestas que puedan comprometer legal o éticamente a la empresa, pero también debemos proteger la voz y el tono de la marca, usando límites y controles que aseguren la personalidad diseñada.
Galen Low: Dijiste antes que la gente todavía quiere llamar por teléfono. Yo no lo entiendo mucho: a mí me incomoda, tengo poca sensación de control. Pero la mayoría sigue usando el teléfono. ¿Por qué no se ha vuelto tan obsoleto como el fax? ¿Qué hace que algunos prefieran el teléfono y hablar con una persona?
Oliver Shoulson: Hay un concepto en interacción humano-computadora bastante antiguo que surge al comparar conversaciones telefónicas con las presenciales: “presencia social”. Es la sensación de estar realmente con otra persona, de inmediatez. Hay mucha literatura que muestra que una mayor presencia social se correlaciona con una mejor experiencia de cliente y resultados positivos en negocios.
Si un cliente siente mayor presencia social en atención, confía más y sigue mejor las indicaciones, lo que reduce rebotes e incrementa la satisfacción. También es clave en confianza en la seguridad de la información: la gente cree más que sus datos están bien gestionados.
Veo la presencia social como un espectro, siendo la interacción cara a cara el máximo. Una videollamada sería lo segundo mejor, luego teléfono, y al final el texto. Buscamos tener esa presencia social en nuestras interacciones.
Galen Low: Interesante pensar en el papel de la presencia social, porque lo noto: nunca presto total atención a un correo, ni siento compromiso real; en cambio, una conversación en tiempo real exige atención, cuidado y ciertas normas sociales. Eso genera vínculo y confianza, y también eficacia —incluso en seguridad. Cuando interactúo con un chatbot, siento menos seguridad. Versus una llamada, que transmite mayor confianza. La presencia social natural puede hacer la interacción más efectiva y humana.
Oliver Shoulson: Y el diseño también influye más allá del mero canal. Hay maneras de inducir esa presencia social: por ejemplo, haciendo que el agente no suene como una máquina recitando respuestas pregrabadas. Si parece que solo “tira” textos genéricos, se pierde la sensación de acompañamiento en tiempo real y resolución colaborativa, que es lo que buscamos. Muchas veces, los LLM fallan en esto, generando distancia y desconexión. El diseño es crucial.
Galen Low: Cierto. A menudo se olvida que sistemas como ChatGPT están hechos para cualquier caso posible y optimizados para maximizar adopción y recolección de datos. Por eso la voz de LLM siempre será segura y genérica: debe abordar desde temas de salud mental a pedidos de hamburguesas, lo que hace que resulte algo “vainilla”.
Por eso ha surgido gente que entrena sus LLM para que sean incluso “un poco antipáticos”, porque no todos quieren una voz demasiado complaciente. Al ser de propósito general, el tono siempre será neutral.
Oliver Shoulson: Prefiero que un modelo soporte la agresividad de un cliente difícil y no un humano. Pero también quiero que el LLM sepa poner límites. No es bueno escuchar llamadas de gente gritando o insultando a un bot y que este solo lo soporte. Deberíamos promover buenos principios conversacionales en cualquier canal, incluso siendo IA.
Galen Low: Totalmente. Lo que hacemos en cualquier contexto se acaba normalizando. En el pasado, la interacción con asistentes por voz como Alexa o Siri era frustrante y la gente acaba siendo grosera, lo que se extiende a otros ámbitos. Decir “no hace falta dar las gracias a ChatGPT” se interpreta como permiso para no ser educado, cuando en realidad el mensaje es no malgastar recursos. Pero, ¿crees que deberíamos dar las gracias a los LLM?
Oliver Shoulson: Gran pregunta sociolingüística. Estoy seguro de que hay investigaciones actuales sobre cómo nuestras interacciones con asistentes virtuales pueden influir en nuestra forma de tratar a los humanos. He visto artículos de opinión pero poca investigación académica concluyente, aunque seguro que existe.
Galen Low: De acuerdo. He visto muchos artículos editoriales, pero seguro que alguien lo está investigando formalmente.
Tal vez aquí encaje otra pregunta: como lingüista en la vanguardia de la IA conversacional, seguro que ves muchos intentos de crear herramientas “naturales” que pasen la vergüenza ajena, aunque también ves fracasos. Desde mi mundo —gestión de proyectos y digital en general— hay presión por crear estos agentes, aunque no somos lingüistas ni expertos en IA, así que algunas soluciones dejan que desear. ¿Cuáles son los errores más comunes de diseño cuando se crean agentes o compañeros IA? ¿Y cuáles producen esa reacción de “esto se siente raro”?
Oliver Shoulson: Comenzaré con lo más “aburrido” pero esencial, que debe funcionar bien antes de pasar a los matices. La conversación hablada es caótica: hay interrupciones, autocorrecciones (como cuando alguien se equivoca y se corrige), turnos superpuestos y muy poca pausa entre intervenciones (doscientos o trescientos milisegundos a lo sumo). Desde el punto de vista técnico, es complejo manejar esa rapidez, ya que cada turno implica reconocimiento de voz, conversión a texto y una llamada al LLM, lo que requiere mucha computación en muy poco tiempo.
Hoy, la mayoría de los agentes de voz tienen pausas de tres segundos (o más) entre turnos, lejísimos de la fluidez humana. Manejar el flujo conversacional natural es un reto técnico y también de experiencia: si no puedo interrumpir al agente o viceversa para corregir malentendidos, o si un usuario interrumpe al agente y este no sabe por dónde continuar, se pierde la naturalidad. Los LLM no saben cuánto de su propio mensaje se ha escuchado cuando son interrumpidos, así que fallan en ajustar la respuesta correctamente.
Otra diferencia es que no se tiene un registro del historial conversacional como en los chats, donde sí puedes ver y referirte a mensajes anteriores. Los LLM, fundamentalmente basados en texto, están entrenados para formatos largos y estructurados (con listas y encabezados), lo que dista de la memoria activa y dinámica de la conversación real.
Por ejemplo, al transmitir información compleja como una dirección o teléfono, solemos fraccionarla y confirmarla paso a paso (“¿tienes cómo apuntar?”, “te la deletreo”, etc.), mientras que el chat basta con enviarla de un tirón. Estos “protocolos” conversacionales multi-turno son esenciales en voz y requieren ser diseñados.
Eso es lo fundamental, pero hay aspectos más sutiles desde la lingüística que también afectan al valle inquietante. ¿Quieres que siga por ahí?
Galen Low: Sí, sigamos. Nunca había pensado en el ritmo del diálogo. Yo casi solo tipéo en LLMs, y suelo dejar la conversación esperando, porque asumo que la respuesta tardará, como si fuera una base de datos, lo que probablemente limita mi experiencia y aprovecho menos la dinámica conversacional. No hay intercambio real. En voz, eso no funciona. Los agentes humanos llenan las pausas con frases (“déjame revisar”, “ya lo tengo”), lo que hace que la interacción sea fluida.
Oliver Shoulson: Hay algo en el diálogo hablado llamado “backchanneling”: mientras escuchas a alguien, asientes o dices cosas como “ajá”, “sí”, para confirmar que sigues ahí. Muchas veces es imprescindible: por ejemplo, cuando das un número de teléfono, esperamos una confirmación tras cada grupo de dígitos. De no hacerlo, puede haber confusión y error. Los modelos deben aprender a ofrecer ese feedback conversacional incluso en tareas simples de recolección de datos, si no, la gente se desorienta.
Esto de dejar un mensaje y esperar, como harías con texto, simplemente no funciona en voz. Allí hay que fragmentar, secuenciar y confirmar en tiempo real.
Galen Low: Así que, aunque digas que es aburrido, me parece fascinante. El ritmo es crucial y la tecnología actual no suele ser tan rápida. ¿Habéis tenido que crear agentes que usen frases de espera (“estoy buscando... la la la”)?
Oliver Shoulson: De hecho, antes trabajábamos con actores de voz reales y, sí, incluíamos sus muletillas, como la prolongación de sílabas cuando están pensando (“veamos, eh...”, “no encuentro tu cuenta”). Eso le indica al usuario que el sistema sigue atendiendo aunque no vea lo que ocurre. Esos detalles son muy valiosos. Así llego al segundo grupo de elementos: las reglas implícitas sobre cómo usamos el lenguaje en contexto (la pragmática), como esperar veracidad, ni más ni menos información que la necesaria. Si un agente da información extra sin motivo, implica algo más, y puede incluso molestar o sonar condescendiente.
Por ejemplo, a los LLM les encanta explicar todo lo que hacen, justificar cada pregunta: “para consultar tu cuenta necesito tu número, ¿me lo das, por favor?” o “haz clic arriba a la derecha, avísame cuándo lo hiciste”. Los humanos no decimos eso: basta preguntar o indicar. Si lo haces siempre, suenas como si creyeses que el usuario es tonto. Eso genera implicaturas indeseadas.
Para mí, como lingüista, detecto rápidamente cuando un agente sobreexplica y eso, además de ser irritante, socava la sensación de estar juntos en la tarea (“presencia social”), porque rompe el contexto compartido que se da entre humanos. Si no asumes ese contexto común, el usuario siente que el agente está “lejos”, desconectado.
Galen Low: Es gracioso porque a menudo quienes no dominan la disciplina creen que cuanta más explicación, más confianza genera el bot (“necesito tu cuenta por esto y esto, dime cuándo termines”, etc.), cuando en realidad traicionan la confianza porque no reconocen el contexto compartido. Por ejemplo, al entrenar a un LLM para tareas recurrentes, cada vez me saluda como si no me conociera, lo que me saca de contexto y anula la relación. Ahí la clave es: menos es más.
Oliver Shoulson: Exacto.
Galen Low: Así que, ¿cómo hablamos normalmente? Quizá eso sea la mejor guía para construir agentes más creíbles, ágiles y confiables que si sobreexplican todo. La explicación debe estar disponible SOLO si el usuario la pide, no por defecto.
Oliver Shoulson: 100%. No tengo una postura muy dura respecto a si el bot se debe presentar como tal al inicio. Hay argumentos a favor y en contra. Muchos temen que, si aclaras que es IA, la gente se niegue a interactuar; otros insisten en la transparencia. Lo fundamental es evitar salutaciones mecánicas y larguísimas (“está hablando con un asistente virtual habilitado con IA, la llamada será grabada...”), y más bien humanizar esa introducción y hacerla lo más orgánica posible. Señala el nombre del agente (“Hola, soy Oliver, el asistente virtual de tal empresa. ¿Cómo puedo ayudarte?”), deja la primera intervención abierta y breve, porque, como bien dices, menos es más en diseño conversacional.
Galen Low: Hablamos de no ir demasiado lejos. El objetivo no es reemplazar a un humano ni engañar: buscamos interacciones en lenguaje natural, sin pretender que el usuario no note la diferencia. Queremos naturalidad.
Oliver Shoulson: Totalmente. Nadie recibe premios por engañar a la gente. La meta es reservar el esfuerzo mental del usuario para la resolución de su problema, no para descifrar cómo “combatir” la interacción (como ocurre con los viejos menús telefónicos, donde adivinas en qué categoría cae tu problema). El objetivo es dejar que los usuarios usen su intuición lingüística, destinando el razonamiento al asunto real (por ejemplo, resetear su contraseña), y no a navegar la interfaz.
Galen Low: Interesante. Eso de construir fricción obliga a la gente a usar su cerebro de resolución para entender una experiencia, justo lo que la UX siempre ha intentado evitar. ¿Por eso el lenguaje está “de vuelta” y tan en auge? ¿Por qué es difícil crear una conversación natural desde el punto de vista del diseño?
Oliver Shoulson: El quid está en que modelar el lenguaje humano es el verdadero desafío de la lingüística: cómo replicar nuestra facultad lingüística de manera computacional. El milagro es que un niño, en apenas cuatro o cinco años, domina su idioma con muy poca exposición comparado con un LLM, que ha visto órdenes de magnitud más datos. Esto apunta a que existen mecanismos cognitivos innatos, y la lingüística busca definirlos. El avance actual es de fuerza bruta: exponiendo trillones de datos y parámetros al modelo, se logra una aproximación a la competencia lingüística humana. Pero el problema está lejos de resolverse. Me inclino por una IA basada en razonamiento simbólico, más cercana al raciocinio humano que simplemente predecir el siguiente token. Mi sospecha es que pronto llegaremos a un punto de rendimientos decrecientes con esta aproximación de LLM y necesitaremos añadir razonamiento abstracto para evitar errores absurdos.
Eso es lo que pienso a nivel filosófico y ontológico sobre lenguaje y pensamiento en IA.
Galen Low: Muy importante. Hoy la IA deslumbra, pero en realidad aún estamos lejos de “resolverla”. Esto recién empieza y debemos repensar los modelos más allá de la fuerza bruta. Es clave recordar —como decías— que nadie quiere “engañar”. El sistema es impresionante, pero tiene errores simples; es porque solo hemos simulado diálogo natural para avanzar en la investigación. Es el principio, no el final, y eso es importante para quienes diseñan estas soluciones: no es que seas torpe, es que es muy complejo y no hay una única solución mágica.
Siguiendo con el tema, quienes vienen del diseño visual tendrán que adaptar su mentalidad al crear conversaciones y experiencias de voz. ¿Cuál es el mayor cambio de mentalidad que necesitan cuando pasan al diseño conversacional?
Oliver Shoulson: Son competencias diferentes, aunque complementarias. Percibimos la información visual y lingüísticamente de forma distinta. El diseño visual consiste mucho en jerarquizar elementos en el espacio, guiando al usuario hacia lo que quieres que haga. El habla la vivimos en secuencia, y nuestro cerebro crea la estructura. Por ejemplo, hay ambigüedades (“Vi al hombre con los prismáticos rojos”: ¿quién los tenía?). Es una competencia diferente, y lo mejor es aprovechar el conocimiento de quienes ya resuelven conversaciones reales: agentes de centros de contacto, quienes escriben sus manuales, etc.
Para un diseñador conversacional, no hay nada como observar a los agentes y oír a los usuarios reales: las verdaderas preguntas, frases, necesidades, no lo que la empresa supone que buscan. Tienes acceso a recursos invaluables observando a quienes ya saben responder a clientes todos los días.
Galen Low: Me gusta. Hay que procesar la interacción línea a línea, como en audio, mientras que en la web el mapa ya está pintado. Lo más útil para quienes escuchan esto es entender que no necesariamente hay que volverse lingüista, sino observar bien, analizar casos reales, escuchar y descomponer las conversaciones. No añadir palabras hasta que sea artificial; el lenguaje es caótico, hay interrupciones, dobles sentidos, velocidad, etc. Al final es todo cuestión de presencia social, confianza y cumplimiento de objetivos.
Oliver Shoulson: Creo (sin datos, solo intuición) que las habilidades blandas y “fáciles de sentir” que hacen buen diseñador visual son transferibles: aprender a analizar y explicar por qué una experiencia resulta confusa o fluida es lo mismo que hacen los lingüistas al establecer reglas de gramática. Por eso los lingüistas suelen ser excelentes en esto, y cualquier persona con esa sensibilidad puede aplicar el mismo razonamiento al diseño conversacional, aun sin título oficial.
Galen Low: Me gusta mucho. Por cerrar, hablemos del futuro.
Sin datos ni bola de cristal, hemos hablado de IA encarnada en hardware: dispositivos como Rabbit, la colaboración de OpenAI con Jony Ive, etc. Todavía hay preferencia por la llamada para generar experiencia social, pero cuando tengamos agentes personales conectando con los agentes de los negocios, ¿se mantendrá la cortesía “humana” entre agentes IA? ¿O el lenguaje entre agentes será irreconocible para los humanos?
Oliver Shoulson: No lo sé. Si pones a Claude Opus 4.6 en alguna de esas interacciones, actuará como lo que es: una IA entrenada para hablar con humanos, así que mantendría los mismos patrones. La pregunta es si entrenaremos modelos específicos para una comunicación entre modelos más eficiente. Seguro será así a medida que aumenten marcos tipo OpenClaw y orquestación de agentes: agentes que lanzan subagentes y se reportan. Quizá el lenguaje máquina-máquina sea solo “beep boop” y terabytes de datos comprimidos, imposible de transmitir en lenguaje humano. Si esa tendencia sigue, veremos modelos entrenados para comunicarse entre bots, pero no tengo certeza.
Galen Low: Buena respuesta. El lenguaje —humano o con IA— es maravillosamente ineficiente e imperfecto; así evolucionamos y encontramos emociones y matices. ¿Quieren eso las máquinas? No lo sé. Hoy siguen el sistema que diseñamos. Es interesante pensar si usamos lenguaje porque es lo nuestro, no porque sea lo ideal para todo. Muchas gracias por abordar ese tema tan abierto y un poco de ciencia ficción. Ha sido un placer enorme.
¿Quieres hacerme una pregunta por diversión?
Oliver Shoulson: Sí. Sobre la IA en hardware: ¿crees que irá a algún lado? ¿No es suficiente el teléfono? No imagino que los dispositivos IA se popularicen —salvo que me equivoque totalmente.
Galen Low: Estoy de acuerdo en buena parte. Por un lado está la economía y la tendencia de consumidores y marcas a buscar diferenciarse. En la práctica, puede que haya más dispositivos pero no sé si serán inmediatamente necesarios. Sucede parecido en la gestión de proyectos: cada herramienta nueva es adoptada rápidamente por quienes buscan lo último, pero a menudo no cambia nada de fondo. Puede que haya más dispositivos, pero no me veo llevando un “busca” extra. A no ser que la robótica evolucione más y nuestro agente sea simplemente un androide físico, y ahí dejo de pensarlo porque es demasiado futurista. Hay mucha moda, pero ya veremos.
Oliver Shoulson: Es interesante; parece casi instintivo, del “cerebro cavernícola”, querer una herramienta física dedicada a una sola cosa en vez de simplemente usar aplicaciones en el teléfono. Es como si tuviéramos necesidades arcaicas en ese sentido.
Galen Low: Recuerdo aquellos pantalones con cien bolsillos, supuestamente para poder llevar todo. Y hoy llevamos menos cosas que nunca.
Oliver Shoulson: Sí.
Galen Low: Genial. Oliver, muchas gracias por tu tiempo. Ha sido muy enriquecedor.
¿Dónde puede saber más la gente sobre ti?
Oliver Shoulson: Pueden seguirme en LinkedIn: @oliverhs. Mi web es olivershoulson.com, donde a veces publico cosas (debería actualizarla más). También pueden visitar poly.ai y ver lo que hacemos. Publicamos muchos casos de estudio interesantes; de hecho, pueden oír la voz de Selma de Fogo de Chão en nuestro último caso.
Galen Low: Genial. Añadiré esos enlaces a las notas para que la gente pueda consultarlos. Oliver, muchísimas gracias.
Oliver Shoulson: Gracias a ti.
Galen Low: ¡Hasta aquí el episodio de hoy de Digital Project Manager Podcast! Si disfrutaste esta conversación, suscríbete donde sea que escuches podcasts, y si quieres más tácticas, casos de estudio y recursos, crea una cuenta gratuita en thedigitalprojectmanager.com.
Hasta la próxima y gracias por escuchar.
