Cosa succede quando l’IA smette di essere uno strumento in cui digiti e inizia a diventare qualcosa con cui parli? In questo episodio, Galen Low si confronta con Oliver Shoulson, responsabile Agent Design and Engineering presso PolyAI, per analizzare il sorprendente problema umano al centro dell’IA conversazionale: la maggior parte delle conversazioni con l’IA sembrano ancora strane.
Dai copioni impacciati dei chatbot alle «personalità» con la voce da “LLM” eccessivamente cortese che sembrano addestrate da un comitato di risorse umane, Oliver spiega perché un buon design conversazionale riguarda meno l’imitazione perfetta degli umani e molto più l’eliminazione dell’attrito. La conversazione esplora la psicologia della fiducia, le dinamiche della presenza sociale e il motivo per cui il futuro delle interfacce IA potrebbe dipendere meno dal design visivo e più dalla comprensione di come le persone parlano naturalmente, interrompono, esistano esitazioni, chiariscono e collaborano.
Cosa Imparerai
- Perché l’IA conversazionale ha successo o fallisce in base a presenza sociale e fiducia
- I difetti nascosti di design che rendono le interazioni con l’IA inquietanti o frustranti
- Come tempi, interruzioni e ritmo della conversazione plasmano l’esperienza dell’utente
- Perché la voce dell’IA genera comportamenti diversi nei clienti rispetto ai chatbot testuali
- Il ruolo della pragmatica e del contesto condiviso nel design di conversazioni naturali
- Perché il comportamento “servizievole” degli LLM spesso mina la fiducia invece di costruirla
- Come le aziende stanno utilizzando voci AI di marca per estendere la customer experience
- Perché il linguaggio resta uno dei problemi più difficili per l’IA nonostante i recenti progressi
- Cosa devono rivalutare i visual designer quando progettano interfacce conversazionali
- Come la comunicazione tra AI potrebbe evolvere oltre i modelli linguistici umani
Aspetti Chiave
- La maggior parte delle conversazioni con l’IA fallisce perché fanno lavorare troppo l’utente
Un buon design conversazionale elimina il peso di dover gestire l’interazione stessa. Come spiega Oliver, l’utente non dovrebbe dover decifrare la logica dei menu di un sistema IA o la struttura della conversazione solo per risolvere un problema semplice. Le migliori interazioni IA permettono di affidarsi alle abitudini conversazionali istintive invece di costringere in workflow rigidi. - L’interazione vocale crea fiducia in modo diverso rispetto al testo
Le persone continuano a usare il telefono perché la conversazione orale crea un senso più forte di “presenza sociale”. Il dialogo in tempo reale aumenta la fiducia, l’adesione e la sicurezza nell’interazione. Non è nostalgia, è cablaggio cognitivo. - L’unheimliche valley dell’IA è spesso linguistica, non visiva
Il problema non sono solo le voci sintetiche o le frasi robotiche. È quando l’IA viola sottili norme conversazionali che gli umani notano appena a livello conscio. Spiegare troppo le richieste, narrare passaggi ovvi o ignorare il contesto condiviso rompono l’illusione di una conversazione collaborativa. - L’IA “servizievole” spesso risulta paternalistica
I modelli linguistici di grandi dimensioni sono addestrati per essere ampiamente sicuri, concilianti ed esplicativi. Ma nelle conversazioni reali, troppe spiegazioni possono trasmettere incompetenza o distanza. A volte l’interazione più naturale è semplicemente: “Qual è il tuo numero di conto?” Non una dichiarazione di sei righe su perché è necessario. - Il tempismo conta più di quanto molte squadre credano
La comunicazione umana è rapida. Ritardi superiori a qualche centinaio di millisecondi iniziano subito a sembrare innaturali. Progettare IA conversazionale significa tenere conto di interruzioni, pause, frasi riempitive e dinamiche di turn-taking che gli esseri umani processano inconsciamente. - I veri operatori dei call center possiedono già i dati di design che i team cercano
Uno dei consigli più importanti di Oliver: passa del tempo ad affiancare i team di assistenza clienti. Ascolta come le persone fanno realmente domande, interrompono, chiariscono e risolvono i problemi. La maggior parte delle organizzazioni già possiede i pattern conversazionali che stanno tentando di ricreare. - L’IA non deve ingannare le persone per sembrare naturale
L’obiettivo non è ingannare. È ridurre l’attrito. Un design conversazionale naturale permette agli utenti di concentrarsi sul risolvere il loro problema invece di capire come comunicare con il sistema. - Potremmo essere vicini ai limiti dell’approccio forza bruta degli LLM
Oliver sostiene che gli LLM attuali rappresentano un risultato ingegneristico, ma non una piena comprensione della cognizione umana. Semplicemente aumentare la scala dei modelli potrebbe presto produrre rendimenti decrescenti, soprattutto per quanto riguarda ragionamento e comprensione del contesto. - I futuri agenti IA potrebbero non parlare affatto come gli umani
Man mano che i sistemi IA comunicano sempre più tra loro, le norme conversazionali di tipo umano potrebbero sparire del tutto. Il cortese botta e risposta che associamo al linguaggio potrebbe essere più una questione di cognizione umana che di trasmissione ottimale delle informazioni.
Capitoli
- 00:00 — Perché le conversazioni AI sembrano strane
- 02:33 — AI, siti web e navigazione
- 06:30 — Progettazione vocale vs. visiva
- 10:33 — Dove funziona l’AI vocale oggi
- 13:35 — Correggere la “voce LLM”
- 16:37 — Perché le persone telefonano ancora
- 20:06 — Presenza sociale e fiducia
- 22:12 — Etica delle conversazioni
- 25:38 — Errori comuni nella progettazione AI
- 31:06 — Tempo e ritmo nella conversazione
- 33:40 — Perché spiegare troppo rompe la fiducia
- 40:16 — Progettazione della conversazione naturale
- 42:22 — Perché la lingua è difficile per l’AI
- 46:53 — Progettare per le interfacce vocali
- 51:06 — AI che parla con altre AI
- 54:11 — Il futuro dell’hardware AI
Conosci il nostro ospite

Oliver Shoulson è il responsabile della progettazione e ingegneria degli agenti presso PolyAI, dove contribuisce a progettare e sviluppare sistemi avanzati di AI conversazionale che alimentano interazioni con i clienti naturali e simili a quelle umane per le aziende globali. Con un background nell’ingegneria AI, sistemi di dialogo e progettazione centrata sull’utente, Oliver si specializza nel collegare l’innovazione tecnica con la reale fruibilità per creare esperienze vocali e di chat scalabili. Ha una grande passione per il futuro dell’AI conversazionale e per come gli agenti intelligenti possono trasformare il servizio clienti, l’efficienza operativa e l’interazione uomo-computer.
Risorse da questo episodio:
- Unisciti alla community di Digital Project Manager
- Iscriviti alla newsletter per ricevere i nostri ultimi articoli e podcast
- Collegati con Oliver su LinkedIn
- Scopri il sito web di Oliver
- Visita PolyAI
Articoli e podcast correlati:
Galen Low: Ciao, sono Galen, l’avatar virtuale con IA agentica del podcast Digital Project Manager. Scherzo. Ma quanto scommettereste che il modo in cui vivreste questo podcast sarebbe differente se pensaste che fossi solo un’IA? È proprio questo l’argomento di oggi: i principi che rendono efficace o invece frustrante e innaturale una conversazione con un’Intelligenza Artificiale, quegli esempi di uncanny valley che diventano meme sui nostri feed Instagram.
La realtà è che molti di noi sono chiamati a creare agenti e collaboratori IA con cui colleghi e stakeholder dovranno interfacciarsi, non solo tramite strumenti testuali, ma anche vocali. Ma se ciò che costruiamo aggiunge troppa frizione all’esperienza, questi strumenti rischiano di finire presto nel dimenticatoio degli esperimenti IA falliti.
Per aiutarci a progettare interazioni migliori con l’IA, ho invitato un esperto che lavora in prima linea nel conversation design. Insieme, analizzeremo il ROI della creazione di interazioni vocali con IA che siano umane e senza frizioni, scopriremo dove lo sforzo progettuale inizia ad avere rendimenti decrescenti, e sveleremo come piccoli accorgimenti possano aiutarti ad allontanarti da quella voce LLM troppo disponibile, piacione e ormai detestata dagli umani.
Spero che l’episodio vi piaccia.
Benvenuti a The Digital Project Manager Podcast—la trasmissione che aiuta i leader della delivery a lavorare in modo più intelligente, fornire risultati senza intoppi e guidare i propri team con sicurezza nell’era dell’IA. Sono Galen e ogni settimana esploriamo strategie concrete, trend emergenti, framework testati e qualche storia di “guerra” dalle prime linee del project management. Che tu stia gestendo grandi progetti di trasformazione, orchestrando workflow IA o solo cercando di arginare il caos, sei nel posto giusto. Iniziamo.
Oggi ci immergiamo nel ruolo che il conversation design svolge nella costruzione della fiducia verso l’IA. Discuteremo gli errori più gravi commessi dalle squadre nel progettare esperienze IA guidate dalla conversazione e come correggerli. Ci addentreremo su perché linguaggio e IA siano compagni di letto complicati, fino a fare alcune previsioni su come in futuro l’IA parlerà con altre IA.
Con me oggi c’è Oliver Shoulson, Agente capo del Design e Ingegneria presso PolyAI. Oliver è un linguista e leader di pensiero sulla conversazione IA, il cui lavoro si trova esattamente all’incrocio tra linguaggio, product design e IA. Durante l’esperienza a Yale, si è concentrato sulle variazioni sintattiche, studiando il modo in cui i parlanti costruiscono e organizzano le frasi in modo diverso pur restando nelle regole strutturate della lingua. Oggi questo è super rilevante, poiché Oliver, nel suo ruolo in PolyAI, aiuta i team a superare gli script legnosi e l’unheimlich valley, verso interazioni vocali realmente naturali e utili.
Oliver, grazie di essere qui con me oggi.
Oliver Shoulson: Grazie mille per avermi invitato. È davvero un piacere essere qui.
Galen Low: È un tema davvero interessante per me. Ho adorato le nostre conversazioni preliminari perché ho potuto “nerdare” un po’. Ho studiato un po’ di grammatica inglese e linguistica all’università.
È qualcosa che ha sempre catturato la mia attenzione. Poi ho preso un’altra strada, verso studi cinematografici. Ma da quando mi sono avvicinato al mondo IA e chatbot, tutte queste interazioni più fluide e meno rigide nella sintassi, ci sono davvero tornato dentro. Quindi appena ho sentito il tuo nome ho pensato “devo assolutamente parlare con lui”.
Ti ringrazio, e spero riusciremo a spaziare tantissimo. Ci sono tanti “rabbit hole” in cui potremmo infiltrarci, ma sono anche un project manager, quindi, giusto per sicurezza, ecco la scaletta che ho pensato per oggi. Per iniziare, vorrei mettere subito sul tavolo una domanda importante che i miei ascoltatori desiderano porti.
Poi ho pensato di andare più in generale e parlare di tre cose. Prima di tutto, perché le interazioni vocali con l’IA sono importanti e come impattano realmente aziende e utenti oggi. Poi analizziamo cosa rende efficace una conversazione con l’IA e come i team che creano agenti IA o colleghi IA possono evitare quel “valle del disagio” che fa storcere il naso agli utenti.
Infine vorrei una tua visione sul futuro del design delle interfacce e se il visual finirà magari in secondo piano rispetto al linguaggio conversazionale. Che ne pensi?
Oliver Shoulson: Mi sembra ottimo.
Galen Low: Benissimo, allora partiamo. Vorrei iniziare con una domanda tosta ma farò prima un’introduzione – perché, nella mia rete, mi muovo in circoli di professionisti digitali, persone che costruiscono siti web o campagne di marketing digitale e strategie di trasformazione digitale.
E quindi le nostre orecchie drizzano quando troviamo titoli che dicono che i siti web stanno per cambiare drasticamente, anche e soprattutto grazie all’implementazione di IA nella navigazione web: panoramiche IA, browser IA, copiloti IA, ecc.
Allora ti chiedo: quanto manca a un Internet dove la conversazione sostituisce la navigazione e cosa potrebbe impedirci di arrivarci davvero?
Oliver Shoulson: Sì. Credo che sicuramente ci saranno modi in cui il modo in cui progettiamo le pagine web e Internet in generale sarà orientato a renderle navigabili anche dagli agenti IA.
Credo sia inevitabile, e probabilmente è anche positivo. Aumenterà l’efficacia con cui agenti ed assistenti potranno svolgere compiti per noi. Detto ciò, non so se io o qualcuno che conosco vorrebbe un Internet dove si può solo parlare e mai vedere.
Direi che il compito dei designer di interfacce e interazioni, che si tratti di interfacce conversazionali o visuali, è di utilizzare la comprensione delle architetture cognitive umane — sviluppate per interagire col mondo reale — per poi creare interfacce intuitive per il digitale.
Per anni i designer di GUI sono stati capaci di simulare interazioni del mondo fisico tramite slide, pulsanti, switch, cose a cui siamo già abituati. Così impariamo a navigare il digitale con schemi cognitivi già presenti nella nostra mente.
Non dobbiamo re-imparare tutto da capo su come interagire con questi oggetti. E con le interfacce conversazionali stiamo facendo la stessa cosa: ci appoggiamo ad altre architetture cognitive, ovvero le nostre facoltà linguistiche, che fino a poco tempo fa non potevano essere replicate realisticamente.
La vera svolta dei Large Language Model è che, anche se sono “motori probabilistici enormi”, con abbastanza dati, training e supervisione, riescono a produrre qualcosa che finalmente suona come linguaggio umano naturale. E così ci danno un altro canale per interagire, senza che sia meglio o peggio di quello grafico.
Semplicemente, fanno leva su aspetti diversi dell’esperienza umana.
Galen Low: Mi piace molto il collegamento con il mondo reale, anche se spesso lo astrai – io stesso penso ai “radio button”, “checkbox”, “slider” ma poi mi rendo conto sono cose reali, fisiche, abitudini.
E poi, giusto, ha senso dire che, avendo già la facoltà del linguaggio, possiamo usarla come esperienza per interagire, ma non necessariamente sarà “meglio” o prevarrà: sono solo strumenti disponibili.
Oliver Shoulson: Esatto. Io stesso sono una persona molto visuale, sono un artista visuale nella vita personale al di fuori dal lavoro.
Galen Low: Davvero?
Oliver Shoulson: E quindi sarei molto dispiaciuto se il design web e grafico diventasse di “serie B” rispetto al conversation design. Non è mio obiettivo e spero non lo sia per nessun altro.
Penso che siano entrambi ambiti bellissimi che richiedono skill uniche. Spero che continuino entrambi a prosperare.
Galen Low: Quello che mi preoccupa è l’ansia del settore intorno al fatto che i siti web avranno sempre meno visite. Parte dell’economia di un sito è che le persone ci vadano, clicchino e vedano l’interfaccia.
Si parla ora di IA che funge da “via di mezzo”, come un sito “in-between” su cui né l’azienda né il designer hanno controllo, con interfacce diverse dalla user experience originale del brand, in quanto potrebbe basarsi su una conversazione: si chiede a Gemini, o a un altro LLM, di riassumere i contenuti anziché vivere l’esperienza progettata.
Cosa ne pensi? È un compromesso? Può essere positivo?
Oliver Shoulson: Non ci ho riflettuto molto, quindi anche per me è una riflessione improvvisata. Mi auguro che questo “strato intermedio” diventi parte integrante dello sviluppo di brand e web, così che anche le aziende possano esercitare un certo controllo.
Uno dei motivi per cui le aziende sono entusiaste del design conversazionale, come già lo sono state per le interfacce visuali, è la possibilità di sviluppare e comunicare un’identità di brand riconoscibile. Comprendo la preoccupazione che questa identità venga persa o travisata nello strato intermedio e, in effetti, possa scomparire o mutare involontariamente.
Immagino che le agenzie digitali si stiano già muovendo per trovare modi di continuare a controllare anche quello strato di “riassunto IA”.
Galen Low: È come se la voce del brand facesse parte dell’esperienza. Chiediamo a un assistente di leggerci il sito, oppure solo di riassumerlo — della user experience originale resta solo una funzione. È più veloce e comoda, ma sicuramente meno intenzionale rispetto all’esperienza disegnata dall’azienda. Questo potrebbe essere un buon aggancio per parlare del valore dell’IA vocale che create con PolyAI, dove l’IA sostituisce davvero qualcuno che risponde al telefono per un ristorante, banca o clinica.
Cosa state vedendo voi in PolyAI su dove l’IA vocale porta valore concreto ad aziende e clienti oggi, rispetto magari alle semplici chatbot viste nell’ultimo decennio?
Oliver Shoulson: Puoi chiedere a qualsiasi responsabile contact center di diversi settori e ti diranno che le persone ancora alzano la cornetta.
Magari pensi il contrario, magari conosci tanti che odiano telefonare, anch’io ne conosco. Ma il telefono è ancora un canale primario di supporto al cliente.
Una delle grandi opportunità nell'implementazione di soluzioni vocali come la nostra è gestire la stagionalità, i picchi di volume e il turnover del personale del contact center.
Per esempio, uno dei nostri clienti storici è una grande catena retail, naturalmente il periodo cruciale è quello delle festività, specie il Black Friday. Da quando lavorano con noi, per la prima volta sono riusciti a dare ai loro operatori del contact center il Black Friday libero oltre al Thanksgiving.
Galen Low: Davvero notevole.
Oliver Shoulson: Un risultato del genere porta valore non solo a cliente e azienda, ma anche agli operatori stessi. Considero il nostro lavoro un’integrazione dell’uomo, non una sostituzione. Ci sarà sempre la necessità di un contatto umano per bisogni complessi. Quello che offriamo, e che i clienti chiedono, è l’automazione dei problemi più ricorrenti — se si automatizza quel 20% di richieste standard, è un vantaggio enorme per tutto il contact center. E la voce dà la possibilità di sviluppare un’esperienza di brand che il testo non dà.
Per esempio, Fogo de Chão — la catena di steakhouse brasiliane — era entusiasta di clonare la voce di Selma, una delle loro dipendenti storiche nell’esperienza cliente.
Noi abbiamo ricreato Selma come agente IA, così risponde lei al telefono per prenotazioni, modifiche, premi, ecc. In questo modo hanno esteso la loro identità di brand molto oltre la presenza fisica di Selma e raggiunto molte più persone di quante avrebbe fatto da sola. È un successo impossibile da ottenere col solo testo.
Galen Low: Hai parlato della “voce LLM”, e penso che tutti ormai abbiamo capito di cosa si parla. È una voce piacevole, compiacente ma poco personale, che diventa presto snervante — pensi che sia possibile costruire facilmente agenti personalizzati e con più carattere, come Selma? Serve tanto lavoro?
Oliver Shoulson: La clonazione della voce richiede qualche ora di registrazioni e un po’ di training, per riprodurre accento, toni, riempitivi. Invece la progettazione della personalità è opera del conversation designer, che lavora su prompt, retrieval e “guardrail” insieme al cliente.
Abbiamo tanti strumenti per regolare la personalità e lo stile conversazionale, e avere modelli custom ci aiuta ad essere molto sensibili su questi aspetti anziché cadere sempre nella voce LLM generica e blanda.
Galen Low: Mi piace che tu includa i guardrail non solo a livello di sicurezza, privacy, etica, ma anche per proteggere la personalità del brand e prevenire derive strane.
Oliver Shoulson: Esatto, i guardrail servono anche a proteggere l’identità di brand: il modello non deve rivelare dati sensibili né deviare dalla personalità che l’azienda ha creato.
Galen Low: Vorrei tornare su “le persone vogliono ancora usare il telefono”. Io sono uno che non ama telefonare — è imprevedibile, mi fa perdere il “controllo”. Però io sono l’eccezione. Perché le persone preferiscono il telefono, e non è finito come i fax?
Oliver Shoulson: In HCI si parla di “presenza sociale”: la sensazione di esserci davvero, di interagire in tempo reale con qualcuno. Tanti studi confermano che l’aumento di presenza sociale migliora fiducia, soddisfazione, aderenza alle istruzioni e persino la percezione di sicurezza nelle informazioni fornite. È per questo che molti cercano ancora la sensazione di “presenza sociale”. La presenza sociale è uno spettro: massimo faccia a faccia, un po’ meno con videochiamata, ancora meno con telefono, al minimo col testo. Le persone cercano quel livello di presenza nei servizi.
Galen Low: Ha senso: spesso leggo le mail in modo distratto perché non c’è presenza sociale, mentre con una persona in tempo reale c’è un senso di responsabilità reciproca, efficacia, fiducia e cura. Questo fa sì che la buona progettazione della conversazione migliori anche fedeltà e risultati di business, perché si costruisce fiducia.
Oliver Shoulson: Esatto, e il design può rafforzare la presenza sociale: evitare l’effetto “copiatina pubblicitaria”, rendere la conversazione naturale e collaborativa, con un vero rapporto. LLM spesso rischiano di sembrare distaccati o innaturali se usati “out of the box”, e il design gioca qui un ruolo decisivo.
Galen Low: Spesso ci dimentichiamo che ChatGPT e altri sono progettati per coprire qualsiasi use case, quindi la loro voce sarà sempre “safe” e un po’ vanitosa di default. È anche per questo che in tanti la addestrano per essere più “diretta”, “severa”, meno gentile. Un’unica voce non va bene per tutti.
Oliver Shoulson: Sì, preferisco che un LLM sia bersaglio di insulti invece di una persona, ma credo che anche le IA debbano poter porre dei limiti e non subire abusi all’infinito. Occorre promuovere dei principi conversazionali corretti, non solo simulare dialoghi realistici.
Galen Low: Verissimo: il rischio è normalizzare la “maleducazione tecnologica”, e se anche diciamo “non dire sempre grazie a ChatGPT perché consuma risorse”, non vuol dire essere scortesi, ma usare l’IA in modo consapevole. Pensi debba essere educato con le IA?
Oliver Shoulson: È una domanda sociolinguistica reale, studiata attivamente. Come interagiamo con le assistenti virtuali può influenzare il nostro modo di parlare con gli altri nella vita reale. Ci sono studi in corso su questo, sicuramente.
Galen Low: È così: quello che ho visto sono per lo più editoriali inconcludenti, ma sicuramente qualcuno sta raccogliendo dati. Passando oltre: tu sei linguista e lavori sull’avanguardia delle esperienze conversazionali IA. Quali sono gli errori più comuni che le persone commettono nel progettare agenti/organi IA e che causano quell’effetto “cringe”, quell’innaturalezza percepita dagli utenti?
Oliver Shoulson: Inizio dalla parte “noiosa” ma fondamentale: la conversazione parlata è disordinata, piena di interruzioni, autocorrezioni. Di solito la distanza tra una battuta e l’altra è di 200–300 ms, quindi c’è una sfida tecnologica dietro alla “fluidità”. Le IA vocali oggi spesso hanno almeno 3 secondi di latenza tra i turni, molto più della naturalezza di una conversazione umana.
Se non posso interrompere o essere interrotto dall’agente nei punti giusti, la conversazione fallisce. Inoltre, un problema grosso è che senza transcript scritto — come in una chat testuale — il LLM rischia di non sapere cosa si è detto. Nella conversazione parlata, per scambiare info difficili (indirizzi, numeri) seguiamo routine: “Hai da scrivere? Ok, aspetto. Ecco l’indirizzo, te lo compilo lettera per lettera...”. Questo su chat si aggira, a voce è essenziale.
Tutto ciò serve per rendere navigabile e usabile il sistema. Poi c’è la parte più divertente, i dettagli linguistici della cooperazione dialogica che causano davvero uncanny valley.
Galen Low: Non avevo mai riflettuto sul ritmo del turn-taking: nelle chat io stesso scrivo, invio e vado a farmi altro, mentre nella voce la conversazione è una “danza”, fatta di scambi e attesa esigente — e queste dinamiche sono più reali ma anche difficili per un LLM.
Oliver Shoulson: In dialogo orale usiamo tecniche come il back-channeling (segni di ascolto: “sì”, “uhum”, “capito”). Se chiedo un numero di telefono e mi fermo tra le cifre, mi aspetto una conferma — se manca, il sistema fallisce, perché sembra non ascoltare. Bisogna addestrare i modelli anche su queste sottigliezze.
E quando scriviamo una lunga richiesta a un assistente testuale, va bene prendersi il tempo, ma al telefono questo è impensabile: bisogna adattare la raccolta dati alla modalità reale, con scambi ricorsivi brevi, feedback, pause, domande.
Galen Low: Quindi, anche se pare banale, la “tempistica” è una delle maggiori sfide nel progettare conversazioni real time.
Oliver Shoulson: Sì, quindi bisogna usare frasi di attesa (“cerco nei miei dati, attenda un attimo”) come fanno gli umani veri quando fanno ricerche dal vivo. Questo aiuta a colmare i gap del sistema.
Galen Low: Avete mai costruito un agente che “canticchia” mentre cerca?
Oliver Shoulson: In passato con attori umani includemmo proprio i loro riempitivi vocali, le indecisioni lunghe... serve per comunicare all’interlocutore che qualcosa sta accadendo dall’altra parte, anche senza vedere nulla. Questi dettagli portano alla seconda area, ovvero le regole pragmatiche implicite nella conversazione cooperativa: ci aspettiamo veridicità, quantità sufficiente di dati, nessun eccesso di informazione.
Per esempio: i LLM spiegano ogni step, come “per trovare il suo conto ho bisogno del codice... può dirmelo per favore?”; oppure chiedono sempre di confermare la ricezione di ogni istruzione. Nell’interazione umana questo è ridondante, come se dessimo del “poco sveglio” all’utente. L’eccesso di parole rompe la fiducia e la socialità, dando la sensazione che l’agente non abbia il contesto o la memoria condivisa necessaria.
Galen Low: Questo è interessante: spesso si pensa che “spiegare tutto” costruisca fiducia, invece la tradisce perché nega il presupposto di una comprensione comune. La mia IA saluta sempre “piacere di conoscerti” anche dopo 10 sessioni insieme, e mi fa uscire dal contesto ogni volta!
Oliver Shoulson: Esatto.
Galen Low: Quindi, a volte, “meno è meglio”. Bisogna parlare come se si parlasse davvero, e la fiducia crescerà naturalmente.
Se occorre, la spiegazione può arrivare su richiesta, non diventi la base standard di interazione.
Oliver Shoulson: Concordo. Poi, non ho una posizione definitiva sul dover presentare un bot come tale, ma molto dipende da quanto la trasparenza sia importante per il contesto. L’importante è non introdurlo come “assistente virtuale con IA” per poi inondare l’utente con messaggi standard. Inserire nome e ruolo in modo naturale, lasciare la battuta iniziale più aperta possibile e… concisa!
Galen Low: Ottimo punto, e mi piace che hai detto che lo scopo non è fingere che sia umano, ma solo rendere l’esperienza naturale e senza inganni. Non si vince a “truffare” l’utente!
Oliver Shoulson: Esatto, obiettivo è riservare il “problem solving” degli utenti per il loro vero bisogno, non per navigare l’esperienza: spesso nei menu telefonici perdiamo risorse mentali solo per capire la categoria corretta del nostro problema. Dobbiamo invece dare modo all’utente di affidarsi all’intuizione linguistica, semplificando l’esperienza per lasciare tutte le energie sulla risoluzione del vero problema.
Galen Low: Questo è il cuore della UX, eliminare quelli attriti inutili. Ma perché la conversazione e il linguaggio sono così difficili da progettare bene rispetto ai canali visuali?
Oliver Shoulson: Il linguaggio umano resta una delle sfide fondamentali della scienza: un bambino di tre anni acquisisce una lingua nativa con pochissimo input rispetto ai LLM che macinano miliardi di stringhe. Si pensa quindi che abbiamo architetture cognitive innate per il linguaggio. Oggi il progresso è stato di forza bruta: grandissimi modelli, dati infiniti, computazione estrema. Ma ciò non equivale ancora al ragionamento simbolico umano; per le sfide future avremo bisogno di approcci più vicini a quello, perché così eviteremo tanti errori e fraintendimenti dei LLM attuali.
Galen Low: Oggi l’IA è affascinante, ma siamo solo all’inizio: abbiamo simulato bene il dialogo, non ancora il vero pensiero. Non è colpa di nessuno se i risultati non sono perfetti, è la complessità del linguaggio!
Oggi molti devono spostarsi dal design visuale al conversazionale: quale mindset serve cambiare?
Oliver Shoulson: Sono skill complementari e molto diverse. Il visual si concentra sulle gerarchie informative e la rappresentazione spaziale; il linguistico si svolge nella linearità temporale, con moltissima ambiguità. Il consiglio: coinvolgete chi dialoga col pubblico ogni giorno (operatori call center, autori delle guide operative) per identificare pattern, problemi ricorrenti e casi limite. Nulla è più prezioso per me che ascoltare operatori reali e capire le domande e parole usate dai clienti veri, non solo ciò che l’azienda “pensa”.
Galen Low: Bello il confronto tra la mappa visuale già “disegnata” di un sito rispetto all’ordine temporale e ambiguo del linguaggio. La soluzione può essere attingere direttamente dall’esperienza dei colleghi che gestiscono già centinaia di chiamate al giorno.
Oliver Shoulson: Esatto. Le soft skills che fanno grandi i designer visuali sono utili anche qui perché servono introspezione, empatia, sensibilità su come una esperienza ti fa sentire. È simile a ciò che fa il linguista analizzando la propria grammaticalità: si parte dalla sensazione e si cerca di formalizzare la regola. Anche senza laurea in linguistica, le stesse sensibilità sono applicabili alla conversazione IA.
Galen Low: Vorrei chiudere parlando un po’ del futuro: con l’arrivo di hardware IA personali (Rabbit, il progetto OpenAI-Jony Ive…) avremo sempre più agenti personali che parleranno con gli agenti delle aziende.
Quando accadrà, le IA continueranno a mantenere i rituali di cortesia e presenza sociale o si svilupperà un “meta linguaggio” tutto loro, per lo più incomprensibile agli umani?
Oliver Shoulson: Impossibile dirlo oggi. Se collegassimo Claude Opus 4.6, ad esempio, userebbe il registro per cui è stato addestrato: interazione con umani. Ma presto, con agenti che orchestrano altri agenti (OpenClaw ecc.), sarà necessario progettare linguaggi “machine-to-machine” più efficienti, magari incomprensibili a noi, del tipo “beep boop” con terabyte di dati scambiati in un secondo. Vedremo sicuramente modelli addestrati per la comunicazione inter-bot, ma ancora non si sa come saranno.
Galen Low: Concordo: il linguaggio tra umani è meravigliosamente inefficiente, imperfetto e per questo si evolve. Ma le macchine lo vorranno davvero? Per ora è tutto nelle nostre mani, ma un giorno forse assisteremo a linguaggi a noi sconosciuti. Grazie per esserti prestato anche a questi voli “sci-fi”! È stato un piacere nerdare con te. C’è una domanda che vuoi farmi tu?
Oliver Shoulson: Tu parlavi di hardware IA: credi davvero che decollerà? Secondo me la gente userà sempre più IA in mobilità, ma perché dovrei volere un device diverso dal mio telefono?
Galen Low: Sono d’accordo: c’è chi insegue sempre la nuova “shiny object”, ed è una questione industriale, certo, ma a livello pratico? Credo resteremo con pochi device principali (magari qualche “gadget” in più ma nulla che sostituisca davvero lo smartphone), tranne forse se si parla di robotica. Non credo avremo presto un “cercapersone 2.0” nella tasca. E quando arriveremo alla robotica vera… meglio non pensarci troppo ora!
Oliver Shoulson: Interessante bias cognitivo: sembra quasi “cervello da caverna” desiderare un oggetto dedicato a un solo scopo, invece di aggiungere solo software a ciò che già possediamo...
Galen Low: Ricordi i pantaloni cargo? Servivano per portare con sé tutto... ora, al contrario, abbiamo sempre meno da portare addosso!
Oliver Shoulson: Già.
Galen Low: Oliver, grazie mille per il tuo tempo: è stato un grande piacere.
Per chi ci ascolta: dove trovarti?
Oliver Shoulson: Mi trovate su LinkedIn @oliverhs. Il mio sito è olivershoulson.com. Ogni tanto pubblico qualcosa, dovrei aggiornarlo più spesso! Guardate anche poly.ai per i nostri case study più recenti — potete ascoltare Selma, la voce del nostro cliente Fogo de Chão, nel case study più recente.
Galen Low: Ottimo, metterò tutti questi link nelle note dell’episodio così saranno semplici da trovare. Oliver, grazie ancora.
Oliver Shoulson: Grazie a te.
Galen Low: Bene: è tutto anche per questa puntata di The Digital Project Manager Podcast. Se avete apprezzato questa conversazione iscrivetevi sulla vostra app preferita e per accedere ad altri approfondimenti, case study, playbook create un account gratuito su thedigitalprojectmanager.com.
Alla prossima e grazie dell’ascolto.
