Categories: AI nel businessBlog

ReALM. Un modello linguistico innovativo di Apple? | AI nel business #121

Che cos’è ReALM?

ReALM sta per “Risoluzione di Riferimento come Modellazione del Linguaggio”, una soluzione innovativa sviluppata dai ricercatori di Apple. Si tratta quindi di un nuovo modello linguistico (Large Language Model, LLM) che tratta il problema del riconoscimento dei riferimenti come un compito nel campo della modellazione del linguaggio.

ReALM converte efficacemente vari tipi di contesto in una rappresentazione testuale, che poi elabora come parte di un compito linguistico. Questo può includere:

  • conversazioni – come messaggi di testo, comandi vocali a un assistente o email,
  • elementi sullo schermo – ad esempio, foto, calendario, widget meteo o applicazioni e processi in esecuzione in background.

Cosa rende ReALM diverso dagli altri modelli di riconoscimento dei riferimenti? Prima di tutto, l’approccio – invece di fare affidamento sull’elaborazione delle immagini, ReALM opera nel dominio del testo. Questo lo rende molto più leggero ed efficiente, il che dovrebbe consentirgli di funzionare direttamente sui dispositivi mobili mantenendo la privacy degli utenti.

In che modo ReALM è migliore di GPT-4?

Il team di ricerca di Apple ha confrontato ReALM con i modelli di linguaggio più potenti attualmente sul mercato – GPT-3.5 e GPT-4 di OpenAI. I risultati sono stati impressionanti. Nei compiti di riconoscimento dei riferimenti, la variante più piccola di ReALM ha raggiunto un’accuratezza comparabile a quella di GPT-4! I modelli ReALM più grandi hanno persino superato GPT-4 nel riconoscere riferimenti a elementi visualizzati sullo schermo (http://arxiv.org/abs/2403.20329).

Cosa spiega questo vantaggio? Prima di tutto, ReALM è eccellente con le query specifiche del dominio, come quelle relative agli elettrodomestici intelligenti. Questo perché ReALM dimostra una comprensione più profonda del contesto affinando il modello per dati specifici del dominio.

Inoltre, a differenza di GPT-4, che si allena principalmente su immagini di oggetti reali, ReALM eccelle nel riconoscere elementi testuali e componenti delle interfacce utente delle applicazioni. Ed è la comprensione dell’interfaccia che è fondamentale per l’interazione fluida degli assistenti vocali con le applicazioni che utilizziamo oggi.

Fonte: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

È questo l’inizio dell’era degli assistenti veramente intelligenti?

In effetti, l’integrazione di ReALM con Siri potrebbe aprire un intero nuovo capitolo nell’interazione uomo-computer. Con ReALM, Siri sarà in grado di comprendere comandi che includono riferimenti a elementi visualizzati sullo schermo dello smartphone, così come processi e applicazioni in esecuzione in background. Ma quando sarà disponibile questa opzione per gli utenti? Questo è ancora sconosciuto.

Ci rimane solo la speculazione basata sulle capacità tecniche del modello. Quindi, come potrebbe funzionare una Siri potenziata da ReALM? Ad esempio, se stai navigando su un sito di elenchi aziendali e vedi un’azienda che ti interessa, potresti semplicemente dire a Siri: “Chiama questa azienda”, e l’assistente – utilizzando ReALM per analizzare il contesto – troverà il numero di telefono dell’azienda che specifichi e avvierà la chiamata. Non devi nemmeno spiegare esattamente quale azienda intendi.

Questo è solo l’inizio delle possibilità di ReALM. Comandi come “Riproduci l’ultima playlist” consentirebbero un controllo intuitivo delle applicazioni multimediali e dei dispositivi per la casa intelligente. ReALM potrebbe anche consentire a Siri di comprendere il contesto delle conversazioni e la cronologia dei comandi, in modo che l’assistente risponda in modo adeguato alle richieste precedenti dell’utente. Questo è un passo verso agenti intelligenti che ci avvicina non tanto a un’intelligenza artificiale che comprende le nostre richieste, quanto a una che sa come eseguire i comandi.

E questo è solo l’inizio di ciò che ReALM può fare. Comandi come “riproduci l’ultima playlist” consentirebbero un controllo intuitivo delle applicazioni multimediali e dei dispositivi per la casa intelligente. ReALM potrebbe anche consentire a Siri di comprendere il contesto delle conversazioni e la cronologia dei comandi, in modo che l’assistente risponda in modo appropriato alle richieste precedenti dell’utente. Questo è un passo verso agenti intelligenti, avvicinandoci non a un’intelligenza artificiale che comprende le nostre richieste, ma a una che sa come eseguire i comandi.

Purtroppo, gli utenti di dispositivi Android dovranno aspettare. Attualmente, non ci sono informazioni sui piani di Google per aggiungere le capacità di Gemini a Google Assistant. È stata sviluppata un’app Google Gemini per dispositivi Android (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), ma non è ancora disponibile al di fuori degli Stati Uniti.

Fonte: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Riepilogo

ReALM è l’approccio innovativo di Apple per risolvere il problema del riconoscimento del contesto da parte degli assistenti vocali. Invece di fare affidamento sull’elaborazione delle immagini, questo modello linguistico converte diversi tipi di contesto in una rappresentazione testuale, che poi elabora in un compito linguistico. Questo approccio garantisce non solo un’alta accuratezza di riconoscimento, ma anche la capacità di operare su un dispositivo mobile mantenendo la privacy degli utenti.

Consentire a Siri di accedere a ReALM può fornire interazioni vocali più naturali e contestuali, un passo importante verso assistenti veramente intelligenti. Con ReALM, Siri sarà in grado di rispondere istantaneamente a comandi relativi a elementi dello schermo, applicazioni e processi in background. Una cosa è certa: migliorare la consapevolezza contestuale degli assistenti è la chiave per creare interazioni vocali veramente intelligenti e naturali, e ReALM è senza dubbio un passo importante in quella direzione.

Se ti piace il nostro contenuto, unisciti alla nostra comunità di api laboriose su Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest, TikTok.

Robert Whitney

Esperto di JavaScript e istruttore che forma i dipartimenti IT. Il suo obiettivo principale è aumentare la produttività del team insegnando agli altri come cooperare efficacemente durante la programmazione.

View all posts →

Robert Whitney

Esperto di JavaScript e istruttore che forma i dipartimenti IT. Il suo obiettivo principale è aumentare la produttività del team insegnando agli altri come cooperare efficacemente durante la programmazione.

Share
Published by
Robert Whitney

Recent Posts

Il ruolo dell’IA nella moderazione dei contenuti | IA nel business #129

Le aziende si confrontano con la gestione di una vasta quantità di contenuti pubblicati online,…

10 hours ago

Analisi del sentiment con l’IA. In che modo aiuta a guidare il cambiamento nel business? | IA nel business #128

nell'era della trasformazione digitale, le aziende hanno accesso a un'ammontare senza precedenti di dati sui…

12 hours ago

Migliori strumenti di trascrizione AI. Come trasformare lunghe registrazioni in riassunti concisi? | AI nel business #127

Sapevi che puoi ottenere l'essenza di una registrazione di diverse ore da un incontro o…

14 hours ago

Generazione video con intelligenza artificiale. Nuovi orizzonti nella produzione di contenuti video per le aziende | AI nel business #126

Immagina un mondo in cui la tua azienda può creare video coinvolgenti e personalizzati per…

16 hours ago

LLMOps, o come gestire efficacemente i modelli di linguaggio in un’organizzazione | AI nel business #125

Per sfruttare appieno il potenziale dei Modelli di Linguaggio di Grandi Dimensioni (LLM), le aziende…

18 hours ago

Automazione o aumento? Due approcci all’IA in un’azienda | IA nel business #124

Nel 2018, Unilever aveva già intrapreso un percorso consapevole per bilanciare le capacità di automazione…

20 hours ago