Mamba vs Transformer: L’evoluzione dell’IA nel linguaggio

Mamba vs Transformer: L’evoluzione dell’IA nel linguaggio

2 Febbraio 2024 ai 0

La continua evoluzione nel campo dell’intelligenza artificiale ci stupisce ogni giorno con nuove scoperte e tecnologie all’avanguardia, come il caso Mamba vs Transformer. Una delle novità più discusse di recente è l’introduzione dell’architettura Mamba, che promette di rivoluzionare il modo in cui i modelli di linguaggio generativo comprendono e mantengono il contesto nelle conversazioni. Ma prima di esplorare il potenziale di Mamba, ripercorriamo i passi che hanno portato a questa innovazione.

L’architettura Transformer, introdotta nel paper “Attention Is All You Need” da ricercatori di Google nel 2016, è stata un vero e proprio punto di svolta per i modelli di linguaggio, come GPT (Generative Pre-trained Transformer). Grazie ai Transformer, i modelli di linguaggio possono rispondere in modo coerente, tenendo conto delle interazioni passate, e gestendo un contesto ben definito. Questo ha rappresentato la base per la creazione di modelli come chat GPT, che hanno dimostrato capacità conversazionali sorprendentemente avanzate.

Mamba offre tre miglioramenti chiave che hanno attirato l’attenzione dei ricercatori:

Tuttavia, nonostante il successo, la ricerca non si ferma. Il recente paper intitolato “Mamba” descrive un’architettura che potrebbe sorpassare quella dei Transformer, sollevando grande interesse e dibattito nella comunità AI. Sebbene il Transformer sia stato un pilastro dell’AI generativa moderna, la sua architettura non è esente da limitazioni, ed è proprio qui che Mamba entra in gioco.

Mamba vs Transformer, il confronto

  1. Efficienza economica: Mamba promette di rendere l’inferenza – il processo attraverso il quale il modello genera testo o immagini – molto più economica. Con Mamba, l’inferenza potrebbe essere fino a cinque volte più economica rispetto a quella dei Transformer. Considerando che un modello come GPT-4 possiede 175 miliardi di parametri, ogni parola generata equivale a un’enorme quantità di operazioni matematiche. Ridurre il costo energetico di queste operazioni può avere un impatto significativo, soprattutto quando moltiplicato per il numero di parole, chat e utenti coinvolti.
  2. Costo dell’attenzione lineare: Mentre nei Transformer il costo dell’attenzione cresce quadraticamente, rendendo oneroso mantenere in memoria i punti chiave di una conversazione, Mamba riduce questo costo a una crescita lineare. Questo significa che la capacità di attenzione del modello può espandersi senza subire un aumento esponenziale del costo computazionale.
  3. Windows di attenzione estese: Con una gestione dell’attenzione meno costosa, Mamba può teoricamente gestire finestre di input di dimensioni molto maggiori, forse fino a un milione di token. Ciò potrebbe permettere ai modelli basati su Mamba di “digerire” e comprendere contesti estremamente ampi, come un libro di 1.500 pagine, senza perdere coerenza o dimenticare dettagli rilevanti.

L’efficacia di Mamba

Nonostante queste promesse, l’efficacia di Mamba su larga scala rimane da verificare. La nuova architettura è stata testata su modelli significativamente più piccoli di GPT-4. Non è garantito che le sue “proprietà magiche” si mantengano incrementando il numero di parametri. Nel campo dell’intelligenza artificiale, non sempre i risultati empirici si traducono direttamente in successo su grandi modelli.

L’entusiasmo intorno a Mamba è palpabile e i ricercatori stanno già esplorando le potenzialità di questa architettura su modelli più grandi. Il mondo dell’intelligenza artificiale progredisce a ritmi vertiginosi, soprattutto in ambito open source, e siamo ansiosi di scoprire come Mamba influenzerà lo sviluppo futuro dei modelli generativi di linguaggio.

Mamba vs Transformer: il futuro è imminente

Ciò che è certo è che il mondo dell’intelligenza artificiale è in rapido movimento. È probabile che, mentre stai leggendo questo articolo, qualcuno stia già lavorando a modelli più grandi basati su Mamba. L’avanzamento dell’open source accelera questo processo, e potremmo presto vedere se Mamba riuscirà a surclassare il Transformer.

Resta connesso

Per rimanere aggiornato su queste entusiasmanti sviluppi nel campo dell’IA, iscriviti al nostro blog. Se vuoi esplorare più a fondo l’architettura Mamba, troverai il link al paper originale nella descrizione. Condividi la tua opinione nei commenti e discutiamo insieme il futuro dei modelli di linguaggio nell’intelligenza artificiale. Nel frattempo, prepariamoci a vedere come l’architettura Mamba potrebbe ridefinire il nostro modo di interagire con le macchine.

Fantasiona rappresentazione di Mamba vs Transformers

Paper:

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

https://arxiv.org/abs/2312.00752

I modelli di base, che ora alimentano la maggior parte delle interessanti applicazioni nel deep learning, sono quasi universalmente basati sull’architettura Transformer e sul suo modulo di attenzione principale. Molte architetture di tempo subquadratico come l’attenzione lineare, la convoluzione con gate e i modelli ricorrenti e i modelli di spazio degli stati strutturati (SSM) sono state sviluppate per affrontare l’inefficienza computazionale di Transformers su lunghe sequenze, ma non hanno funzionato così bene come attenzione su modalità importanti come come lingua. Identifichiamo che uno dei principali punti deboli di tali modelli è la loro incapacità di eseguire ragionamenti basati sui contenuti e apportare numerosi miglioramenti. In primo luogo, lasciare semplicemente che i parametri SSM siano funzioni dell’input risolve la loro debolezza con modalità discrete, consentendo al modello di propagare o dimenticare selettivamente le informazioni lungo la dimensione della lunghezza della sequenza a seconda del token corrente. 

In secondo luogo, anche se questo cambiamento impedisce l’uso di convoluzioni efficienti, progettiamo un algoritmo parallelo compatibile con l’hardware in modalità ricorrente. Integriamo questi SSM selettivi in ​​un’architettura di rete neurale end-to-end semplificata senza attenzione e nemmeno blocchi MLP (Mamba). Mamba gode di inferenza veloce (5×throughput più elevato rispetto a Transformers) e scalabilità lineare nella lunghezza della sequenza, e le sue prestazioni migliorano sui dati reali fino a sequenze di milioni di lunghezza. In quanto spina dorsale del modello di sequenza generale, Mamba raggiunge prestazioni all’avanguardia in diverse modalità come linguaggio, audio e genomica. Per quanto riguarda la modellazione linguistica, il nostro modello Mamba-3B supera i Transformer della stessa dimensione e corrisponde a Transformers il doppio delle sue dimensioni, sia nel pre-addestramento che nella valutazione a valle.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *