Chi ha usato ChatGPT, Claude, Gemini o Perplexity o un altro modello linguistico ha già, anche se inconsapevolmente, “incontrato” i token AI. Ogni risposta che riceviamo, ogni prompt che scriviamo, ogni documento che carichiamo… Tutto viene scomposto in token prima che il modello possa elaborarlo. Eppure, questi gettoni restano la variabile più fraintesa dell’intelligenza artificiale generativa, spesso ridotta a una voce di costo sulle dashboard di fatturazione.Ogni giorno miliardi di richieste viaggiano verso i server dei grandi modelli linguistici. Dietro ogni risposta c’è aritmetica. C’è un contatore che sale, un costo che cresce, una finestra di memoria che si riempie e si svuota. L’unità di misura di tutto questo sono proprio i token AI, e chi non li conosce sta già prendendo decisioni al buio, firmando budget senza capire cosa sta comprando, costruendo progetti e sviluppando soluzioni e prodotti senza sapere quanto costeranno domani.Indice degli argomenti
Token AI: cosa sono e come funzionanoToken e tokenizzazione: la differenza che contaToken AI e unità linguistiche tradizionaliCome funziona la tokenizzazione AINormalizzazione del testoSuddivisione in unità e assegnazione degli IDCome il modello elabora i tokenCome si contano i token AIQuanti «gettoni AI» ha una pagina di testo in italiano?Regole pratiche per stimare i tokenToken AI in italiano: il rapporto è meno favorevoleStrumenti per contare i token1. Byte Pair Encoding (BPE)2. WordPiece3. SentencePiece4. UnigramTipi di token AI: input, output e non soloToken di input e token di outputToken in cache e token di ragionamentoToken AI oltre il testo: la computer visionToken visivi e Vision TransformerToken e rilevamento a vocabolario apertoQuanto costano i token AIIl prezzo di token in input e token in output è uguale?Un esempio concreto: analisi dei contrattiCome ridurre il consumo (e il costo) dei token AIRouting tra modelliPrompt Caching e Batch ProcessingGestire la Context WindowI rischi del dipendere da un solo fornitoreToken AI: cosa sono e come funzionanoI token AI rappresentano la più piccola unità linguistica che serve ai modelli di intelligenza artificiale per elaborare e interpretare il testo. Non si tratta di un concetto astratto: è la materia prima con cui lavora ogni modello linguistico di grandi dimensioni, dal più semplice al più avanzato.Prima che un algoritmo possa interpretare una frase, analizzare uno script software o riconoscere oggetti in un’immagine, i dati di input grezzi devono essere suddivisi in questi elementi discreti e standardizzati. Questa pre-elaborazione trasforma testo non strutturato in sequenze numeriche che le reti neurali riescono a processare in modo efficiente.I token AI possono essere rappresentati da singole parole o parti di parole, segni di interpunzione ed emoji. Non esiste una corrispondenza rigida: dipende dal modello, dalla lingua e dal contesto.Token e tokenizzazione: la differenza che contaPrima di andare avanti, vale la pena distinguere due termini che vengono spesso confusi.La tokenizzazione è il processo algoritmico di suddivisione dei dati grezzi in “pezzi”, mentre il token è l’output risultante. Il pezzo effettivo di dati – come una parola, una sottoparola o una porzione di immagine – che viene mappato in un vettore numerico noto come embedding.In breve: la tokenizzazione è il verbo, il token è il sostantivo. Confonderli porta a errori nella progettazione delle pipeline di dati e nella valutazione dei costi.Token AI e unità linguistiche tradizionaliUn token non corrisponde a nessuna unità linguistica tradizionale. Non è una parola, non è una sillaba, non è un carattere. È, invece, un frammento di testo di lunghezza variabile che i modelli linguistici hanno imparato a usare per ragioni statistiche e computazionali.Questo è il punto che sorprende di più chi si avvicina all’argomento per la prima volta. Il confine tra un token e il successivo non segue le regole grammaticali che conosciamo ma la statistica dei dati su cui il modello è stato addestrato.Come funziona la tokenizzazione AILa tokenizzazione non è un passaggio unico e istantaneo ma è una pipeline articolata in più fasi, ciascuna con un ruolo preciso.Il processo con cui un modello di AI converte il testo in token è chiamato tokenizzazione AI. È necessario perché i modelli linguistici di grandi dimensioni (LLM) hanno bisogno di linguaggio naturale in una forma analizzabile dalle macchine.Normalizzazione del testoIn una prima fase, il modello di AI converte il testo in una forma standardizzata, riducendo la complessità e la varianza. Con la normalizzazione, tutto il testo viene trasformato in lettere minuscole. Inoltre, il modello rimuove i caratteri speciali e talvolta riduce le parole alle forme base.Questo passaggio è fondamentale per ridurre la varianza e permettere al modello di generalizzare meglio: “Casa”, “casa” e “CASA” diventano, dunque, la stessa unità di elaborazione.Suddivisione in unità e assegnazione degli IDNel passo successivo, l’AI scompone il testo in token, ossia in unità linguistiche più piccole. L’entità della scomposizione dipende dalla complessità e dall’addestramento del modello.Una volta identificati i token, il modello di AI assegna a ciascun token un valore numerico, denominato ID del token. Gli ID sono in un certo senso il vocabolario dell’intelligenza artificiale, che contiene tutti i token noti al modello.I primi approcci mappavano rigorosamente le parole intere, ma le architetture moderne utilizzano algoritmi di sottoparole come Byte Pair Encoding (BPE). Questo metodo consente ai modelli di gestire parole rare suddividendole in sillabe significative, bilanciando la dimensione del vocabolario con la copertura semantica. Per esempio, “unhappiness” diventa “un” + “happi” + “ness”.Come il modello elabora i tokenIl modello linguistico analizza la relazione tra i token per rilevare modelli e fornire previsioni o risposte, che vengono generate in base a regole di probabilità. Il modello di AI osserva le informazioni sul contesto e determina i token AI successivi sempre in base a quelli precedenti.Vale la pena sottolineare un effetto interessante di questo meccanismo: ciò che a noi può sembrare costituito da due parole identiche può essere generato come token diversi a seconda di come sono strutturate nel testo. La parola “rosso” minuscola al centro di una frase, maiuscola al centro o maiuscola all’inizio riceve tre ID numerici diversi, perché il contesto statistico cambia.Come si contano i token AISaper stimare il numero di token di un testo è una competenza pratica fondamentale, soprattutto per chi usa i modelli tramite API. Influisce direttamente sui costi, sui limiti di contesto e sull’efficienza complessiva del sistema.Quanti «gettoni AI» ha una pagina di testo in italiano?Una pagina standard di circa 300 parole in italiano produce tra 400 e 500 token AI, a seconda del contenuto. L’italiano consuma più token dell’inglese per via delle desinenze più ricche e delle forme verbali più numerose.Regole pratiche per stimare i tokenI token sono i mattoni che compongono il testo elaborato dai modelli. Possono essere lunghi quanto un singolo carattere o quanto un’intera parola, a seconda della lingua e del contesto. Spazi, punteggiatura e parti di parole contribuiscono tutti al conteggio dei token.Per l’inglese, le stime di riferimento più usate sono quelle di OpenAI:1 token ≈ 4 caratteri1 token ≈ ¾ di una parola1–2 frasi ≈ 30 token1 paragrafo ≈ 100 token~1.500 parole ≈ 2.048 tokenToken AI in italiano: il rapporto è meno favorevolePer l’italiano, non sono pubblicati coefficienti ufficiali. Tuttavia, test empirici effettuati con il tokenizer ufficiale mostrano che i testi in italiano tendono a richiedere più token rispetto all’inglese. Una stima pratica colloca il rapporto intorno a 1 parola = 1,4–1,6 token, contro circa 1,3 token per parola per l’inglese. Volendo riassumere, quindi:1 token ≈ 2,7–3,3 caratteri1 token ≈ 0,6–0,7 parole100 token ≈ 60–70 parole1–2 frasi ≈ 35–45 token1 paragrafo ≈ 120–150 token1.500 parole ≈ 2.200–2.600 tokenLa parola “casa” è un token solo, mentre il lemma “ottimizzazione” probabilmente ne richiede tre o quattro, perché il modello la spezza in segmenti statisticamente più frequenti.La conseguenza pratica è immediata: un documento di dieci pagine in italiano può generare un numero di token AI consumati sensibilmente più alto dello stesso documento tradotto in inglese. Chi costruisce prodotti per il mercato italiano deve integrare questa variabile fin dalla fase di progettazione del sistema.Strumenti per contare i tokenI tokenizer scompongono i testi nelle unità di elaborazione più piccole, lavorando con algoritmi specifici che si basano sui dati di addestramento e sull’architettura del modello di AI. Oltre a indicare il numero di token, questi strumenti possono fornire informazioni dettagliate su ogni singolo token, ad esempio il relativo ID numerico.Per i modelli OpenAI è disponibile il Tokenizer interattivo su platform.openai.com e la libreria open source Tiktoken. Per i modelli Anthropic, ogni risposta API include un campo usage con il conteggio preciso di token di input e output; è inoltre disponibile l’endpoint /v1/messages/count_tokens, che permette di stimare il costo di una richiesta prima di inviarla.I principali algoritmi di tokenizzazione utilizzati oggi si dividono in tre macro-categorie:1. Byte Pair Encoding (BPE)È l’algoritmo più diffuso nei moderni Large Language Model. Funziona analizzando statisticamente il testo per unire le sequenze di caratteri o byte più frequenti, creando un vocabolario di “sotto-parole” (subword).Utilizzato da: Modelli GPT di OpenAI (es. Tiktoken), LLaMA di Meta e Mistral.Vantaggi: Ottima gestione delle parole rare e del multilinguismo. Evita il problema delle parole sconosciute (Out-of-Vocabulary) spezzandole in frammenti noti.2. WordPieceMolto simile al BPE, opera con una logica leggermente diversa. Invece di basarsi solo sulla frequenza grezza, calcola quale unione massimizza la probabilità del linguaggio risultante sul set di dati (punteggio di verosimiglianza).Utilizzato da: Modelli BERT di Google, DistilBERT e DeBERTa.Vantaggi: riduce le parole sconosciute spezzandole in subword, mantenendo un vocabolario compatto e generalizzando bene alle forme rare.3. SentencePieceSi tratta di un algoritmo di tokenizzazione sviluppato da Google che tratta l’input come testo puramente non elaborato. Non richiede la pre-tokenizzazione (separazione tramite spazi), cosa questa che lo rende il contatore ideale per lingue come il giapponese o il cinese, dove gli spazi tra le parole non sono presenti.Utilizzato da: Modelli T5, ALBERT, e in alcune implementazioni precedenti di LLaMA.Vantaggi: Gestisce nativamente gli spazi bianchi e supporta qualsiasi lingua senza regole specifiche.4. UnigramA differenza di BPE e WordPiece (che partono dai caratteri e costruiscono i token unendoli), l’algoritmo Unigram parte da un vocabolario molto ampio e lo riduce iterativamente scartando i token che contribuiscono meno alla probabilità complessiva del risultato dell’addestramento.Utilizzato da: Modelli come XLNet.Vantaggi: seleziona in modo probabilistico i token più utili, adattandosi bene a testi grezzi e a lingue senza spazi.Tipi di token AI: input, output e non soloNon tutti i gettoni AI sono uguali. I sistemi moderni distinguono almeno quattro categorie, ciascuna con implicazioni diverse su costi e architettura.Token di input e token di outputQuando si interroga un modello, accadono due cose distinte: il testo in ingresso – il prompt, il documento, la storia della conversazione – viene convertito in token di input e la risposta generata dal modello produce token di output.Entrambi si pagano, ma a tariffe diverse. L’output costa decisamente più, in genere da tre a cinque volte tanto rispetto all’input. La ragione tecnica è che generare testo richiede elaborazione sequenziale, mentre leggere un documento è molto più rapido per il sistema.Questa asimmetria ha conseguenze importanti nella progettazione: un sistema che genera risposte molto lunghe paga un prezzo significativamente più alto rispetto a uno che produce output concisi a parità di qualità informativa.Token in cache e token di ragionamentoI token in cache sono token riutilizzati nella cronologia della conversazione, spesso fatturati a una tariffa ridotta. I token di ragionamento, presenti in alcuni modelli avanzati, sono passaggi interni di elaborazione inclusi prima di produrre l’output finale.I token di ragionamento non sono visibili nella risposta, ma vengono comunque elaborati e in alcuni casi fatturati. Sono il meccanismo che permette ai modelli più avanzati di “pensare prima di rispondere”, aumentando la qualità del ragionamento su compiti complessi a scapito di un maggiore consumo di risorse.Token AI oltre il testo: la computer visionIl concetto di token non è confinato all’elaborazione del linguaggio naturale. Negli ultimi anni si è esteso anche alla visione artificiale, con implicazioni rilevanti per chi lavora con immagini e modelli multimodali.Token visivi e Vision TransformerI Vision Transformer (ViT) sono modelli di Deep Learning che trasformano le immagini in sequenze di patch visive usando il meccanismo di attenzione per cogliere le relazioni tra le diverse parti. A differenza delle reti tradizionali che elaborano i pixel in finestre scorrevoli, i ViT dividono un’immagine in una griglia di patch di dimensioni fisse (ad esempio, 16×16 pixel). Ogni patch viene, poi, appiattita e trattata come un token visivo distinto.Questo approccio permette al modello di applicare alla visione gli stessi meccanismi di attenzione sviluppati per il testo: invece di analizzare pixel adiacenti, il modello può correlare zone distanti dell’immagine, migliorando la comprensione del contesto complessivo.Token e rilevamento a vocabolario apertoModelli avanzati come YOLO-World (uno strumento di Object Detection attraverso prompt testuali) utilizzano un approccio multimodale in cui i token di testo interagiscono con le caratteristiche visive. È possibile inserire prompt di testo personalizzati – ad esempio “cappello blu” – che il modello tokenizza e confronta con gli oggetti nell’immagine. Questo abilita quello che viene comunemente definito Zero Shot Learning, consentendo il rilevamento di oggetti su cui il modello non è stato esplicitamente addestrato.Il punto rilevante è che la stessa logica di tokenizzazione che governa le risposte testuali di un chatbot si applica, con opportuni adattamenti, anche ai sistemi di visione artificiale più avanzati.Quanto costano i token AINon si tratta solo di capire come funziona un modello AI, ma di sapere quanto costa per ogni singola parola, frase o immagine elaborata.Per chi costruisce un prodotto basato su intelligenza artificiale – o per chi deve valutarne l’adozione – questo dato è indispensabile e incide direttamente sui prezzi, sulla scalabilità, sulla sostenibilità del business e sulla scelta del modello o del fornitore più adatto.Ignorare il costo dei token significa rischiare di sottovalutare i costi operativi, di sovradimensionare l’infrastruttura o di adottare soluzioni tecnicamente valide ma economicamente insostenibili.Il prezzo di token in input e token in output è uguale?Con Claude Sonnet 4.6 di Anthropic i prezzi correnti sono tre dollari per milione di token in input e quindici in output. Claude Haiku 4.5, il modello più leggero della stessa famiglia, scende a un dollaro per milione in input e cinque in output. Sul fronte OpenAI, GPT-5 si posiziona intorno a 1,25 dollari per milione in input e dieci in output.Questi valori cambiano periodicamente, quindi è sempre opportuno verificare le pagine prezzi ufficiali dei singoli provider prima di fissare un budget. Il trend generale degli ultimi anni è di ribasso, ma non è garantito che continui così anche in futuro.Un esempio concreto: analisi dei contrattiLa scelta del modello non è una decisione tecnica ma industriale e strategicaUn caso pratico chiarisce la scala reale dei costi meglio di qualsiasi tabella astratta.Un’azienda che voglia costruire un assistente per l’analisi dei contratti deve far leggere al modello ogni documento – per ipotesi 30.000 token di input – e produrre un riassunto strutturato – sempre per ipotesi 3.000 token di output.Questo specchietto confronta tre LLM diversi.Come ridurre il consumo (e il costo) dei token AIEsistono strategie concrete e collaudate per contenere i costi senza sacrificare la qualità delle risposte.Quelle più note, e le più efficaci sono: usare il modello più leggero sufficiente per il compito, attivare il Prompt Caching per le istruzioni fisse, usare il Batch Processing per richieste non urgenti, mantenere la Context Window pulita eliminando messaggi irrilevanti e istruire il modello a rispondere in modo conciso.Routing tra modelliNon tutti i compiti richiedono obbligatoriamente di dotarsi del modello più sofisticato. Smistare e-mail, classificare richieste, estrarre dati da un modulo sono operazioni che un modello leggero gestisce benissimo a un quinto del costo di un modello premium.Sarebbe, quindi, auspicabile costruire un livello logico che assegna ogni richiesta al modello più economico in grado di risolverla.Il routing intelligente è probabilmente la leva più efficace e meno sfruttata: richiede un’analisi iniziale delle tipologie di richiesta, ma il risparmio che genera si accumula ogni giorno. Ecco in cosa consiste.Prompt Caching e Batch ProcessingSe ogni chiamata al modello include le stesse istruzioni iniziali, gli stessi esempi, la stessa documentazione aziendale, pagarli ogni volta è uno spreco. Anthropic e OpenAI consentono di mettere in cache quella porzione fissa con sconti fino al 90% (Prompt Caching).Per i compiti non urgenti, c’è un’altra opzione: il Batch Processing. Se il compito non richiede risposta immediata, accodare le richieste e riceverle entro ventiquattro ore garantisce uno sconto del 50% rispetto alle chiamate in tempo reale.La stessa identica architettura, gestita bene o male, può avere un costo da tre a quattro volte diverso. Non si tratta di ottimizzazioni marginali: sono differenze che cambiano la sostenibilità di un intero modello di business.Gestire la Context WindowLa Context Window è la memoria di lavoro del modello: l’insieme di token – input più output – che il modello può tenere in considerazione in una singola elaborazione.I modelli attuali gestiscono finestre di contesto molto ampie: Claude Opus 4.6, per esempio, arriva a un milione di token, l’equivalente di un romanzo. Questa capacità è utile per leggere documenti lunghi senza spezzarli, ma non è gratuita.Ogni token presente nella finestra di contesto viene elaborato e fatturato, compresi i messaggi precedenti della conversazione. La strategia giusta è riassumere la storia della conversazione, eliminare le parti irrilevanti e non includere documenti già elaborati nelle chiamate successive.Un modello istruito a rispondere in modo conciso invece di essere prolisso genera meno token di output, che costano di più, migliorando così il margine a parità di qualità percepita. Accorciare o riformulare i prompt, suddividere i testi lunghi in blocchi più piccoli, oppure riassumere e pre-elaborare gli input prima di inviarli è una delle ottimizzazioni più semplici da implementare e tra le più efficaci.I rischi del dipendere da un solo fornitoreUn aspetto strategico spesso sottovalutato riguarda la concentrazione del rischio verso un unico provider di intelligenza artificiale – noto anche come AI lock-in.I prezzi dei token AI sono scesi significativamente negli ultimi anni, ma non si può costruire un piano industriale assumendo che il calo sia lineare e infinito. I fornitori cambiano i listini, ritirano i modelli economici, introducono varianti più costose.Chi costruisce un prodotto con dipendenza esclusiva da un solo provider si espone a un rischio di filiera simile a quello di un produttore manifatturiero che acquista l’intera fornitura di materia prima da un solo paese.Le aziende più solide costruiscono uno strato di astrazione che permette di sostituire il fornitore in pochi giorni e tengono d’occhio i modelli a codice aperto che, superata una certa soglia di volumi, conviene ospitare internamente.









