iGenius, l'azienda deep-tech fondata da Uljan Sharka, ha presentato "Italia", un modello di linguaggio di grandi dimensioni (LLM) addestrato con fonti native in italiano e rilasciato Open Source con licenza MIT. Questo progetto rappresenta un passo significativo nel panorama dell'Intelligenza Artificiale generativa, con l'obiettivo di promuovere un rinascimento digitale in Italia.
Un'opportunità per il nostro Paese
L'Intelligenza Artificiale generativa non è solo una rivoluzione tecnologica, ma anche sociale. Grazie al suo DNA umanistico, l'Italia ha l'opportunità di guidare questa trasformazione, mettendo le persone al centro delle soluzioni di AI. "Italia" è stato sviluppato in conformità con le normative europee sull'Intelligenza Artificiale, pensato per supportare le aziende nell'adozione di tecnologie AI in settori altamente regolamentati come i servizi finanziari, l'industria e la Pubblica Amministrazione.
Un modello in continua evoluzione
L'addestramento di "Italia" non si ferma qui. iGenius sta già lavorando a nuove versioni del modello, che saranno ancora più potenti, accurate e versatili, oltre a una versione multilingua. Questo impegno continuo garantisce che "Italia" rimanga all'avanguardia nel campo dell'Intelligenza Artificiale.
Addestramento e collaborazioni
Il modello "Italia" è stato sviluppato in soli cinque mesi dal team di iGenius, che dal 2016 lavora sui modelli di linguaggio. L'addestramento è avvenuto sul supercomputer Leonardo, una delle infrastrutture di calcolo più potenti al mondo, gestita dal Consorzio Interuniversitario Cineca. Inoltre, iGenius ha collaborato con Editoriale Nazionale, parte del gruppo Monrif, utilizzando l’archivio storico di articoli delle testate (QN – Quotidiano Nazionale, il Resto del Carlino, la Nazione e il Giorno) per migliorare ulteriormente il modello. Questa collaborazione continuerà anche per le future versioni di "Italia".
“Italia” è stato addestrato da zero in italiano su oltre mille miliardi di parole, utilizzando un mix eterogeneo di fonti. Per garantire l’integrità etica dei contenuti generati dal modello, sono stati sviluppati dei filtri di sicurezza specifici per la lingua italiana, pensati per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, nonché per limitare al massimo l’esposizione di contenuti coperti da copyright.
Caratteristiche tecniche
La prima versione di "Italia" è un Foundational LLM con un'architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token. Grazie a un Tokenizer proprietario sviluppato specificamente per l'italiano, "Italia" è in grado di elaborare e generare token con un'efficienza equivalente a un aumento del 60% della sua finestra di contesto. Questo si traduce in una notevole efficienza in termini di costi e risorse, rendendo il modello ideale per il mondo aziendale.
Disponibilità e futuro
"Italia" è scaricabile dal sito web di iGenius e presto sarà disponibile anche su piattaforme come Hugging Face e altre principali piattaforme di sviluppo di prodotti AI. Uljan Sharka, Fondatore e CEO di iGenius, ha dichiarato: "La decisione di sviluppare Italia come modello open source riflette pienamente la nostra missione di umanizzare i dati e democratizzare la conoscenza aziendale. Crediamo che Italia rappresenti il primo passo verso un nuovo Rinascimento Digitale, in cui le soluzioni di AI siano progettate mettendo al centro le persone, non la tecnologia."
Il ruolo di Cineca
Alessandra Poggiani, Direttrice Generale di Cineca, ha sottolineato l'importanza di questa collaborazione: "Un’azienda italiana, con un progetto innovativo e di notevole interesse, ha avuto la possibilità di accedere alla potenza di calcolo di Leonardo, uno dei supercomputer più avanzati al mondo. Questo conferma il ruolo di Cineca come abilitatore dell’innovazione digitale e della competitività del Paese."
Con "Italia", iGenius non solo dimostra la potenza della tecnologia AI, ma anche il potenziale di un rinascimento digitale che mette al centro l'umanità e la cultura italiana.