Sistemi Intelligenti per la Progettazione e Modellazione Automatica di Circuiti Genetici

   page       attach   
Paolo Pannarale

La biologia di sintesi o biologia sintetica, dall’inglese synthetic biology, mira a progettare e fabbricare componenti e sistemi biologici non ancora esistenti in natura e riprogettare e produrre sistemi biologici già presenti in natura. Questa nuova area di ricerca combina la scienza e l’ingegneria per sintetizzare funzioni biologiche originali. Tali sistemi, realizzati a partire da parti elementari interconnesse tra loro, come per un comune circuito elettrico, prendono infatti il nome di circuiti genetici. Vengono definiti come BioBrick delle sequenze di DNA standard che codificano per ben definite strutture e funzioni; condividono un’interfaccia comune e sono progettate per essere composte e incorporate in cellule viventi come Escherichia coli per costruire nuovi sistemi biologici. I moduli genetici BioBrick rappresentano uno sforzo per introdurre i principi ingegneristici dell’astrazione e standardizzazione nella biologia di sintesi. Un altra pratica ingegneristica che interviene nella biologia di sintesi è quello della modellazione, della simulazione e del controllo di sistemi biologici. Questa disciplina prende il nome di Biologia dei Sistemi, dall’inglese Systems Biology, la quale infatti studia gli organismi viventi in quanto sistemi che si evolvono nel tempo, ossia nell’interazione dinamica delle parti di cui sono composti. In particolare questo obiettivo viene conseguito tramite l’integrazione di modelli dinamici e dei risultati di differenti esperimenti ad alto rendimento (high throughput), unendo le conoscenze di genomica, proteomica, trascrittomica e di teoria dei sistemi dinamici. Le leggi che descrivono i circuiti genetici sono descritte dalla disciplina denominata “cinetica enzimatica”. La reazione è descritta da leggi che tengono in conto l’effetto di condizioni che ne possono modificare la velocità. Storicamente ed epistemologicamente la biologia ha fatto minor ricorso ad un approccio matematico rispetto ad altre discipline scientifiche (quali fisica e chimica). Tuttavia la biologia è ormai strettamente legata all’informatica che tenta di supplire a questa lacuna fornendo ai risultati tipici della biochimica e della biologia molecolare un corredo di strumenti analitici e numerici, modelli, algoritmi e basi di dati. Nello specifico della biologia sintetica sono state create basi di dati (www.partsregistry.org) di parti biologiche elementari (BioBricks) per la realizzazione di nuovi organismi, strumenti per la loro progettazione (strumenti CAD), formalismi e linguaggi per la descrizione di tali elementi e sistemi (CellML e SBML), per la loro simulazione e molto altro. La biologia è estremamente complessa. Il motivo è che i sistemi biologici sono il risultato di una evoluzione naturale piuttosto che di un disegno predefinito. E’ tuttavia possibile individuare dei principi che si applicano alle reti geniche, questi principi sono la naturale conseguenza dell’emersione di un sistema che debba “funzionare”. Del resto i motivi ricorrenti nelle reti geniche, il principio di robustezza di un sistema e le tecniche di progettazione ottimizzata si riscontrano in un contesto completamente differente: i sistemi progettati dagli ingegneri. La ricerca scientifica ha prodotto negli ultimi anni alcuni sistemi di supporto alla progettazione di circuiti genetici, alcuni di questi con livelli di automatizzazione variabile. Il software può venire in aiuto del progettista tramite la generazione, memorizzazione, la ricerca e la simulazione di reti biologiche sintetiche. Una sequenza di BioBricks può ad esempio essere automaticamente trasformata in un set di reazioni, per la simulazione del sistema. Nella maggior parte dei casi è tuttavia necessario l’intervento umano, ad esempio per avvalorare alcuni parametri con quelli corrispondenti al componente BioBrick in oggetto. In altri casi lo strumento è in grado di generare una rete che presenti determinate caratteristiche di inseguimento ingresso-uscita, tuttavia senza fare riferimento ad un set di componenti reale. Altri ancora permettono di generare sistemi che utilizzano componenti reali, ma non prevedendo una libreria configurabile di elementi e quindi presentano problemi di scalabilità. I sistemi informatici per la biologia fanno spesso uso di tecniche afferenti alla intelligenza artificiale vista la complessità del dominio e delle applicazioni stesse. Tali tecniche includono l’apprendimento artificiale, tecniche di ricerca intelligenti ed evolutive, di classificazione e di rappresentazione semantica della conoscenza. Il bioinformatico infatti, oltre a padroneggiare gli strumenti informatici classici, ad avere una approfondita conoscenza dei concetti e delle più recenti scoperte della biologia molecolare, utilizza solitamente anche alcune tecniche di intelligenza artificiale. In questo contesto si colloca il presente lavoro di tesi, avente come oggetto la realizzazione di un sistema in grado di generare reti geniche che presentino determinate caratteristiche di inseguimento ingresso-uscita. Il sistema prevede l’utilizzo di una libreria configurabile di elementi. Tale libreria viene generata dinamicamente sulla base dei modelli presenti nella base di dati. Tali modelli devono essere descritti attraverso CellML, adottando le specifiche delle Standard Virtual Parts (SVP) senza ulteriore necessità di annotazione, che non sia l’assegnazione di un identificativo universale ad ogni componente (BioBrick e molecole). La generazione dinamica non determina semplicemente un elenco di elementi, ma anche le loro interazioni. I parametri cinetici sono presenti nei modelli SVP. Di conseguenza un modello può essere generato e simulato a partire da una sequenza di BioBrick, senza alcun intervento umano. Per raggiungere questo obiettivo sono state utilizzate delle ontologie OWL per la descrizione delle entità del dominio e delle regole Jess per la descrizione della logica. Un algoritmo genetico può dunque ricercare nello spazio delle reti geniche quella che meglio presenta l’inseguimento ingresso-uscita desiderato. Il tutto è integrato all’interno di un software Java. Il sistema è stato testato utilizzando dei modelli preesistenti nell’archivio SVP sul web. Il sistema è correttamente riuscito ad individuare diverse reti che presentassero l’inseguimento desiderato. Tale risultato rappresenta un ulteriore passo in avanti nel contesto dello stato dell’arte dei sistemi di progettazione automatica e di progettazione assistita per la biologia sintetica e da cui si può auspicare la creazione di una comunità in grado di realizzare, condividere e riutilizzare con grande semplicità progetti di reti geniche sintetiche.