DOCUMENTS

elab.immagini
galileo
realtà virtuale
vrml
biomeccanica
esapodi
formula1
intelligenza







Papers
meccanica
sistemi
robotica


LA FABBRICA DEL PENSIERO
La macchina del cervello

[Indietro]-[Avanti]

Il cervello

Perche' il cervello e' tanto piu' veloce del computer nel compiere operazioni di estrema complessita' (come riconoscere che il volto di Vincenzo e' il volto di Vincenzo, qualunque siano la prospettiva, la luminosita', la posizione), mentre e' cosi' lento nel compiere operazioni apparentemente piu' semplici (come calcolare 352 x 121)? La domanda e' chiaramente due domande in una: 1. perche' il cervello impiega cosi' tanto tempo a calcolare 352 x 121, al punto che un computer puo' essere milioni di volte piu' veloce? 2. perche' il cervello impiega cosi' poco tempo a riconoscere il volto di Vincenzo? E ne aggiungerei una terza, forse piu' importante di quanto sembri: 3. perche' il tempo impiegato per riconoscere il volto di Vincenzo e' piu' o meno lo stesso per tutti i cervelli (mio, di Dario, di Cinzia), mentre il tempo impiegato per calcolare 352 x 121 varia sensibilmente di individuo in individuo?

Una risposta spontanea potrebbe essere che per un cervello "riconoscere" e' compito piu' "naturale" che non "calcolare". Mentre non ha bisogno di imparare come si fa a riconoscere un volto, il cervello deve imparare come si fa a calcolare una moltiplicazione, e la sua performance nel secondo caso dipende da quanto bene lo impara.

Secondo James il cervello non e' stato costruito per calcolare 352 x 121, ma per aiutarci a sopravvivere nel mondo. La mente e' un prodotto dell'evoluzione e uno strumento dell'adattamento. Parafrasando Dewey, l'uomo pensa per vivere, non viceversa. E Maturana spiega che le rane riconoscono soltanto gli insetti, ovvero cio' che a loro "serve" vedere per riuscire a sopravvivere.

Il neurone

La cellula fondamentale del cervello, quella che si presume sia responsabile del comportamento "intelligente", e' il neurone.

Un neurone ha una struttura fisica relativamente semplice: un gruppo di filamenti detti "dendriti" trasportano al neurone i segnali provenienti da altri neuroni; un unico filamento detto "assone" trasporta il segnale di questo neurone ad altri neuroni; e il corpo del neurone trasforma i segnali di input nel segnale di output. I punti in cui l'assone di un altro neurone entra in contatto con una dendrite di questo si chiamano "sinapsi". Una sinapsi puo' essere "inibitoria", se, a fronte di un segnale, fa diminuire il potenziale del neurone, oppure "eccitatoria", se lo fa aumentare. Quando il segnale complessivo (dovuto a tutte le dendriti) che giunge al corpo del neurone supera il valore del potenziale (la cosiddetta "soglia"), il neurone emette a sua volta un segnale lungo il proprio assone, e tale segnale puo' essere raccolto da un numero qualsiasi di altri neuroni.

Secondo Akamatsu, pero', non tutti i neuroni obbediscono a questo schema: i neuroni della corteccia associativa, perlomeno, sembrano reagire a qualcosa di piu' complicato di un semplice segnale elettrico. Piu' che il valore di soglia sembra importare il valore massimo del segnale e il suo andamento nel tempo.

I neuroni sono diffusi in tutto il sistema nervoso, dai muscoli al midollo spinale, e formano una gigantesca e intricatissima "rete neurale". La struttura e la funzione di questa rete sono ancora largamente incognite, anche perche', ovviamente, tutto cio' che sappiamo lo sappiamo dallo studio delle anomalie cerebrali, non dallo studio di un cervello sano e vivo, che funziona correttamente: i neurologi possono esaminare soltanto i cervelli malati (o quelli morti). Per assurdo, conosciamo meglio le anomalie del cervello che non le sue regolarita'.

La corteccia cerebrale e' uno dei caratteri distintivi dei mammiferi, e ancor piu' dei primati, rispetto agli altri animali. Nel cervello dell'uomo e' enorme, tanto da occultare le parti che sono piu' comuni nelle altre specie. La gran parte degli animali possono vivere benissimo senza la corteccia, mentre un uomo senza corteccia e' di fatto un vegetale. A tutt'oggi sono state riconosciute piu' di cinquanta regioni corticali: la corteccia somatosensoria e' una mappa topografica del corpo, in quanto la disposizione dei suoi gruppi neurali rispecchia quella delle aree anatomiche a cui quei gruppi neurali fanno riferimento; la corteccia visiva non solo corrisponde alla retina, ma e' a sua volta suddivisa in gruppi neurali corrispondenti ciascuno a una specifica caratteristica dell'informazione visiva (luminosita', orientamento, direzione di moto e cosi' via); la corteccia uditiva e' probabilmente organizzata in maniera analoga; la corteccia motoria e' una mappa del sistema muscolare.

Esistono due tipi di neurone nella corteccia: piramidali e stellati. I primi mandano segnali anche fuori dalla corteccia, ad altre regioni del sistema nervoso, oltre a mandarli ad altre zone della corteccia stessa tramite connessioni collaterali dette "ricorrenti".

I gruppi neurali

Per quanto sia utile considerare il neurone alla stregua dell'"atomo" di cervello, per spiegare i fenomeni cerebrali sembra avere piu' senso assumere come unita' elementare la popolazione di neuroni, o il "gruppo neurale".

Edelman, ispirandosi al principio darwiniano di competizione, ritiene che ogni stimolo dell'ambiente dia luogo a un processo competitivo fra i gruppi neurali che sono in grado di rispondere a esso, e quelli che rispondono "meglio" ne escano "rafforzati". E' pertanto l'ambiente a compiere la "selezione dei gruppi neurali" piu' idonei. L'interazione con l'ambiente non e' fondamentale soltanto per determinare come viene percepito il mondo, ma anche per lo sviluppo del cervello stesso.

Il cervello non e' affatto cristallizzato fin dalla nascita in una configurazione neurale determinata dal codice genetico. Il cervello e' un sistema evolutivo: i geni ne determinano soltanto la configurazione iniziale, ma e' l'esperienza a forgiare poi il cervello secondo una legge che e' fondamentalmente quella di Hebb (le connessioni piu' sollecitate dall'esperienza si rafforzano, le altre si indeboliscono).

In tal modo viene spiegata la differenza fra i vari individui: a seconda delle esperienze vissute il cervello assume configurazioni neurali diverse. E' praticamente impossibile che due cervelli vivano esattamente le stesse esperienze e risultino pertanto identici.

Cio' spiega anche un noto paradosso: per quanto grande, il genoma umano non sarebbe lontamente in grado di specificare i miliardi di connessioni neurali del cervello. La formazione del cervello non puo' avere origini solamente genetiche.

Gli esperimenti di Cepko e Walsh hanno inoltre dimostrato che il ruolo di una cellula nervosa non e' determinato dal codice genetico ma dalla sua posizione, dai messaggi che riceve dai neuroni vicini. Una cellula che finisca nella zona della visione, per esempio, diventera' un neurone visivo in quanto verra' addestrato a tale compito dai neuroni di quella zona. La ragione per cui un neurone tende a stabilirsi in un certo punto piuttosto che un altro del cervello potrebbe essere del tutto casuale, indipendente dall'informazione genetica.

Infine Edelman propone la soluzione anche ad un altro paradosso millenario: com'e possibile che venga generata una percezione unitaria (per esempio, nel caso della visione) se quella percezione risulta dalla funzione di diverse parti (o "mappe") del cervello, ciascuna indipendente dalle altre (nel caso della visione ne sono gia' state identificate una ventina)? A meno di postulare l'esistenza di un "omuncolo" che controlli e assembli le diverse funzioni, fenomeni come la visione si direbbero impossibili. Edelman paragona questo dilemma a quello che dovette affrontare Darwin quando si accinse a spiegare l'origine delle specie senza richiedere interventi divini. La risposta nel caso del cervello e' che esistono delle "rientranze" (delle connessioni bidirezionali) fra le varie parti, rientranze che, ancora una volta, sono il frutto dell'esperienza, "crescono" durante lo sviluppo. Ogni mappa e' specializzata nel riconoscere una qualche caratteristica, ma le rientranze fra le varie mappe fanno si' che quelle caratteristiche vengano composte in una percezione unitaria.

E' in tal modo che il cervello e' in grado di compiere le operazioni di "classificazione". Se esistono infiniti modi di partizionare l'universo in categorie, come fa un organismo a riconoscere un oggetto? Come ho fatto a riconoscere Vincenzo dopo averlo visto soltanto un paio di volte? Come faccio a categorizzare uno stimolo? Edelman dimostra che gli stimoli possono essere raggruppati in insiemi "polimorfi", insiemi per i quali non esistono ne' condizioni sufficienti ne' condizioni necessarie: le proprieta' di un insieme polimorfo possono cambiare a seconda del contesto. Lo schema delle rientranze risulta essere la struttura minima in grado di classificare un oggetto.

Anche la formazione del cervello soggiace pertanto a una forma di competizione darwiniana. A competere non sono pero' i neuroni, ma le loro connessioni: dalla nascita in poi i neuroni sono piu' o meno sempre gli stessi; durante la vita variano soprattutto le intensita' delle connessioni.

In particolare Edelman ritiene quindi che si debba ragionare in termini di popolazione, e non solo di individuo, nello studiare il sistema nervoso; esattamente come quando si studia l'evoluzione delle specie. I processi cerebrali sono dinamici e stocastici.

Il Connessionismo

Dalle scoperte della Neurofisiologia ha avuto origine una corrente di pensiero antagonista rispetto a quella rappresentazionale del "linguaggio della mente". Questa corrente "connessionista" utilizza una libera astrazione della struttura del cervello. Invece di postulare che le facolta' mentali abbiano origine dall'elaborazione di strutture rappresentazionali, il "Connessionismo" postula che esse abbiano origine dalle "connessioni" fra unita' molto semplici.

Tali connessioni hanno una consistenza (o "peso") che non e' fissa, bensi' variabile nel tempo. Il modo in cui la connessione varia puo' essere proporzionale a quanto spesso la connessione viene attivita oppure tale da minimizzare l'errore. Il segnale scambiato da due neuroni e' a sua volta funzione del peso della loro connessione.

Quando la rete di connessioni viene attivata da un certo input, i neuroni si scambiano segnali inibitori ed eccitatori finche' la rete raggiunge un nuovo stato di equilibrio (uno stato in cui lo scambio di segnali non provoca piu' variazioni nei pesi delle connessioni).

Il caso piu' tipico e' quello del riconoscimento, il processo fondamentale della memoria. Il modo in cui impariamo a "riconoscere" un volto non e' uno studio dettagliato delle sue caratteristiche, bensi' l'esperienza di vederlo: piu' volte lo vediamo piu' diventa facile riconoscerlo. Talvolta non siamo neppure in grado di ricordare le caratteristiche di quel volto, anche se sappiamo riconoscerlo con facilita'. Tecnicamente questo significa che il cervello associa un unico output a diversi input: tutte le possibili varianti in cui quel volto si puo' presentare (di fronte, di profilo, ombreggiato, con o senza barba, con o senza occhiali, e cosi' via). E' l'esperienza ad addestrare il cervello: man mano che il cervello viene esposto a quel volto, si rafforzano le connessioni piu' adatte a far riconoscere quel volto.

E' chiaro che in tal modo sbiadisce la differenza fra "memoria", "apprendimento" e "ragionamento".

L'elaborazione parallela distribuita costituisce un'alternativa "non simbolica" (non rappresentazionale) alla teoria computazionale di Fodor (simbolica e rappresentazionale). Cio' che viene rappresentato non ha una relazione intuitiva con le convinzioni o percezioni. Si tratta invece di una rete di nodi, ciascuno dei quali comunica con altri tramite connessioni la cui forza e' variabile nel tempo; questa forza, che varia in funzione proprio dell'attivita' dei nodi, e' il fattore principale di rappresentazione. E' come se i nodi si scambiassero simultaneamente una grande quantita' di messaggi: la rappresentazione e' data dall'insieme di questi messaggi (e non dal contenuto dei nodi). Quando la rete viene attivata a fronte di uno stimolo, le connessioni cambiano la propria forza fino a raggiungere una configurazione stabile che costituisce la risposta a quello stimolo. Cosi', per esempio, tutte le immagini di Vincenzo (di profilo, di fronte, con la barba, senza la barba, con gli occhiali, senza gli occhiali, etc) causano una propagazione di messaggi all'interno della rete finche' questa converge a una configurazione che e' proprio quella della rappresentazione di "Vincenzo".

Non solo il connessionismo rende conto, come la teoria computazionale, del processo attraverso il quale la mente riesce a far riferimento al mondo esterno, non solo (a differenza della teoria di Fodor) e' biologicamente plausibile, ma fornisce anche una spiegazione di come le rappresentazioni mentali vengano costruite (per fluttuazione di forze di connessioni) e di come esse siano connesse con il mondo (attraverso associazioni del tipo stimolo-risposta); e non ha bisogno di postulare alcun linguaggio mentale.

In pratica il Connessionismo adotta due postulati fondamentali: le rappresentazioni mentali non hanno costituenti (non sono decomponibili in rappresentazioni mentali piu' elementari); e l'elaborazione mentale procede per associazioni (l'unica relazione rilevante fra rappresentazioni mentali e' il tipo di segnale che transita fra due neuroni, eccitatorio o inibitorio).

Il primo postulato ha come diretta conseguenza le due principali proprieta' del cervello: la "ridondanza" (in generale la perdita di una parte del cervello non fa perdere alcun ricordo specifico, ma causa un degrado uniforme della memoria) e la "tolleranza" (un disturbo non degrada la memoria).

L'apprendimento e' dovuto al fatto che le connessioni cambiano i propri pesi, e cio' e' dovuto semplicemente alla frequenza di percezioni. Il comportamento e' causato, in ultima analisi, dall'associazione fra stimoli e risposte, fra l'input che perviene alla rete di neuroni e l'output che quella rete emette per effetto delle proprie connessioni. Tutte le facolta' cognitive superiori vengono ricondotte a meccanismi guidati dalle connessioni.

La mente riesce a riconoscere un oggetto non perche' compie delle sofisticate rappresentazioni e poi dei sofisticati ragionamenti su tali rappresentazioni, ma perche' i segnali percettivi relativi a quell'oggetto si propagano in una rete di neuroni e causano in essa un nuovo stato di equilibrio che e' proprio il concetto di quell'oggetto.

In quest'ottica il "concetto" non e' qualcosa di pre-esistente, archiviato per sempre nella memoria a lungo termine, ma una struttura temporanea, che viene costruita sul momento a fronte di una certa situazione e soltanto in quanto serve ad agire in quella situazione. In tal modo il Connessionismo riesce a rendere conto del fenomeno rilevato da Barsalou.

In generale la singola unita' di una rete connessionista non rappresenta nulla. E' l'insieme a rappresentare qualcosa, anzi a rappresentare tutto. Tanto la memoria quanto il ragionamento sono "distribuiti". In particolare non e' possibile studiare il comportamento del sistema attraverso le parti che lo compongono (un sistema connessionista non e' "riducibile").

Un sistema connessionista e' "adattativo" e "auto-organizzantesi", capace cioe' di rispondere agli stimoli dell'ambiente cambiando la propria struttura interna, ed e' al tempo stesso una memoria "associativa", in quanto risponde ad ogni stimolo con il segnale piu' fortemente associato a quello stimolo.

Il Connessionismo diverge pertanto da gran parte della tradizione scientifica moderna, che ha origine da un approccio riduzionista. Presenta pero' delle similitudini con la Termodinamica (il sistema tende sempre verso lo stato di massima entropia, il comportamento del sistema puo' essere descritto soltanto come funzione di quantita' macroscopiche) e, come ha dimostrato Willshaw, con l'olografia (anche l'ologramma distribuisce l'informazione su tutta la superficie e anche l'ologramma e' trasparente a una deformazione dell'informazione). Come gia' messo in luce da Lashley, esiste infine anche una similitudine con la Meccanica Quantistica: il dualismo fra mente e cervello presenta un qualche grado di analogia con quello fra particelle e onde, in quanto un ricordo all'interno della memoria si comporta in maniera analoga a un'onda in un campo elettromagnetico.

I Dreyfus hanno proposto un modello olografico come un'alternativa al modello computazionale. L'ologramma e' il paradigma fondamentale anche del modello di Pribram. Pribram ritiene che ogni percezione sensoriale venga trasformata in un'"onda cerebrale" ("brain wave"), uno schema di attivazione elettrica che si propaga attraverso il cervello in modo simile al fronte d'onda in un liquido. E' questo attraversamente del cervello a fornire l'interpretazione della percezione sensoriale, sotto forma di un'"onda di memoria" ("memory wave"), la quale a sua volta attraversa il cervello. Le varie onde che viaggiano nel cervello possono interferire e dalle loro interferenze hanno origine fenomeni interessanti: per esempio, dall'interferenza fra un'onda di memoria e un'onda visiva ha origine una struttura che ricorda l'ologramma.

Il Connessionismo rende facilmente conto di molte leggi psicologiche: quella del condizionamento di Pavlov (se a uno stimolo incondizionato che provoca una certa risposta incondizionata si associa ripetutamente uno stimolo condizionato, dopo un numero sufficientemente elevato di volte lo stimolo condizionato provochera' da solo la risposta incondizionata); la legge dell'effetto di Thorndike (la probabilita' che un certo stimolo causi una certa risposta e' proporzionale alla soddisfazione che essa ha prodotto in passato, e la probabilita' che essa non si verifichi piu' e' invece inversamente proporzionale); la legge del rinforzo primario di Hull (se una coppia stimolo-risposta provoca una diminuzione delle necessita', allora aumenta la probabilita' che a fronte di quello stimolo si verifichi quella risposta); la legge del rinforzo di Skinner (se una risposta viene associata a un rinforzo, la probabilita' che la risposta si verifichi aumenta); la legge della distribuzione mnemonica di Lashley (ogni funzione mnemonica non e' localizzata in un punto preciso della mente, ma distribuita su tutta la mente); e la legge della memoria associativa di Hebb (le connessioni del cervello si modificano nel tempo e tale modifica avviene in funzione dell'esperienza).

In un modo o nell'altro e' la legge di Hebb a dominare lo scenario del Connessionismo, cosi' come quella di Darwin domina la Biologia moderna. Nella "Mente Artificiale" facevo anche notare che la legge di Hebb potrebbe essere un caso particolare di una piu' generale proprieta' della materia. Il muscolo esercitato e' piu' forte, il muscolo non esercitato si atrofizza.

La computazione neurale

Tanto la teoria rappresentazionale quanto quella connessionista sono teorie computazionali. La prima concepisce pero' la computazione come il processo di trasformare certi simboli in altri simboli secondo certe regole (in accordo con la tradizione matematica che pervade tanto l'Aritmetica insegnata nelle scuole elementari quanto la Logica piu' teorica), mentre la seconda considera la computazione come il processo di trasformare certi input in certi output secondo certe connessioni (in accordo con una tradizione statistica che e' piu' propria delle scienze naturali che di quelle esatte).

Rumelhart e McClelland definiscono la neurocomputazione come una forma di "computazione distribuita e parallela" (PDP o "parallel distributed processing"): una rete neurale e' un grafo diretto non lineare, nel quale ogni elemento di elaborazione (ogni nodo della rete) riceve segnali da altri nodi ed emette a sua volta un segnale verso altri nodi, e ogni connessione fra nodi ha un "peso" che puo' variare nel tempo.

Le fondamenta computazionali del Connessionismo vennero gettate da McCulloch e Pitts, i quali svilupparono una teoria matematica del neurone "binario", una libera astrazione (e semplificazione) del neurone reale che puo' assumere soltanto due stati, attivo e non attivo, e quando e' attivo emette sempre lo stesso output; e in particolare dimostrarono che una rete di neuroni binari e' equivalente a una macchina di Turing universale (ovvero che ogni programma realizzato su un computer puo' essere realizzato anche tramite una rete neurale).

Rosenblatt estende il modello del neurone binario al caso in cui le connessioni possono avere pesi con valori continui e tali valori possono cambiare nel tempo; e dimostra che questo suo "percettrone" puo' essere essere addestrato a rispondere correttamente attraverso un numero finito di ripetizioni di una procedura di addestramento. Selfridge assegna un significato ben preciso a ogni unita' del suo "pandemonium", ciascuna specializzata nel riconoscere un'entita' ben precisa, e le organizza a strati gerarchici, in modo che il nodo dell'ultimo strato possa prendere la decisione sulla base di cio' che e' stato progressivamente identificato dai nodi degli strati inferiori.

Fra queste reti neurali e i tradizionali computer alla Von Neumann esiste un abisso: in un computer la conoscenza e' contenuta in un luogo ben preciso, la memoria, mentre in una rete neurale la conoscenza non e' localizzabile, e' distribuita nella rete, e precisamente nelle sue connessioni; le unita' di elaborazione di un computer sono sistemi statici (forniscono sempre lo stesso output a fronte di un dato input), mentre quelle di una rete neurale sono sistemi dinamici (l'output dipende anche dal peso delle sinapsi); i computer sono in grado di compiere operazioni solo su quantita' esatte, mentre le reti neurali rispondono anche a configurazioni di input approssimate o incomplete o disturbate; il flusso "sequenziale" di operazioni di un computer e' prevedibile, mentre quello "parallelo" delle reti neurali e' praticamente impossibile da ricostruire a mano; il computer ha difficolta' a memorizzare schemi complessi (come l'immagine di un volto, che e' composta da migliaia di punti), ed e' lento poi nel reperirli, mentre la rete neurale memorizza facilmente schemi complessi ed e' rapida nel reperirli, e viceversa per i calcoli matematici; il computer non e' "tollerante", ovvero non e' trasparente alla perdita di informazione, mentre l'output di una rete neurale non si degrada necessariamente se parte dell'informazione si perde (un volto viene riconosciuto anche se parte dell'immagine e' sbiadita); un computer, infine, non e' in grado di imparare dalle proprie esperienze, una rete neurale si' (il processo di addestramento puo' continuare all'infinito).

E' soprattutto diverso il modo in cui si puo' rendere "intelligente" la macchina: se programmare secondo Von Neumann consiste nel dire al computer "come" risolvere un certo problema (ovvero fornirgli la sequenza di istruzioni che devono essere eseguite per pervenire alla soluzione), se programmare un sistema esperto consiste nel dargli la conoscenza per risolvere problemi in un certo dominio, programmare una rete neurale consiste invece nel presentarle la soluzione di molti problemi di una certa classe.

Come ha fatto notare Kosko, la computazione neurale, cosi' come la Statistica, ha come obiettivo quello di approssimare la funzione che mette in corrispondenza certi input e certi output, ma, a differenza della Statistica, non richiede che venga formulato un modello matematico. Anche i sistemi esperti sono "approssimatori" di funzioni che non richiedono un modello matematico, ma le reti neurali sono anche sistemi dinamici (si puo' prendere la derivata nel tempo del loro comportamento).

Kosko ha anche fatto notare una importante similitudine con la logica fuzzy (vedi dopo): lo spazio degli stati neurali (l'insieme di tutti i possibili output di una rete neurale) e' identico all'insieme di potenza fuzzy (l'insieme di tutti i sottoinsiemi fuzzy dell'insieme dei neuroni). Precisamente, un insieme di "n" neuroni (i cui segnali variano in maniera continua fra zero e uno) definisce una famiglia di insiemi fuzzy n-dimensionali. Quello spazio e' l'ipercubo unitario, l'insieme di tutti i vettori di lunghezza "n" e di coordinate nell'intervallo continuo fra zero e uno. Reti come quelle di Hopfield tendono a portare lo stato del sistema vicino a uno dei "2 alla n" vertici dell'ipercubo; cosi' facendo, questi sistemi disambiguano dinamicamente descrizioni fuzzy minimizzandone l'entropia fuzzy.

Naturalmente la computazione neurale presta il fianco alle stesse critiche che hanno perseguitato per secoli il metodo induttivo: programmare una rete significa fornirle un insieme molto grande di esempi, ma, per quanto grande sia quell'insieme, non e' possibile fornire alla rete tutti gli esempi possibili e immaginabili; l'insieme che viene scelto riflette soltanto in maniera approssimata il mondo reale, e un insieme di esempi molto particolari potrebbe addirittura "ingannare" la rete sulla vera natura del mondo.

Modelli connessionisti

Esistono innumerevoli architetture connessioniste, le quali differiscono fondamentalmente in questi parametri: il numero di strati in cui le unita' sono organizzate; il modo in cui le unita' sono connesse fra di loro; il modo in cui le unita' vengono attivate; il modo in cui le connessioni devono apprendere i concetti; il modo in cui le connessioni possono cambiare nel tempo; il modo in cui le unita' vengono interpretate semanticamente. A seconda di come questi parametri sono organizzati l'architettura connessionista risulta piu' o meno adatta a svolgere certi compiti.

Per esempio, le unita' possono essere organizzate soltanto in due strati (input e output) oppure avere un certo numero di strati intermedi (cosiddetti "strati nascosti"). Per esempio, le connessioni possono essere unidirezionali (i segnali si propagano soltanto dallo strato di input verso quello di output) o bidirezionali (i segnali possono propagarsi anche all'indietro), come nell'architettura di Hopfield. Per esempio, l'architettura di Hopfield tende a convergere verso uno stato di equilibrio che equivale matematicamente allo stato di minima energia in un sistema termodinamico; e cosi' anche l'architettura di Hinton e Sejnowski (la cosiddetta "macchina di Boltzman"), che pero' utilizza un algoritmo statistico. Per esempio le connessioni possono cambiare di peso secondo la legge di Hebb (la variazione di peso di una connessione e' funzione del prodotto delle attivazioni dei due neuroni che congiunge) oppure secondo la "regola delta" di Widrow e Hoff (la variazione di peso delle connessioni e' funzione della discrepanza fra l'output fornito e l'output atteso) oppure ancora secondo la "propagazione all'indietro" ("back propagation") di Rumelhart (che calcola l'errore in ogni nodo e lo propaga all'indietro aggiustando i pesi degli strati intermedi per minimizzarlo). Per esempio, l'apprendimento puo' essere "supervisionato" (la rete viene addestrata a riconoscere gli input di alcune categorie predefinite) oppure "non supervisionato" (la rete partiziona gli input creando delle categorie). Per esempio, all'architettura connessionista puo' essere assegnata una semantica distribuita, in cui un concetto e' rappresentato da uno schema di attivazione, oppure localizzata, in cui ogni unita' ha un significato (come in quella di Selfridge).

In tutti i casi i neuroni "formali" del Connessionismo computazionale sono delle astrazioni teoriche che riflettono soltanto le proprieta' macroscopiche dei neuroni biologici. E' pero' importante che riflettano quelle proprieta' poiche', una volta stabilita almeno questa equivalenza, e' poi possibile usare gli strumenti della Matematica per derivare altre proprieta' che sarebbero difficili, se non impossibili, da scoprire a livello neurologico. Per esempio, Hecht-Nielsen (riprendendo un teorema di Kolmogorov) ha dimostrato che per ogni possibile funzione esiste una rete neurale a tre strati che ne calcola i valori. Non e' detto che per ogni rete neurale esista una funzione che ne descrive il comportamento globale, ma per ogni funzione esiste una rete neurale che la simula. Se si riuscira' a determinare anche una relazione deterministica fra ogni funzione e la rete che e' sufficiente per calcolarla, sara' possibile predire, data una funzione cerebrale, quale possa essere la complessita' della rete neurale adibita a svolgere quella funzione.

L'architettura di Kohonen, ispirati dagli studi di Malsburg sulla corteccia cerebrale, e' quella che apprende in maniera "spontanea". Mentre un'architettura supervisionata deve unicamente imparare a classificare correttamente le nuove occorrenze in concetti predefiniti, un'architettura come quella di Kohonen deve essere in grado anche di "costruire" i concetti a partire dalle occorrenze che le vengono presentate. Una rete ha appreso un nuovo concetto quando, all'aumentare delle occorrenze di tale concetto, i pesi delle connessioni convergono verso una configurazione stabile. Questo modello esibisce alcune proprieta' matematiche che lo differenziano dagli altri. Innanzitutto evidenzia che la stratificazione dei neuroni svolge un ruolo ben determinato: in una rete a tre strati (input, nascosto e output) quanto piu' grande e' lo strato nascosto tanto piu' rapida, ma limitata, e' la generalizzazione degli input; quanto piu' piccolo e' lo strato nascosto tanto piu' lenta, ma precisa, e' la generalizzazione. Poi, per definizione, e' in grado di formare un modello accurato e compatto della densita' di probabilita' delle occorrenze. Utilizzando una legge di apprendimento diversa da quella di Hebb, infine, Kohonen ottiene anche un comportamento "competitivo": la sua legge limita a uno solo il numero dei neuroni che puo' essere attivato da un segnale inviato a una popolazione di neuroni. In tal modo tutti i pesi possono essere resi "equiprobabili", ovvero con la stessa probabilita' di verificarsi (anche se e' necessaria una correzione scoperta da Desieno, il cosiddetto "fattore di coscienza").

Gli esperimenti di Thompson sembrano dimostrare che le sinapsi del cervello apprendono effettivamente in maniera non supervisionata e locale, e pertanto il modello di Kohonen sarebbe piu' accurato di, per esempio, quello di back propagation (che e' non locale e supervisionato). Klopf ha pero' dimostrato che la legge di Hebb e' in grado di spiegare il condizionamento di Pavlov, ed esiste ormai una certa unanimita' sul fatto che le sinapsi siano controllate da qualche variante della legge di Hebb (ne sono state proposte decine).

Il modello di Grossberg, che riflette la legge del rinforzo (il fatto che un ricordo tende a rinforzarsi o ad affievolirsi in funzione del numero di volte che viene richiamato) e il condizionamento di Pavlov, riduce invece uno stato cognitivo a uno stato dinamico di "risonanza adattativa" che si estende nel tempo. L'algoritmo di risonanza risulta non lineare, non locale e non stabile.

Grossberg risolve in questo modo un noto paradosso che sorge spontaneo di fronte al modello connessionista: come puo' una rete neurale essere cosi' stabile da ricordare cio' che ha appreso in un lontano passato e al tempo stesso essere cosi' flessibile da apprendere nuove cose? Il suo modello della risonanza adattativa risolve il paradosso. Allo stesso risultato si puo' comunque pervenire con metodi di approssimazione stocastica, come ha dimostrato Kosko accoppiando due vincoli conflittuali, uno sulla "plasticita'" della rete e uno sulla sua "stabilita'".

Il modello di Hopfield si ispira a un materiale, lo "spin glass", che assomiglia a una rete neurale nella quale i pesi siano distribuiti simmetricamente e i neuroni siano binari. La rete e' composta da un solo strato di neuroni, ma ciascun neurone e' connesso con tutti gli altri. La proprieta' matematica piu' importante delle reti di Hopfield e' che memorizzano l'informazione che apprendono in configurazioni che risultano "stabili dinamicamente" (o "ultrastabili"), ovvero che la loro dinamica e' dominata dall'attrazione verso un numero molto elevato di stati localmente stabili: ogni ricordo e' un "minimo locale" per una "funzione energia" calcolata in maniera assai simile all'energia potenziale della Fisica. La proprieta' psicologica piu' importante delle reti di Hopfield e' una diretta conseguenza: la capacita' di "correggere" informazioni incomplete o incorrette (ogni deviazione dai minimi locali viene infatti "attratta" verso uno di quei minimi fino a cadervi dentro e tende pertanto a scomparire). Kosko ha dimostrato che una variante della rete di Hopfield converge certamente a uno stato stabile.

Sono molti i modelli neurofisiologici che possono essere simulati tramite una funzione energia. Il modello di Hopfield e', per esempio, molto simile a quello richiesto dalla teoria della "stereofusione" di Marr, e a quello richiesto dalla teoria di Anderson per il sistema collaterale ricorrente delle piramidi corticali.

Il modello di Hinton e Sejnowsky (detto "della macchina di Boltzman") si rifa' a un altro fenomeno fisico, quello della tempratura dei metalli. Quando si riscalda il metallo a temperature molto elevate e poi lo si lascia raffreddare a temperatura ambiente, si costringe di fatto l'energia globale del metallo a un valore minimo assoluto. La proprieta' piu' interessante di questo procedimento e' che il metallo raggiunge sempre lo stesso stato di minimo, qualunque fossero le sue condizioni iniziali e comunque venga eseguita la tempratura. Kirkpatrick ha scoperto un algoritmo matematico (quello di Metropolis) che simula il fenomeno fisico: se si fa cambiare una parte a caso del sistema alla volta e si accettano con probabilita' 100% i cambiamenti che riducono l'energia globale e con una probabilita' che e' funzione esponenziale della variazione di energia quelli che la fanno aumentare, si ottiene lo stesso comportamento della tempratura.

Quando la regola di "apprendimento" della rete di Hopfield viene sostituita con quella della tempratura, si ottiene la macchina di Boltzman, che, a differenza della rete di Hopfield, ha le proprieta' di stabilizzarsi sempre in un minimo globale (dopo un numero infinito di passi, pero') e di non destabilizzarsi mai.

I Geman hanno dimostrato che la tempratura renderebbe conto di parecchi fenomeni legati all'elaborazione delle immagini.

Fukushima ha proposto un modello comnnessionista (il "cognitrone") in cui i neuroni sono organizzati secondo una gerarchia: ogni neurone di uno strato puo' ricevere input soltanto da un certo numero dei neuroni dello strato precedente. Ogni neurone ha pertanto una "visione" parziale di cio' che sta succedendo, e soltanto salendo nella gerarchia si ottiene una visione globale. Il vantaggio di questo modello e' che, essendo molto piu' semplice, consente di costruire architetture molto piu' complesse. Fukushima ha dimostrato che questo modello e' adatto a riconoscere immagini, e in particolare puo' focalizzare l'attenzione su un oggetto all'interno di una scena.

Se e' vero che il cervello e' partizionato in zone specializzate a svolgere certi compiti, un modello connessionista biologicamente plausibile deve rendere conto di come certi insiemi di neuroni vengano a costituire simili zone. Jacobs ha proposto un'architettura "modulare" in cui ciascuna sotto-rete compete con le altre per apprendere durante l'addestramento; in tal modo ciascuna rete riesce ad apprendere soltanto certe cose e pertanto finisce per specializzarsi nello svolgere certe funzioni. L'architettura compie pertanto una decomposizione funzionale dei problemi, nel senso che ogni problema viene decomposto in sotto-problemi indipendenti i quali vengono gestiti da diverse sottoreti della rete complessiva. Per esempio, nella visione esistono due problemi indipendenti, che sono quello del "cosa" e quello del "dove": nel modello di Jacobs queste due funzioni vengono automaticamente ripartite fra due sotto-reti.

Non e' detto che una sola di questi modelli debba essere quello realmente utilizzato dal cervello. E' probabile anzi che il cervello utilizzi piu' di un modello, a seconda delle funzioni da svolgere. Ogni modello si presta piu' o meno bene a svolgere certi compiti e non abbiamo alcuna evidenza che esista un super-modello in grado di svolgere bene tutti i compiti.

Il dilemma composizionale

Rimane soprattutto il mistero di come si possa passare dai segnali elettrochimici che i neuroni si scambiano alle idee che si formano nella mia mente, ovvero come si possano mettere in relazione il modello connessionista (che tratta i neuroni) e il modello rappresentazionale (che tratta le idee).

Le spiegazioni proposte quasi sempre si ispirano, direttamente o indirettamente, alla "lateralizzazione delle funzioni", la teoria (resa popolare dagli esperimenti di Sperry) secondo cui l'emisfero sinistro del cervello e' cruciale per le funzioni di linguaggio (e' dominante per le funzioni di linguaggio), mentre quello destro e' specializzato nel riconoscimento (e' dominante per il riconoscimento). In quel contesto il modello connessionista si presta per simulare l'emisfero destro, mentre il modello rappresentazionale rispecchia le funzioni analitiche di quello sinistro. .sp 5

Bibliografia:


 Anderson J. (1977): Reply to Grossberg (Psychological Review n.85 p.597)
 Barsalou L. (1987): The instability of graded structures (in Neisser U.: Concepts reconsidered, ed. Cambridge Univ Press)
 Cepko C. e Walsh C. (1991): (Science)
 Desieno D (1988): Adding a conscience to competitive learning (Proc IJCNN p.117)
 Dreyfus H. e Dreyfus S. (1985): Mind over machine (Free Press)
 Edelman G. (1987): Neural Darwinism (Basic)
 Edelman G. (1989): The remembered present (Basic)
 Edelman G. (1992): Bright air brilliant fire (Basic)
 Fodor J. e Pylyshyn Z. (1988): Connectionism and cognitive architecture (Cognition n.28 p.3)
 Fukushima K. (1988): Neocognitron (Neural Networks n.1 p.119)
 Geman S. & Geman D. (1984): Stochastic relaxation, Gibbs distribution and the Bayesian restoration of images
	(IEEE Transactions on Pattern Matching n.6 p.721)
 Grossberg S. (1988): Neural networks and natural intelligence (MIT Press)
 Hebb D. (1949): The organization of behavior (John Wiley)
 Hecht-Nielsen R. (1989): Neurocomputing (Addison-Wesley)
 Hinton G. e Sejnowsky T. (1985): A learning algorithm for Boltzmann machines (Cognitive Science n.9 p.147)
 Hinton E. & Anderson J. (1989): Parallel models of associative memory (Lawrence Erlbaum)
 Hopfield J. (1982): Neural networks and physical systems (in Anderson and Rosenfeld: Neurocomputing, MIT Press)
 Jacobs R. (1991): Task decomposition through competition in a modular connectionist architecture (Cognitive Science n.15 p. 219)
 Kirkpatrick S. (1983): Optimization by simulated annealing (Science n.220 p.671)
 Klopf H. (1988): A neuronal model of classical conditioning (Psychobiology n.16 p.85)
 Kohonen T. (1988): Self-organization and associative memory (Springer Verlag)
 Kosko B. (1992): Neural networks and fuzzy systems (Prentice Hall)
 Kuppers B. (1990): Information and the origin of life (MIT Press)
 Malsburg C. (1973): Self-organization of orientation sensitive cells  (Kybernetik n.14 p.85)
 Marr D. (1978): Analysis of a cooperative stereo algorithm (Biological Cybernetics n.28 p.223)
 McClelland J. (1986): Parallel Distributed Processing vol. 2 (MIT Press)
 McCulloch W. e Pitts W. (1943): A logical calculus of the ideas immanent in the nervous system
    (in Anderson and Rosenfeld: Neurocomputing, MIT Press)
 Metropolis N. (1953): Equation of state calculations by fast computing machines (Journal of Chemical Physics n.21 p.1087)
 Pribram K. (1971): Languages of the brain (Prentice Hall)
 Rosenblatt F. (1962): Principles of neurodynamics (Spartan)
 Rumelhart D. (1986): Parallel Distributed Processing vol. 1 (MIT Press)
 Selfridge O. (1959): Pandemonium (Symposium on the mechanization of thought process)
 Sperry R. (1982): Some effects of disconnecting the cerebral emispheres (Science n.217 p.1223)
 Thompson R. (1986): The neurobiology of learning and memory (Science n.240 p.941)
 Widrow B. e Hoff M. (1960): Adaptive switching circuits (in Anderson and Rosenfeld: Neurocomputing, MIT Press)
 Willshaw D. (1981): Holography, associative memory and inductive generalization
    (in Hinton E. & Anderson J.: Parallel models of associative memory)
[Indietro]-[Avanti]