Valentini Carlo

LA MENTE ARTIFICIALE
La percezione

La Linguistica Generativa

Le origini della linguistica computazionale si perdono nella preistoria dei programmi di traduzione automatica. Costruire macchine in grado di tradurre automaticamente un testo di una lingua in un'altra lingua e' un'ambizione che data perlomeno da Descartes, che propose un dizionario "meccanico" nel quale ogni termine della lingua venisse fatto corrispondere a un codice numerico. Dizionari di questo genere vennero effettivamente pubblicati da Cave Becker nel 1657, da Johann Becher nel 1661 e da Athanasius Kircher nel 1663. Nel 1668 John Wilkins estese queste idee alla definizione di una vera e propria "interlingua" basata sull'enumerazione di tutti i concetti elementari. Fu pero' soltanto nel 1933 che divenne possibile progettare la macchina capace di elaborare codici di questo genere: il "Cervello Meccanico" di Georges Artsrouni, propulso da un motore elettrico, era in grado di reperire su un nastro la stringa di caratteri corrispondente alla stringa di caratteri introdotta su una tastiera.

Un memorandum di Warren Weaver, che si basava sulla teoria dell'informazione di Shannon e sui primi usi del computer per l'analisi criptografica, apri' ufficialmente nel 1949 l'era della traduzione automatica. Negli anni seguenti Andrew Booth tento' la costruzione di un programma che traducesse parola per parola, Abraham Kaplan mise in luce il problema delle parole e frasi ambigue e Yehoshua Bar-Hillel ne dedusse l'impossibilita' di analizzare il linguaggio con un computer. Nel 1961 Mortimer Taube riassumeva il diffuso scetticismo sulle capacita' della macchina dichiarando fallimentari tutte le ricerche in corso.

L'avvento dell'Intelligenza Artificiale diede invece nuovo impulso al campo, spostando l'attenzione verso il fenomeno primario: la comprensione del linguaggio naturale da parte di una macchina. Nacquero cosi' i primi programmi: SIR, di Bertram Raphael (1964), capace di comprendere frasi che esprimono relazioni logiche; STUDENT (1965) di Daniel Bobrow, che risolveva problemi di algebra elementare formulati in inglese; ELIZA di Joseph Weizenbaum (1966), in grado di tenere una vera e propria conversazione con l'interlocutore umano.

La teoria standard di Chomsky e l'ipotesi di Katz e Fodor (che il significato di una frase sia dato da una combinazione del significato delle sue parole, ovvero che la comprensione di una frase consista nella decomposizione lessicale della stessa) causarono una rivoluzione scientifica di portata incommensurabile. Nello scenario della grammatica generativa il linguaggio e' un insieme di frasi, una frase e' una stringa finita di parole e una grammatica e' l'insieme di regole per stabilire se una frase appartiene a un linguaggio. Il formalismo utilizzato per esprimere le regole di una grammatica e' quello delle "regole di riscrittura" (rewrite rule). Per esempio, la grammatica:


       FRASE       -->  SOGGETTO   + PREDICATO
       SOGGETTO    -->  ARTICOLO   + NOME
       PREDICATO   -->  VERBO      + COMPLEMENTO
       VERBO       -->  AUSILIARIO + FORMA VERBALE
       COMPLEMENTO -->  ARTICOLO   + NOME
       ARTICOLO     -->  la
       ARTICOLO     -->  il
       NOME         -->  ragazza
       NOME         -->  libro
       AUSILIARIO   -->  ha
       FORMA VERBALE-->  venduto

genera la frase "la ragazza ha venduto il libro" tramite una sequenza finita di applicazioni delle regole di riscrittura precedenti che da' luogo progressivamente a:


          FRASE
          SOGGETTO + PREDICATO
          ARTICOLO + NOME + PREDICATO
          la + NOME + PREDICATO
          la + ragazza + PREDICATO
          la + ragazza + VERBO + COMPLEMENTO
          la + ragazza + AUSILIARE + FORMA VERBALE + COMPLEMENTO
          la + ragazza + ha + FORMA VERBALE + COMPLEMENTO
          la + ragazza + ha + venduto + COMPLEMENTO
          la + ragazza + ha + venduto + ARTICOLO + NOME
          la + ragazza + ha + venduto + il + NOME
          la + ragazza + ha + venduto + il + libro

Il linguaggio e' l'insieme di tutte le frasi che possono essere generate da una combinazione e ripetizione qualsiasi delle regole di riscrittura della sua grammatica. La sequenza di riscritture (o "produzioni") che si deve utilizzare per generare la frase e' detta "albero di parse" (parse tree).

Le stringhe di simboli che compongono le regole di riscrittura possono far parte o del vocabolario "terminale" (le parole del linguaggio) o del vocabolario "non-terminale" ("sostantivo", "aggettivo", "avverbio", etc.) Una grammatica e' pertanto definita da questi due vocabolari, dall'insieme delle sue regole di riscrittura, e, convenzionalmente, da un simbolo iniziale (nell'esempio precedente: FRASE) che serve unicamente come inizio del processo. Una grammatica cosi' definita viene detta "di tipo 0", o "phrase-structure", e' equivalente ad una macchina di Turing, e descrive un linguaggio che e' "ricorsivamente enumerabile", ovvero un linguaggio per il quale e' possibile generare tutte le frasi che lo compongono.

Dal punto di vista computazionale questo tipo di grammatica non e' efficiente. Per tale ragione si ricorre piu' comunemente alle grammatiche di tipo 1, le cosiddette grammatiche "contestuali" (context-sensitive), nelle quali le regole prescrivono riscritture dipendenti dal "contesto" in cui avvengono, cioe' dai termini contigui; riscritture del tipo "cambia axc con ayc".

Le grammatiche "non-contestuali" (o di tipo 2) non tengono invece in alcun conto il contesto e quelle "a stati finiti" (o di tipo 3) tengono invece conto degli "stati" precedenti. Un linguaggio e' di tipo "n" se puo' essere generato da una grammatica di tipo "n".

Le quattro grammatiche corrispondono rispettivamente anche a quattro tipi di automi: macchine di Turing, automi lineari finiti (cioe' macchine di Turing la cui memoria e' limitata e proporzionale alla lunghezza dell'input), automi "pushdown" (la memoria e' illimitata ma il metodo di accesso e' "last-in first-out", ovvero la prima informazione reperibile e' l'ultima memorizzata) e automi a stati finiti (nessuna memoria).

Non esiste ancora consenso su quale tipo di grammatica generi le lingue umane, ma esiste un diffuso scetticismo che le grammatiche di tipo 0,1,2 o 3 possano essere utilizzate efficientemente. Per tale ragione, ancora una volta di carattere computazionale piu' che concettuale, la preferenza cadde sulle grammatiche di tipo trasformazionale. Le grammatiche trasformazionali generano le frasi del linguaggio specificando come si deve trasformare una struttura grammaticale per ottenerne un'altra. Una grammatica non contestuale viene usata per generare quella che e' chiamata la "struttura profonda", ma una frase della struttura profonda non e' necessariamente una frase valida della lingua: a produrre la "struttura di superficie", ovvero le frasi valide della lingua, e' un insieme di "trasformazioni" che operano sulla struttura profonda. Per esempio, le trasformazioni controllano la morfologia: un insieme di trasformazioni controlla la coerenza dei plurali e dei generi (se "il radio" e' la frase "profonda", deve esistere una trasformazione che trasforma "il" in "la") e un insieme di trasformazioni che controlla la coerenza fra una frase nominale e il suo verbo (se "io andare" e' la frase profonda, deve esistere una trasformazione che deve trasforma "andare" in "vado").

Anche le grammatiche trasformazionali sono equivalenti a macchine di Turing (come dimostrato da Stanley Peters nel 1973). La loro potenza venne pero' vista come un male piuttosto che un bene: per i fini computazionali e' sempre preferibile che la teoria sia limitata dal maggior numero di vincoli possibili. Per i fini cognitivi d'altro canto la teoria del linguaggio era ancorata all'innatismo chomskyano, che postulava l'esistenza di caratteri comuni fra le varie lingue, caratteri che dovevano derivare dalla struttura stessa della mente umana e che pertanto costituivano dei limiti invalicabili delle capacita' umane di generare linguaggi. Entrambi i tipi di considerazioni stimolavano pertanto a cercare gli "universali linguistici", le caratteristiche comuni a tutti i linguaggi ed intrinseche alle limitazioni della mente umana. Nel 1973 Chomsky stesso (riprendendo le idee enunciate nel 1967 da John Ross) propose una teoria (detta di "government-binding") che riduceva le differenze fra i vari linguaggi a un insieme di "vincoli", ciascuno dei quali limiterebbe le possibili varianti. La grammatica si svilupperebbe in maniera analoga a come si sviluppa un qualsiasi organo del corpo: secondo un programma innato che puo' essere condizionato dalle esperienze dell'individuo, ma non puo' comunque dare origine a variazioni eccessive rispetto alla norma. Cio' che va definito e' l'insieme delle limitazioni, o vincoli, a cui e' soggetta tale crescita.

In contrapposizione ai trasformazionalisti i "relazionalisti", fautori delle grammatiche "relazionali", criticavano l'idea di assumere come primitive delle stringhe di simboli (tale e' una parola nella teoria di Chomsky), quando il linguaggio e' composto di parole che hanno una funzione ben precisa, come il soggetto, il complemento oggetto e cosi' via. Relazionisti come D. Perlmutter scoprirono diversi fenomeni linguistici (a partire dal passivo della lingua russa) che potevano essere spiegati soltanto considerando il ruolo della parola, ovvero le "relazioni" grammaticali, e scoprirono altresi' numerose leggi generali che accomunano tutte le lingue. Confermarono cosi' l'ipotesi innatista, ma mettendone in dubbio la specifica implementazione proposta da Chomsky.

Nel 1978 Joan Bresnan e Ron Kaplan definirono un altro tipo di grammatica, quella "lessico-funzionale". In essa il livello "profondo" delle grammatiche trasformazionali diventa un livello "funzionale", che tratta come primitive le relazioni grammaticali (in accordo cioe' con i relazionisti) e il livello "superficiale" e' un livello "costituente", che utilizza ancora le strutture astratte della grammatica generativa. Entrambi i livelli sono sintattici e non fanno uso di trasformazioni.

Un altro tipo ancora di grammatica e' quella "phrase-structure generalizzata" di Gerald Gazdar (1982), un'estensione della grammatica non contestuale che non fa uso ne' di trasformazioni ne' di struttura profonda. Questa grammatica introduce un nuovo, piu' potente formalismo. Le regole di riscrittura separano l'informazione sui costituenti dall'informazione sul loro ordine: alcune regole definiscono il linguaggio secondo il solito approccio composizionale, mentre altre regole definiscono quale sia l'ordine consentito (per esempio, in inglese l'aggettivo viene sempre prima del sostantivo). Il formalismo di Gazdar fa inoltre uso di meta-regole, ovvero di regole che possono generare nuove regole. Il concetto fondamentale e' quello di categoria sintattica: una categoria sintattica e' definita da un insieme di coppie "attributo:valore" (per esempio, "CASO:ACCUSATIVO"), dove il valore puo' anche essere a sua volta una categoria. Alcuni principi universali presiedono poi alla propagazione di questi valori nell'albero di parse.

Se il lessico non si limita a dichiarare le proprieta' di una parola, ma stabilisce anche come essa debba legarsi ad altre per formare delle frasi compiute, la grammatica e' categoriale nell'accezione di K. Ajdukiewicz (1935). In tal modo le regole di riscrittura, molto semplificate, fungono da regole di inferenza generali che prescrivono unicamente quali tipi di enti possono combinarsi con quali altri tipi di enti, mentre a quale tipo appartenga un ente e' determinato dal lessico. Particolarmente utile per scopi computazionali e' la sotto-classe delle grammatiche "a clausola definita", o clausola di Horn, che esprimono le regole di riscrittura sotto forma di formule logiche in modo tale che il processo di parse si riduca a un processo di unificazione. L'idea data almeno dal parser di Martin Kay del 1977, ma venne formalizzata da Fernando Pereira nel 1980.

L'idea che esistesse una struttura profonda del linguaggio e che tale struttura fosse piu' vicina all'"essenza" dei concetti che il linguaggio e' in grado di esprimere spinse Charlie Fillmore (1967) a ideare la grammatica a "casi" (case frame). I casi tradizionali (nominativo, dativo, accusativo, vocativo) sono del tutto artificiali: basta volgere una frase attiva al passivo perche' nominativo e accusativo si scambino fra di loro. Esistono invece dei "casi" che sono invarianti rispetto alla forma della frase: colui che compie l'azione, colui che la subisce e cosi' via. Per ogni verbo e' possibile definire un insieme di casi tali che all'interno di una frase il caso di ciascuna parola sia sempre lo stesso, indipendentemente da come la frase possa essere trasformata. Per esempio, "Il gatto mangia il topo" avra' sempre come "mangiante" il gatto e come "mangiato" il topo, anche se la trasformiamo in "il topo e' mangiato dal gatto". Il significato della frase e' determinato in modo univoco proprio da questi casi: detta "case frame" la struttura che associa ad ogni verbo i suoi casi, ogni frase e' rappresentata dal "case frame" del suo verbo.

Nel 1973 Schank estese la rappresentazione a "case frame" di Fillmore in una teoria della "dipendenza concettuale" fondata sul principio che: date due frasi il cui significato e' equivalente, deve esistere una e una sola rappresentazione di tale significato anche se le frasi usano parole diverse. Per soddisfare questo principio Schank dovette ipotizzare l'esistenza di un certo numero di primitive semantiche, corrispondenti ai concetti elementari che e' possibile esprimere con il linguaggio. Per esempio, la primitiva che rappresenta il concetto astratto di "trasferimento" di un oggetto fra due agenti viene utilizzata nella definizione di verbi come "dare", "portare" e "comprare". Per specificare completamente il significato di una frase dovette introdurre un altro importante principio: ogni informazione implicita nella frase originale deve diventare esplicita nella rappresentazione del significato della frase originale. Per esempio, Per esempio, "Mary vende il libro a John" implica anche che il libro apparteneva a Mary e adesso appartiene a John.

La Semantica

La semantica e' la disciplina che studia il "significato". Nel nuovo panorama culturale inaugurato dalla teoria standard divenne d'attualita' tentare di replicare per il linguaggio naturale il programma portato a compimento da Tarski per i linguaggi formali.

Nell'accezione piu' diffusa il significato di una proposizione e' l'insieme delle situazioni in cui essa e' vera. Anche l'interpretazione viene cosi' ricondotta a un calcolo di valori di verita'.

La semantica dei mondi possibili di Kripke ha consentito di utilizzare i principi logici che erano alla base della teoria del significato di Frege per costruire una teoria tarskiana del linguaggio naturale. Nella semantica dei mondi possibili l'"intensione" gioca, grosso modo, il ruolo che nella teoria di Frege era stato del "senso". Mentre Frege non sviluppo' mai una teoria del senso, limitandosi ai valori di verita' (e confondendo in tal modo l'interpretazione con la valutazione), Hector-Neri Castaneda e David Kaplan negli anni Settanta hanno tentato proprio una tale teoria, impiegando lo strumento di Kripke. E' cosi' emerso in tutta la sua ampiezza il problema dell'incapacita' della teoria di Frege a trattare indexicali ("io") e dimostrativi ("questo"), e in generale tutte le proposizioni che non sono "eterne" (nell'accezione di Quine, ovvero che non sono vere a prescindere dalla situazione): per esempio, due frasi identiche "io ho ragione, tu hai torto" pronunciate da due persone che stanno discutendo fra di loro hanno due significati diametralmente opposti.

Richard Montague ha sviluppato nel 1974 una teoria del significato per il linguaggio naturale e quindi una teoria formale della lingua inglese. La grammatica "intensionale" di Montague si basa sulla nozione kripkiana di mondo possibile. Mentre le semantiche convenzionali, che si affidano tutt'al piu' al calcolo dei predicati del primo ordine, possono descrivere soltanto l' estensione delle parole, una semantica intensionale puo' specificare anche la loro intensione. L'intensione di una parola e' definita, al solito, come una funzione che ne dia l'estensione in ogni mondo possibile. Per esempio, di fronte a espressioni come "l'elefante vola" e "Piero Scaruffi e' russo" una semantica convenzionale si limiterebbe a stabilire che si tratta di oggetti impossibili; una semantica intensionale stabilisce invece che la loro estensione nel mondo reale e' la stessa (nulla), ma la loro estensione non e' nulla in altri mondi, e in questi mondi i due termini hanno estensioni diverse. La semantica intensionale puo' riuscire pertanto a catturare la differenza di significato di espressioni che hanno lo stesso significato per una semantica estensionale. Anche la semantica intensionale fallisce, pero', quando si tratta di distinguere contraddizioni, perche' ogni contraddizione ha estensione nulla in tutti i mondi possibili e pertanto, dal suo punto di vista, tutte le contraddizioni hanno lo stesso significato ("ruota quadrata", "luce buia" e cosi' via).

In generale un'espressione di logica intensionale e' una funzione di funzioni, ciascuna delle quali e' a sua volta funzione di funzioni, e non esistono limiti ai livelli di annidamento che e' possibile raggiungere. Per esempio, il verbo "essere" risulta definito da: "un funzionale che porta una funzione dei mondi e dei tempi possibili in entita' e in una funzione dei mondi e dei tempi possibili in funzionali di funzioni di possibili mondi e tempi in funzionali di funzioni di possibili mondi e tempi in entita' in valori di verita' in valori di verita' in valori di verita'". La grammatica di Montague e' pertanto uno dei primi esempi pratici di applicazione del calcolo dei predicati di ordine superiore al primo. Il suo effetto e' di mantenere costante l'estensione della descrizione ma di aumentare a volonta' l'intensione di tale descrizione. L'ordine del calcolo dei predicati a cui ci si appoggia stabilisce infatti il grado di comprensione che puo' essere raggiunto. Ogni ordine superiore permette di affermare qualcosa circa i predicati stessi (i quali a loro volta affermano qualcosa circa l'universo). Per esempio, il predicato "non esiste" descrive qualcosa, ma un predicato di questo predicato potrebbe precisare che "potrebbe esistere", e un ulteriore predicato di questo predicato potrebbe precisare in quale circostanza. Ogni ordine raffina quindi il livello di conoscenza.

Negli anni Settanta si contrappongono la tradizione di Austin (atti di discorso, o "speech acts") e quella di Tarski (semantica a condizioni di verita', "truth-conditional semantics"), l'una anti-razionalista, che riconosce al linguaggio una funzione e una origine preminentemente sociali, e l'altra razionalista, legata agli sviluppi della logica.

La teoria degli atti di discorso di Austin e' stata proseguita da Henry Grice (1968) e da John Searle (1969). Grice assume che un "principio di cooperazione" sia alla base di qualsiasi conversazione fra due agenti, e che quattro "massime conversazionali" (di massima verita', massima informazione, massima rilevanza e massima chiarezza) presiedano all'impostazione del discorso da parte di chi parla e che l'ascoltatore si serva tanto di cio' che e' esplicitamente detto nel discorso quanto di cio' che e' implicito in esso (le sue "implicature"). Per esempio, l'ascoltatore da' per scontato che chi parla ometta cio' che e' ovvio, e che chi parla non gli stia confondendo le idee. In tal modo, noto un insieme di ipotesi su cio' che il parlante sta tentando di comunicare, e note le massime conversazionali seguite dal parlante per costruire il suo discorso, l'ascoltatore puo' dedurre tutte le implicature e selezionare l'ipotesi che meglio soddisfa quelle massime (le quali si possono riassumere nella meta-regola "dire sempre quel che e' piu' rilevante"). La teoria di Grice rende cosi' conto di fenomeni osservati comunemente: talvolta chi ascolta riesce a capire il discorso di chi parla prima che questi abbia terminato; talvolta chi ascolta riesce a capire piu' di cio' che e' stato detto; e cosi' via.

Searle ha costruito invece una logica degli atti illocutori che separa il punto illocutorio di una utterance (a quale delle categorie di atti illocutori appartiene), la sua forza illocutoria (il modo in cui viene detto) e il suo contenuto proposizionale (le proposizioni che vengono affermate da quell'utterance). Per esempio l'utterance "sei appena arrivato e te ne vai gia'?" e' una domanda (Searle le classifica sotto il punto illocutorio "direttiva", perche' impongono all'ascoltatore di fare qualcosa, ovvero di rispondere) che puo' pero' essere pronunciata con toni diversi (amichevole o minaccioso) e che esibisce contenuto proposizionale "sei appena arrivato".

David Lewis e Jonathan Bennett (1976) hanno spostato l'attenzione sul concetto di "convenzione": gli individui si capiscono perche' adottano delle convenzioni e il significato ultimo e' semplicemente dato dal rafforzamento di tali convenzioni. Grice sostiene, coerentemente, che il significato stia nell'intenzione di comunicare qualcosa, ovvero di generare una certa credenza nell'uditorio.

George Lakoff ha posto l'accento sulla metafora, facendo notare come la potenza inferenziale della metafora consista nella sua capacita' di trasferire nel reame del non-fisico concetti familiari del reame fisico.

Con queste teorie il linguaggio umano diventa un caso particolare di comunicazione, e la disciplina che lo studia viene infatti ricondotta a una branca della teoria della comunicazione, secondo il formalismo di Jakobson.

La scuola razionalista segue invece l'approccio di Russell nel cercare di definire matematicamente il significato. In realta' e' sempre piu' dubbio cosa si debba intendere per "significato", ovvero il significato stesso della parola "significato". Willard Quine e Donald Davidson hanno messo in discussione la possibilita' di stabilire a cosa una parola si riferisca e cosa voglia significare chi la pronuncia (perlomeno non sono fatti scientificamente affidabili). Quine (1960) sostiene che nessuna massa di dati potra' mai portare a un'interpretazione univoca e inequivoca (e cio' vale anche per le teorie scientifiche: esistono molteplici teorie che potrebbero spiegare i fenomeni elettrici). Meglio sarebbe limitarsi a calcolare le condizioni di verita' dell'insieme di frasi pronunciate, ovvero limitarsi al concetto di "verita'".

Anche gli strutturalisti (come Saussure) approdano a un olismo linguistico assai prossimo a Quine, evitando i concetti di significato e significante, concentrandosi sul "segno" e attribuendo al segno un valore che e' funzione dell'intero linguaggio e che non puo' essere cercato al di fuori di tale linguaggio (al limite il "significato" di un'espressione sarebbe l'insieme di relazioni che la legano ad altre espressioni).

Davidson (1967) propone una semantica che assegna alle utterance di un agente delle condizioni di verita' interpretabili come credenze di quell'agente compatibili con la sua situazione, e con cio' aggiorna semplicemente la tradizione di pensiero "riduzionista" iniziata con Russell: una proposizione e' vera se e solo se l'agente ha ragione di ritenere che cio' che essa esprime e' vero.

All'estremo opposto si situa Hilary Putnam (1975), secondo il quale non e' possibile costruire una teoria semantica che tratti il significato contemporaneamente come comprensione mentale e come riferimento al mondo esterno; non e' possibile cioe' che la stessa teoria renda conto del doppio significato che il concetto di "senso" aveva per Frege, al tempo stesso cio' che la parola indica e cio' che la mente capisce; non e' possibile che una teoria rappresenti l'oggetto indicato dalle espressioni "la stella del mattino" e "la stella della sera" e al tempo stesso rappresenti le due distinte espressioni che la mente e' in grado di capire. Putnam distingue le due componenti del significato, quella materiale (il "riferimento") e quella mentale (o "stereotipo").

In tal modo si possono trattare facilmente tutte le espressioni che possono avere piu' di un valore di verita', per esempio l'espressione "Tu hai torto" detta da due persone diverse: l'espressione e' la stessa, poiche' le due frasi usano le stesse parole, ma vogliono dire due cose diverse (basta sostituire a "tu" il nome della persona per rendersene conto), anzi i loro verita' sono addirittura l'uno l'opposto dell'altro. Invece le frasi "Io ho torto" e "Tu hai torto", pronunciate dalle stesse due persone, vogliono dire la stessa cosa, anche se la dicono con parole diverse. D'altro canto esiste un livello ovvio di interpretazione nel quale la frase "Tu hai torto" vuol dire la stessa cosa chiunque sia colui che la dice. David Kaplan (1986), per esempio, distingue il significato "di contenuto" (il primo) da quello "di carattere" (il secondo).

Secondo la "teoria causale della referenza" di Kripke e Putnam l'estensione di una parola viene trasmessa da una catena causale che parte dalle proprieta' del primo oggetto che e' stato riferito con quella parola: una volta stabilito che una certa sostanza si chiama "acqua", si e' indirettamente stabilito (coscientemente o meno) che una sostanza con due parti di ossigeno e una di idrogeno si chiama "acqua". Il riferimento della parola "acqua" si propaga nella comunita' linguistica secondo un certo insieme di convenzioni. Il "significato" di una parola viene generalmente dato in termini di uno stereotipo (tutti sanno cosa sia l'oro), mentre la sua estensione non e' indispensabile (soltanto un esperto e' in grado di stabilire se un certo oggetto sia oro o meno); l'estensione di una parola e' definita in realta' unicamente dalle proprieta' del primo oggetto a cui e' stata associata quella parola (anche se chi l'ha fatto non aveva nozione delle proprieta' dell'oggetto). Da queste considerazioni Putnam deduce anche un'altra importante conclusione: se possiamo definire una parola unicamente sulla base del suo stereotipo, ne consegue che, qualunque cosa esso sia, il significato di quella parola non e' nella nostra mente: i significati non sono nella mente, ma nel mondo.

Il tentativo principale di far coesistere tradizione razionalista e anti-razionalista si avra' con la semantica situazionista di John Barwise (1983), che, ispirandosi al realismo ecologico di Gibson e Putnam, sostituisce ai mondi possibili della logica intensionale di Montague le "situazioni".

La Linguistica Computazionale

L'analisi del linguaggio utilizza generalmente un approccio composizionale: la comprensione di un discorso e' funzione della comprensione delle sue frasi la quale e' funzione della comprensione delle loro parole.

L'elemento primitivo e' in realta' la frase, la cui sintassi puo' essere analizzata da un processo di "parsing" per "riconoscere" i suoi costituenti. Il risultato del parsing e' una struttura dati, il "phrase marker", rappresentato sotto forma di un albero di parse che descrive graficamente come la frase e' stata decomposta nei suoi costituenti. Esistono numerosi algoritmi di riconoscimento, ovvero di parser. Le strutture portanti del processo di parse sono le reti di transizioni (transition network) che possono essere ricorsive (RTN) e aumentate (ATN). Furono infatti le ATN, inventate nel 1970 da William Woods, a rendere computazionalmente trattabile la grammatica trasformazionale di Chomsky.

Una rete di transizione e' un grafo in cui ogni nodo rappresenta un possibile stato di una macchina a stati finiti e ogni arco rappresenta la transizione da uno stato a un altro stato: ogni frase del linguaggio corrisponde a un possibile percorso del grafo, ovvero al passaggio da uno stato iniziale a uno stato finale attraverso un numero finito di stati intermedi. Ogni stato equivale a compiere un'operazione sull'albero di parse. Alla fine del percorso l'albero risulta costruito. Una rete di transizione deve ammettere ricorsivita', poiche' i linguaggi sono ricorsivi: in una RTN un nodo puo' allora rimandare a se stesso in maniera iterativa. Una RTN e' equivalente a una grammatica non-contestuale. Una ATN e' una RTN "aumentata" con dei registri per contenere risultati parziali e con delle "trasformazioni" che specificano le procedure da compiere durante il passaggio da un nodo ad un altro.

Con il programma LUNAR (1972) di Woods, che rispondeva a domande sulle rocce lunari prelevate dalla missione Apollo, ebbe origine l'era moderna dei programmi di elaborazione del linguaggio naturale. Ogni domanda viene tradotta in un linguaggio formale intermedio che e' un'estensione della logica dei predicati del primo ordine. Le espressioni logiche cosi' costruite vengono poi interpretate secondo una "semantica procedurale" che associa a ciascuna espressione una procedura. La procedura consiste nella consultazione del database e quindi nella formulazione della risposta. Anche il programma SHRDLU (1972) di Terry Winograd, che era in grado di comprendere domande e comandi su come disporre sul tavolo un gruppo di solidi geometrici, si serviva di una ATN, di un linguaggio intermedio e di una semantica procedurale.

Con i programmi di Schank, che tentano di ricondurre il testo in esame a qualche script noto, ebbe invece origine un altro paradigma, in cui sintassi e semantica sono strettamente accoppiate. Comprendere il testo significa identificare lo script corretto e poi trovare nel testo i parametri che servono a riempire tutte le variabili di tale script. Il programma deve prima capire di trovarsi in una certa "situazione" e poi stabilire cosa puo' succedere in quella situazione. Il processo di parse di un simile programma viene detto "expectation-driven" (Chris Riesbeck, 1974). Per esempio, capito che si tratta di "mangiare", ci si aspetta che vengano citati il mangiante e il mangiato. Il processo di parse guidato dalla semantica conferisce preminenza alla comprensione della frase nella sua globalita'. In questo senso un parser semantico e' in grado di comprendere la frase anche in presensa di errori sintattici o in mancanza di informazione.

Gia' Frege metteva in guardia che il significato di una parola non puo' prescindere dal contesto dell'intera frase: la semantica esamina pertanto (almeno) l'intera frase e non le singole parole.

L'analisi semantica tratta i fenomeni linguistici che costituiscono delle "ambiguita'", come le anafore (per esempio i pronomi) e le ellissi (per esempio i frammneti di frase), parti del discorso cioe' che fanno riferimento a entita' definite in una parte precedente del discorso. Per esempio, Winograd (1972) stilo' alcune regole euristiche per trovare gli antecedenti dell'anafora; Rieger (1974) defini' classi di inferenza per trovare tali antecedenti; Rachel Reichman (1978) introdusse il concetto di "spazio di contesto" e di gerarchia di "fuochi" al suo interno per limitare il numero di frasi che possono essere pronominalizzate; Bonnie Webber (1978) defini' classi di vincoli che limitano il numero di frasi possibili in un discorso coerente; Candace Sidner (1982) elaboro' una teoria delle regole sintattiche, semantiche, euristiche e di coerenza che possono consentire di calcolare il "fuoco" della frase e pertanto limitare il numero di parole candidate per la risoluzione di un'anafora; infine la stessa Webber nel 1982 esamino' il problema dalla prospettiva opposta: data una frase, quali possibilita' essa offre per anafore nelle frasi future?

Il programma della semantica e' in gran parte ancora incompleto. Esistono numerose forme del linguaggio comune, comprensibili facilmente dall'uomo della strada, che ancora eludono un trattamento formale. L'insieme di queste espressioni, delle quali non si come rendere conto, costituisce in un certo senso il dominio empirico della semantica: le interpretazioni multiple ("l'amico dello scrittore CHE si chiama Piero", "tre ragazzi hanno mangiato una pizza"), i dimostrativi ("Quando i milanesi vanno in vacanza LA citta' e' deserta"), gli "entailment", le presupposizioni. L'entailment occorre quando una proposizione e' la conseguenza logica di un'altra proposizione. Una presupposizione e' una proposizione che e' implicita in certe altre frasi: "Questo e' il terzo libro di Piero Scaruffi", vera o falsa che sia, presuppone la proposizione "Piero Scaruffi scrive libri"; e anche la sua negazione "Questo non e' il terzo libro di Piero Scaruffi" presupporrebbe quella stessa proposizione. "Questo e' un libro" e' invece un entailment.

Dal punto di vista computazionale i parse guidati dalla semantica consentono di ridurre in maniera sostanziale il numero di possibili percorsi. La sintassi di un linguaggio naturale consente infatti molte piu' cose di quante ne consenta la sua semantica. La semantica restringe il discorso a un sotto-insieme di tutte le frasi possibili, sia perche' esclude alcune frasi che non hanno significato sia perche' limita ulteriormente le frasi possibili in base al contesto in cui sono situate.

Fra i programmi di parse (o "parser") piu' influenti realizzati dalla linguistica computazionale vanno citati almeno quello di Mitchell Marcus (1977), che e' il piu' famoso parser trasformazionale, il "Word Expert Parser" di Steven Small e Chuck Rieger (1977), il DIAGRAM di Jane Robinson (1982). Il modello del "word expert" e' un modello distribuito che assomiglia a quelli connessionisti: ogni parola del lessico funge da agente di parse che partecipa con tanti altri agenti di parse ad analizzare la frase, e il significato della parola e' il risultato di questa interazione con le altre parole.

La Pragmatica

Secondo la "Teoria dei Segni" di Morris esistono tre livelli di comprensione del linguaggio naturale: la sintassi, la semantica, la pragmatica. La pragmatica ha lo scopo di capire l'"intenzione" di un discorso. Se la semantica si limita alla comprensione della singola frase, o di un gruppo di frasi, la pragmatica deve comprendere anche "perche'" il parlante ha usato quella frase o quel gruppo di frasi, qual'e' il suo movente e quale il suo fine. Per esempio, la domanda "sai che ore sono?" ha un'interpretazione semantica molto elementare, ma quell'interpretazione semantica non aiuterebbe a fornire una risposta sensata se la pragmatica non interpretasse anche il fine che quella domanda si pone.

Barbara Grosz (1977) ha isolato due concetti fondamentali che sono necessari ad un'analisi pragmatica del discorso: il "fuoco" (il punto su cui il discorso sta tentando di concentrarsi) e il "goal" (l'obiettivo che il discorso di prefigge). Questi due fattori renderebbero conto delle capacita' dialettiche di un agente razionale. Per l'esattezza Grosz ha distinto la struttura intenzionale del discorso, che descrive le relazioni fra il goal del discorso e il goal delle singole frasi, i quali sono messi in relazione fra di loro da opportune gerarchie, la struttura attenzionale del discorso, che descrive la dinamica del fuoco.

Il compito dell'agente e' di costruire un discorso sotto forma di un piano di un numero finito di utterance che porti a raggiungere il suo obiettivo. L'agente ragiona sulla base di alcune convenzioni per costruire piani (per esempio, le massime di Grice) e sulle sue convinzioni. La convinzione e' l'insieme di fatti di cui e' a conoscenza e sulla base dei quali interpreta o genera il discorso. (Per esempio, la convinzione e' cio' che stabilisce la differenza fra una bugia e uno sbaglio: se una mia affermazione e' falsa, ma io la credo, ho soltanto commesso uno sbaglio).

La pragmatica si occupa in pratica di fenomeni come le espressioni "indexicali" ("qui", "allora", "ieri") e alcune espressioni anaforiche ("lui", "il giorno dopo"); in generale tutte le espressioni per "riferire" le quali e' indispensabile la conoscenza del contesto. Nel suo celebre saggio del 1954 che costitui' uno dei manifesti della linguistica moderna Bar-Hillel asseriva che l'indexicalita' e' una proprieta' intrinseca del linguaggio e che il 90% delle espressioni comunemente utilizzate sono indexicali, ovvero fanno riferimento implicito al parlante, all'ascoltatore, al luogo, al tempo. E' grazie ad esse che e' possibile costruire discorsi in cui una frase segue l'altra con uh fine ben preciso, ed e' grazie ad esse che cio' puo' avvenire con un dispendio minimo di energie.

Il primo passo nell'analisi del discorso consiste nel segmentare il testo in sotto-insiemi di frasi, detti "segmenti". Un segmento e' un insieme di frasi che esibisce "coerenza locale": e' possibile riferire anafore ed ellissi di una frase a frasi precedenti del segmento; esiste una continuita' di luogo e di tempo all' interno del segmento; i soggetti e gli oggetti si conservano nel segmento; le ipotesi su cui si basano le frasi sono le stesse (la "modalita'" del testo non muta). Queste relazioni di coerenza vengono riconosciute da appositi "filtri". Per esempio, il filtro di "referenza" esamina se tutte le referenze di una frase (es: i pronomi) sono riconoscibili all' interno del segmento; oppure il filtro di "tempo" verifica che il tempo di una frase sia congruente con quello della frase precedente ("sono uscito; pioveva" va bene, "sono uscito; piovera'" non va bene); etc.

Dati dei vincoli di questo tipo e' possibile impacchettare le frasi in segmenti. Una volta limitata l' analisi al segmento, e' piu' semplice scoprire le relazioni causali fra le frasi del segmento. Una delle relazioni causali piu' importanti, e piu' studiate, e' quella di "pianificazione": spesso le varie frasi di un segmento costituiscono un piano di azione per raggiungere un certo obiettivo. Si noti che, dal momento in cui viene riconosciuto un piano, esiste anche un filtro di "piano", per stabilire se la frase successiva e' coerente con il piano attuale. In tal modo il piano che e' appena stato identificato dall' analisi delle frasi diventa a sua volta un ausilio all' analisi delle frasi successive.

L' altra relazione cruciale e' quella di fuoco. L' analisi delle frasi genera uno spazio dei fuochi di attenzione (fuoco), e si tratta di far convergere questo spazio. E' l' equivalente di prendere in considerazione diverse ipotesi di interpretazione e man mano porre maggiore o minore enfasi su questa o quella.

L' analisi dei segmenti assegna ad ogni segmento una lista di proprieta' strutturali. Per esempio, ne riconosce il "tipo": descrizione, storia, etc. I segmenti vanno poi a loro volta collegati tramite relazioni di coerenza fra le loro proprieta' strutturali. Per esempio, una relazione alquanto comune e' quella di "inclusione": il contesto e l' informazione di un segmento sono un sopra-insieme del contesto e dell' informazione di un segmento precedente (il secondo segmento aggiunge dei "dettagli"). Oppure la relazione di "ordinamento", in cui un primo segmento definisce il contesto che e' necessario per il verificarsi del secondo segmento. E cosi' via.

Si tratta, naturalmente, di decidere quali sono le relazioni che possono sussistere fra segmenti. Se il loro numero e' finito, e ragionevole dal punto di vista computazionale, questo approccio potra' portare a un riconoscimento accurato dello svolgimento del discorso. Jerry Hobbs nel 1979 ha tentato di definire una "grammatica di discorso" per i segmenti analoga a quella che si utilizza per riconoscere le frasi.

La scuola piu' importante nel campo dell' analisi del discorso e' quella che si ispira alla pianificazione, ovvero che si rifa' alla teoria di Austin e Searle. In questo caso si definisce il discorso come una forma di comunicazione fra due agenti: speaker e listener. Il primo vuole riprodurre un proprio stato mentale nell' altro. Per far cio' si costruisce un "modello" dello stato mentale dell' altro, e poi pianifica una sequenza di frasi. Ogni frase ha il compito di far compiere al listener una transizione di stato mentale. La sequenza e' studiata in maniera tale che il suo effetto sia quello di far compiere al listener una serie di transizioni dal suo stato mentale originario a quello desiderato. Comunemente si dice che il listener deve "ricostruire" lo stato mentale.

Da presupposti analoghi, ma da una prospettiva speculare, muovono anche le teorie sulla costruzione del discorso di David McDonald (1980), che considera il discorso come un messaggio codificato secondo un piano di azioni, e di Katherine McKeown, secondo cui la strategia del discorso viene generata da una combinazione di regole, quelle che comunemente si chiamano "tecniche di retorica".

Purtroppo questo tipo di pianificazione non si riduce a un semplice "calcolo" della sequenza di frasi. Il listener deve collaborare. Il listener deve "interpretare" queste frasi, e deve interpretarle proprio in termini di "transizioni di stato" per riuscire a capire cosa lo speaker voglia conseguire.

La comprensione del discorso diventa pertanto una forma di inferenza: inferire quale piano lo speaker stia seguendo. Da questo si potra' inferire poi quale sia lo stato mentale che e' oggetto del discorso. Il problema e' l' esatto opposto di quello del pianificazione: invece che costruire un piano, occorre capire quale e' il piano in corso di esecuzione.

Si noti che in questo modo il listener puo' anche rispondere correttamente agli "indirect speech act", a quelle domande, per esempio, che vogliono dire piu' di quanto sia scritto nelle parole che le compongono. A fronte della domanda "Sai che ore sono ?" il listener deve inferire che il piano consiste nello scoprire che ore sono (e non nello scoprire se il listener sa che ore sono!) e pertanto la risposta corretta e' "le 5 e 30" (e non un semplice "si'"!).

Philip Cohen (1978), Raymond Perrault (1978) e James Allen (1979) hanno elaborato tecniche per "inferire" piani che sono basate sul ribaltamento delle tecniche dei sistemi di pianificazione. Particolare attenzione e' stata prestata alle espressioni come "comunque", "cioe'", "poiche'" e cosi' via, che fungono da indizi su cio' che verra' dopo.

Il fatto cruciale non e' tanto l'algoritmo di inferenza, quanto riuscire a capire quale sia l'unita' elementare del discorso che puo' essere associata ad un operatore di transizione. La singola frase contiene spesso troppa poca informazione per supporre che il listener passi da uno stato mentale ad un altro soltanto grazie ad essa. Si assume che una unita' di discorso debba esibire perlomeno la proprieta' di coerenza: se un insieme di frasi e' coerente, allora e' possibile interpretarla come l' operatore di un piano.

Altre teorie (Rachel Reichman, 1987) prevedono di definire un "contesto" nel quale le frasi possono essere interpretate come mosse "conversazionali", oppure, come quella di Lidia Polanyi (1984), di costruire un "parser di discorso" che partiziona il discorso nelle sue componenti linguistiche e sociali (scherzi, storie, domande, risposte, etc.).

Nel 1975 Chuck Rieger propose un'inferenza sul testo basata sulla ricerca di intersezioni fra "catene causali". Riprendendo idee della dipendenza concettuale, una frase viene rappresentata sotto forma di un albero che si sviluppa in tutte le direzioni in cui e' possibile propagare dell'informazione. La catena causale viene generata tramite una classe di inferenze, che vengono applicate ricorsivamente. Se gli alberi di due frasi si intersecano, quell'intersezione rappresenta un percorso che porta dal vertice dell'una al vertice dell'altra. Quel percorso mette in relazione "causale" le azioni descritte dalle due frasi.

La Visione

Da quando, nel 1960, il primo robot, "The Hopkins' Beast", inizio' a scorazzare per i corridoi dell'universita' alla disperata ricerca di prese della corrente con cui ricaricare le proprie batterie, fedele al principio che l'istinto fondamentale e' quello della sopravvivenza, le ricerche dell'Intelligenza Artificiale relative alla percezione si sono concentrate soprattutto sulla vista. Per convogliare al computer i segnali relativi alla vista (cosi' come quelli relativi al tatto e all'udito) occorre che la macchina sia dotata di un sistema di "sensori" e che tali sensori traducano ogni percezione in una stringa binaria. Se e' piu' o meno chiaro come possano essere costruiti tali sensori (una banale telecamera costituisce un sistema visivo), non e' chiaro come la percezione bi-dimensionale del mondo venga poi rappresentata internamente e come da tale rappresentazione sia possibile capire che quell'insieme di punti colorati (o di "pixel") rappresenta una scena con certi oggetti, e come poi da un insieme di percezioni sia possibile capire che si tratta di una scena in movimento.

Il problema centrale della visione e' pertanto quello di "riconoscere" cio' che si vede. Il sistema visivo umano riesce in qualche modo a capire che un piano di punti colorati e' un insieme di oggetti tri-dimensionali, li separa, li identifica uno per uno, di ognuno comprende il ruolo, la posizione relativa, i dati salienti (per esempio, la distanza approssimativa a cui si trova).

Non e' neppure chiaro cosa si intenda per "oggetto", poiche' l'immagine nel suo complesso e' un oggetto, e ogni sua parte puo' essere decomposta in dettagli sempre piu' minuti che sono a loro volta oggetti. Si pensi all' immagine di un' automobile: a quale grado di dettaglio bisogna arrivare per poter dire di aver "inferito gli oggetti che compongono l' immagine" ? Basta aver capito che si tratta di un'automobile? O bisogna anche capire che ci sono ruote, cofano, sedili, volante? Bisogna addirittura riconoscere il clacson e i cerchioni delle ruote? Bisogna giungere ai bulloni?

La teoria computazionale del sistema visivo viene detta "visione". A fondarla scientificamente e' stato David Marr nel 1982.

Se un'immagine viene percepita come una "matrice" di pixel, e' da tale matrice che occorre estrarre le sue "feature": l'illuminazione, il colore, la profondita' e l'orientazione. E' dalla distribuzione di queste feature che e' possibile distinguere le varie regioni dell'immagine: il confine fra due regioni e' dato dal luogo geometrico in cui le feature cambiano bruscamente valore. Una volta estratte le feature e segmentata l'immagine, occorre riconoscere ogni regione come uno specifico oggetto. Naturalmente a questo punto e' necessario non solo assegnare una sintassi e una semantica alle regioni dell'immagine, ma anche trasformare la proiezione bi-dimensionale del mondo tri-dimensionale.

Nel 1958 Broadbent espresse uno dei principi fondamentali della visione, simile a quello di focus nel linguaggio naturale: in ogni istante esistono dei focus anche per la vista, esiste cioe' un'"attenzione" (attention) particolare per un qualche componente dell'immagine. L'attenzione ha un preciso scopo biologico: serve a ridurre la quantita' di informazioni necessaria per comprendere l'immagine e, in ultima analisi, a proteggere la capienza limitata del cervello. Un'immagine porta infatti potenzialmente un numero infinito di informazioni. In questo caso la plausibilita' fisiologica e l'efficienza computazionale coincidono.

Helmholz fu il primo, nel 1866, a proporre un modello di come la mente possa estrarre significato dalla percezione visiva. Helmholz suppone che la mente sia un insieme di ipotesi e che la percezione consista nel selezionare quella giusta. Il modo in cui si forma il significato delle immagini e' del tutto analogo a quello in cui si apprende il significato di una parola: come associando ripetutamente una parola e un certo tipo di oggetti si finisce per associare a quella parola il "significato" di riguardare quel tipo di oggetti, cosi' recependo frequentemente una certa caratteristica (una forma, per esempio) si viene formando in maniera induttiva il concetto di quella caratteristica (di quella forma). A tutti gli effetti sia il linguaggio sia le immagini costituiscono un codice di segni. E' l'esperienza, a sua volta, a guidare la comprensione delle percezioni: una percezione viene compresa sulla base delle percezioni del passato.

Estendendo le idee di Helmholz si possono applicare alla visione tanto i concetti schankiani di elaborazione "expectation-driven" quanto i concetti bartlettiani di schemata. Una scena viene compresa sulla base dello schemata relativo esattamente come nel caso del linguaggio, e lo schemata aiuta a "prevedere" le scene successive. Esiste pertanto una libreria di "modelli" di oggetti, dalla quale si tenta di reperire quelli utili per comprendere la scena attuale.

La teoria di Helmholz e' anche la piu' vicina alla semiotica. Puo', per esempio, essere utilizzata per spiegare tanto la psicologia della musica quanto la comprensione dei film. Entrambe queste arti utilizzano un sistema di comunicazione assai sofisticato, che il consumatore riesce a capire meglio quanto piu' le conosce. Molti "segni" del cinema sono diventati del tutto intuitivi per lo spettatore medio (uno sperone viene subito associato a un film western, una dissolvenza viene associata a un cambiamento di tempo, e cosi' via), anche se ovviamente non lo erano quando l'arte venne inventata.

L'obiettivo finale della visione e' di rispondere al quesito posto da Gibson nel 1966: se il mondo cambia continuamente e cosi' le sensazioni visive che esso suscita in noi, com'e' possibile che la nostra percezione del mondo quotidiano sia invece costante? Il problema e' cioe' come sia possibile estrarre dall'informazione sensoriale quelle proprieta' del mondo che si conservano indipendentemente dal cambiamento continuo del mondo. Devono esistere delle invarianti che rappresentano l'informazione su quelle caratteristiche del mondo che permangono. Il cervello riesce a individuare le invarianti dal cambiamento delle sensazioni. La funzione del cervello sembra essere allora non quella di decodificare messaggi, ma quella di estrarre informazione sull'ambiente dal flusso continuo di sensazioni. In qualche modo il cervello entra in uno stato di "risonanza" con quelle invarianti. Le invarianti a loro volta sono frutto dell'evoluzione darwiniana e riflettono quali aspetti dell'ambiente l'organismo necessiti percepire per sopravvivere: cosi' le rane di Maturana vedono soltanto gli insetti di cui si cibano. Gibson battezzo' questo fenomeno "ottica ecologica". La teoria di Gibson si situa pertanto all'estremo opposto di quella di Helmholz, supponendo una acquisizione passiva di stimoli da parte del sistema visivo laddove Helmholz supponeva una ricerca attiva di ipotesi coerenti.

[Indietro]-[Avanti]