ARCHIVI DI FORMULE MATEMATICHE


Alberto Marini CNR IAMI

(19980521, volto affrettatamente in HTML da una relazione del giugno 1996)


:2: LA PROPOSTA DEGLI ARCHIVI DI FORMULE

.2.1. Motivazioni

Gran parte dei settori scientifici, industriali e professionali, per merito delle elevate prestazioni degli attuali sistemi informatici e telematici, trovano molto vantaggioso raccogliere grandi quantità di dati di loro interesse in archivi gestiti con il computer. In genere una tale azione comporta considerevoli vantaggi, spesso determinanti, ma anche oneri talora tutt'altro che trascurabili: vediamoli schematicamente.

Un bilancio tra vantaggi e oneri di un archivio computerizzato è in genere favorevole ai primi, ed in misura maggiore quando si verificano circostanze come le seguenti:

Di fronte ad una tale favorevole situazione in numerosi e svariati settori l'utilizzo di archivi informatizzati si è rivelato molto conveniente. Quindi, in sintonia con i vistosi progressi dell'hardware disponibile, nonché con i netti miglioramenti nelle tecniche di produzione del software ed i conseguenti abbassamenti dei prezzi della strumentazione, in questi anni si riscontra una tendenza quasi generale verso l'adozione di archivi informatizzati. Inoltre si hanno fondate previsioni sul perdurare di una crescita molto sostenuta degli strumenti informatici, previsioni motivate soprattutto dalle prospettive dell'hardware: in particolare è stato previsto quasi fino alla pianificazione un raddoppio annuale della complessità dei circuiti integrati per i prossimi quindici anni. Ciò costituisce uno stimolo a proporre sistemi di archiviazione informatizzata ambiziosi ed impegnativi. In effetti si può essere fiduciosi nel supporto della tecnologia, mentre i tempi di realizzazione degli archivi più ambiziosi non possono essere brevi, soprattutto in quanto condizionati dai tempi di assimilazione delle modalità di adattamento ai nuovi sistemi da parte di ampi gruppi di operatori.

È naturale pensare a banche di dati anche per i risultati conseguiti in matematica. Riprendiamo le precedenti considerazioni generali sulle circostanze (a)-(e) nel caso della matematica.

(a) Negli ultimi decenni nel campo della ricerca matematica si è conseguita una vasta gamma di risultati, che per il loro valore (affidabilità al massimo livello e potenziale incisività nei confronti delle applicazioni) è opportuno rendere facilmente accessibili.

(b) Attualmente il maggior numero delle richieste di risultati matematici giunge semplicemente dal mondo della didattica e dagli sviluppatori dei sistemi di calcolo maggiormente richiesti dai settori applicativi; ne consegue che solo ad una minima parte dei risultati della ricerca matematica si collega una domanda esplicita. Peraltro bisogna tenere in considerazione la crescente e capillare diffusione dei computers (ne sono stati prodotti cinquanta milioni nel 1994). Questo è un elemento a favore dell'aumento di interesse per i risultati ottenuti dalla ricerca, nonché di un'applicazione sempre maggiore della stessa matematica. Ma perché queste crescite possano realizzarsi, sembra opportuno un miglioramento dell'offerta da parte del mondo matematico, al fine di rendere più possibile agevole il reperimento di metodi e strumenti disponibili per affrontare problemi specifici. Siamo convinti che la disponibilità di archivi computerizzati potrebbe fornire rilevanti contributi. A sostegno di questa convinzione si può ricordare il successo di prodotti atti ad agevolare calcoli di largo spettro (Maple, Mathematica, ...).

(c) La raccolta di risultati matematici solitamente risulta poco onerosa poiché essi, in gran parte, sono presentati in pubblicazioni caratterizzate da elevata chiarezza espositiva, nonostante la specializzazione delle tematiche. Solo in pochi settori applicativi tale lavoro può rivelarsi arduo, in quanto i committenti di talune ricerche impongono atteggiamenti di segretezza che costituiscono un naturale impedimento al reperimento di risultati applicabili.

(d) Il lavoro di unificazione e di adattamento agli strumenti informatici dei risultati, quando riguarda aree limitate, in genere non richiede un grande impegno; quando invece si vogliono uniformare aree notevolmente estese, il lavoro può rivelarsi molto oneroso, possono essere richieste competenze multiple e può rendersi necessario chiarire collegamenti che finiscono con il costituire essi stessi oggetti di ricerca.

(e) Per giudicare l'adeguatezza delle tecniche elaborative da adottare occorre precisare cosa si vuole ottenere dalla manipolazione di nozioni matematiche mediante strumenti informatici. Questa problematica ci sembra decisamente aperta. Si può comunque pretendere che un sistema per la gestione di archivi di risultati matematici:

Per procedere nella messa a punto di archivi di formule, oltre che disporre di strumenti di buona potenza, ormai ampiamente diffusi, è necessario padroneggiare tecniche sofisticate, come la manipolazione simbolica ed algebrica e la dimostrazione automatica di teoremi. Questi strumenti solo negli ultimi tempi si sono resi disponibili, in una forma più che prototipale e al di fuori di ristretti ambienti di ricerca. Un lavoro di archiviazione secondo le modalità prospettate si può sviluppare fin d'ora su una piattaforma adeguata ma non può avere un esteso sviluppo in tempi brevi.

.2.2. Caratteristiche generali

Cerchiamo ora di delineare i criteri su cui fondare l'organizzazione di archivi di formule matematiche che possano toccare un'ampia gamma di argomenti. Innanzi tutto occorre essere in grado di trattare un gran numero di enti matematici, anche molto diversificati e più astratti di quelli riconducibili ai tipi numerico e booleano. Osserviamo che per questi ultimi tipi di dati da tempo si hanno a disposizione efficienti linguaggi procedurali ed ora anche sistemi per l'elaborazione simbolica. Nel sistema proposto non si sono sviluppate ambizioni elaborative, la cui messa a punto richiede studi specifici, ma ci si è limitati, per esigenze di generalità, a disporre di raccolte di informazioni consultabili, il più possibile estese ed alla elaborazione di programmi per la determinazione di indici. Più precisamente si costruiscono elenchi dei termini attribuiti alle entità matamatiche introdotte ed elenchi dei simboli utilizzati per le entità che intervengono nelle formule stesse. Tali indici costituiscono uno strumento che può facilitare sensibilmente la ricerca di una definizione o di un collegamento fra entità matematiche; inoltre possono essere sia uno stimolo che un aiuto nella unificazione delle notazioni. Gli archivi matematici trattati si compongono essenzialmente di formule per le quali si richiede un potenziale espressivo che limitato soltanto da un criterio di non ambiguità; ovviamente si richiede che esso riguardi non solo l'archiviazione ed il reperimento, ma anche meccanismi elaborativi che sucessivamente possano agganciarsi a tali formule. Queste formule matematiche devono essere registrate in una forma che soddisfi le esigenze di trattamento automatico e che quindi chiamiamo {\sl forma di trattamento}. è necessaria anche una forma di visualizzazione delle formule su video o stampante, detta {\sl forma di presentazione}; qui però ci limiteremo ad accennarla.

Nella forma di trattamento, una formula si deve presentare come stringa; su una tale sequenza di caratteri, infatti, si può pensare di agire con tecniche simili a quelle del text processing e del parsing.

Le formule che proponiamo vengono denominate {\sl parsable mathematical formulae}; in italiano questo termine potrebbe tradursi con {\sl formule matematiche parsabili} oppure con {\sl formule matematiche analizzabili}. Purtroppo la prima espressione non può essere gradita ad un purista e la seconda è eccessivamente vaga. Potremmo anche chiamarle {\sl retrievable mathematical formulae}, formule matematiche reperibili mediante automatismi, in modo da sottolineare il fatto che sulle raccolte di formule si può operare con obiettivi e tecniche simili a quelle disponibili nei sistemi di information retrieval. Nel seguito per le formule che ci interessano useremo spesso il termine artificiale {\it pm-formule}.

Nel determinare formule che siano sottoponibili a parsing e che siano in grado di presentare in modo significativo su carta o su schermo molteplici risultati della matematica, si incontrano varie possibilità di conflitto. Per il linguaggio delle formule, in linea generale si è scelto di adottare un numero elevato di simboli atomici ed una sintassi altamente articolata e differenziata. In questo modo si possono meglio tenere sotto controllo le ambiguità espressive ed i conflitti che si possono manifestare nelle operazioni di individuazione di una struttura per le formule. %(parsing). Si sono inoltre adottati accorgimenti che permettono di determinare l'esposizione di un argomento matematico sfaccettato e di ampia portata procedendo per successivi ampliamenti ed aggiustamenti. La redazione di elenchi di formule deve potersi sviluppare con elevata flessibilità e si devono utilizzare procedure che facilitino le operazioni di ridefinizione dei simboli nelle fasi di adeguamento ad atteggiamenti modificati. Le raccolte di formule finora messe a punto hanno portato a definire il già accennato repertorio di circa 1500 entità simboliche elementari che chiamiamo pm-segni. In particolare si è rivelato sostanzialmente indispensabile utilizzare più serie di pm-segni con ruoli paralleli e variati nell'aspetto: queste serie ricordano per alcuni aspetti le diverse fonti tipografiche.

Inoltre si va definendo una sintassi che consenta processi di parsing per il controllo della correttezza sintattica e della coerenza lessicale delle formule e che consenta di organizzarle in memoria con una struttura di archivio che apra la possibilità della loro consultazione interattiva efficiente e flessibile.

Nel lavoro di definizione degli archivi sono stati dunque adottati i seguenti criteri:

Possiamo prevedere, che sui files matematici messi a punto, si possano condurre indagini finalizzate a due tipi di indicatori per le nozioni:

Tali enumerazioni potrebbero venire anche pesate in base alla importanza dei risultati ottenuti, oppure circoscritte a determinati ambiti, in modo da relativizzare le valutazioni. Prestazioni collegate a quest'ultima sono la segnalazione di carenze nelle nozioni matematiche archiviate ed il riconoscimento di analogie formali tra risultati diversi. Da queste segnalazioni è pensabile si possano ricavare suggerimenti di completamenti, generalizzazioni, astrazioni e varianti. Peraltro occorre dire che per queste prestazioni sono necessari algoritmi di riconoscimento di analogie tra configurazioni simboliche prevedibilmente molto complessi.

.2.3. ~Attività ed elaborazioni prevedibili

Vediamo ora, sulla base dalle esperienze fatte, cosa si deve fare per realizzare un archivio di formule matematiche.

È necessario definire in maniera esauriente le caratteristiche dei pm-segni, sia sul piano sintattico che su quello tipografico, e precisare le loro rappresentazioni nelle due forme di trattamento e di presentazione. Quando si affronta la redazione di nuovi archivi, spesso diventa necessario modificare alcuni pm-segni già in uso e, soprattutto, di introdurne di nuovi. Vanno poi definite, per ciascun argomento matematico da trattare, le formule che esprimono le definizioni e le relazioni degli enti matematici in gioco. Tali formule vengono organizzate in sequenze registrate su uno o più files nel rispetto di regole sintattiche ben definite. Per la semantica, invece, si chiede di seguire solo un criterio di {\it v-precedenza}: ogni costrutto lessicale in una formula {\sl F} deve essere definito nella stessa {\sl F} o essere già stato introdotto in altre formule già usufruibili, %disponibili, cioè formule che non contengano elementi per la cui definizione si debba ricorrere alla {\sl F}. La v-precedenza '' è sicuramente rispettata se ogni elemento presente in una formula {\sl F} e non definito in essa, viene precisato nello stesso file in una formula precedente, od in una formula presente in un file da considerare precedente a quello in corso di redazione.

Da questa regola nasce un criterio di completezza di un archivio di pm-formule: esso richiede che per ogni formula riguardante un aspetto matematico che sia opportuno considerare non elementare e non basilare, si deve essere in grado di disporre delle definizioni di ogni entità e di ogni costruzione che essa utilizza. Nella disposizione sequenziale delle formule, però, è opportuno non farsi vincolare eccessivamente dalla precedente richiesta: si considera quindi lecito posporre nozioni logicamente preliminari a quelle considerate se risulta più conveniente accostarle a nozioni di significato similare.

Per presentare in modo completo una qualsiasi nozione è evidentemente necessaria la disponibilità di un cospicuo numero di definizioni preliminari. Dobbiamo quindi disporre, nel presentare un argomento matematico di ampia consistenza, di estese raccolte di formule relative a nozioni tendenzialmente meno ricche e più generali. In effetti l'attività di archiviazione di risultati matematici utilizzando le pm-formule ha senso solo se riesce a rendere disponibili raccolte di formule sistematiche ed esaurienti.

Attualmente le raccolte di formule possono essere redatte solo a partire da files sequenziali simbolici. Per questi si suggerisce l'utilizzo dell'estensione \ps\ e si adotta il nome di {\it files di tipo \ps}. Ogni pm-segno presente in questi files è rappresentato da uno, due, tre, quattro o cinque caratteri ASCII di base; questa codifica determina la rappresentazione dei pm-segni, delle pm-formule e dei pm-files denominata {\it rappresentazione ASCII} o {\it rappresentazione primaria}.

Attualmente a partire da un qualsiasi file \ps\ si possono ottenere presentazioni a stampa mediante l'utilizzo del sistema \TeX. Si intendono poi mettere a punto programmi che presentino le formule su schermo a pixel. Per la presentazione a stampa il file \ps\ viene trasformato in un file contenente le richieste di stampa, espresse nel linguaggio \TeX. Tale prestazione si basa quasi esclusivamente sopra una tabella di conversione che alla rappresentazione ASCII di ogni pm-segno fa corrispondere una opportuna macro \TeX.

Un notevole vantaggio delle raccolte di pm-formule consiste nel poter chiedere al computer prestazioni che rendano molto più facile la gestione delle formule stesse. Alcuni strumenti con questi scopi erano stati messa a punto per operare sui files matematici mediante un minicomputer più di 10 anni fa; attualmente sono in corso di sviluppo programmi, in parte ripresi dai sopra accennati, rivolti all'utilizzo delle attuali workstations e dei correnti modelli di personal computer.


In questo contesto ci limitiamo a dare una rapida visione delle prestazioni già implementate nel programma \FS\ ed alle previsioni future la cui disponibilità può risultare più vantaggiosa.

Una prima attività riguarda il controllo della correttezza dei files. Si preoccupa sia della sintassi delle singole formule che della loro coerenza, della loro completezza, e della mancanza di ambiguità delle definizioni che vi compaiono. Le regole che governano la struttura delle formule e del complesso dei files risultano abbastanza complesse in quanto in numero elevato, risulta quindi necessario procedere per gradi sviluppando programmi che controllino la non violazione di una parte sempre più estesa di queste regole. Ciò di cui noi disponiamo è una esposizione parziale di queste regole, non possiamo garantire ancora la sua completezza: si pensa di arrivare alle regole complete in modo sostanzialmente empirico, cioè procedendo migliorando ed ampliando programmi come \FS\. Sono a disposizione, inoltre programmi che sono un valido strumento per la precisazione dei files attraverso i quali si definiscono gli schemi che esprimono le suddette regole.