Questo manuale è progettato e scritto per gli studenti degli insegnamenti di Informatica di base nei Corsi di Laurea di Facoltà umanistiche che necessitano di una introduzione all’informatica, alla telematica e alle loro applicazioni nel campo delle scienze umane.
L’obiettivo principale di questo libro è quello di rendere i suoi lettori utenti consapevoli del calcolatore e dei servizi di Internet, in particolare del Web e dei servizi informativi che la telematica offre a chi abbia interessi di ricerca in campo umanistico.

Elenco delle caratteristiche tipiche di un corpus
Riflessioni sulla rappresentatività dei corpora

Il testo contiene alcune definizioni sulla linguistica dei corpora, qualche accenno storico e i suoi più recenti sviluppi.

Interessante, moderno e innovativo, il volume può considerarsi un’introduzione alla lessicografia computazionale.
Dopo aver presentato il tema della traduzione automatica all’interno del suo contesto disciplinare, l’autore passa in rassegna alcuni modelli descrittivi del funzionamento lessicale della lingua : la grammatica su base semantica di Stanisław Karolak, le classi di oggetti di Gaston Gross, la Teoria Senso-Testo di Igor Mel’čuk, il lessico generativo di James Pustejovsky e la rete semantico-lessicsale WordNet.
Tenendo come punto fermo della sua argomentazione l’Approccio Orientato agli Oggetti nella costruzione dei dizionari-macchina proposto da Wiesław Banyś, lo studioso stabilisce i principali criteri per la scelta dei lemmi in un dizionario-macchina per poi definire compiutamente il suo progetto di sostruzione di nuovo dizionario automatico.

Il volume intende analizzare il rapporto fra l’opera di Verga e il contemporaneo processo di costruzione culturale di una comunità nazionale. In che misura si evolve la rappresentazione verghiana del Risorgimento nelle sue opere? Come cambia l’impegno “risorgimentale” a partire dalle esperienze dirette? Alle indagini letterarie e culturali si affiancherà un’analisi sistematica delle opere di Verga, con l’utilizzo della banca dati testuale LIZ4.

A study about the early ages of "Computing in Humanities" through the importance of Father Busa SJ and his Index Thomisticus Treebank.

Il lessico è fatto di parole. L’unità di base del lessico, tuttavia, non è né la parola, né una sequenza di parole, ma una struttura articolata – di tipo frasale – incentrata su un predicato saturato da classi di oggetti. Questa struttura prende il nome di «impiego predicativo».
Da un lato, lo studio degli impieghi predicativi offre l’accesso a una dimensione di relazioni concettuali depositata nel lessico: una sintassi del lessico.
Dall’altro lato, lo studio degli impieghi predicativi implica il riconoscimento di una dimensione di relazioni formali che trascende il lessico stesso: una sintassi al di là del lessico.
Questo libro propone un’introduzione alla linguistica dal punto di vista della sintassi del lessico. Le nozioni di impiego predicativo e classi di oggetti sono pertinenti non solo per lo studio del lessico, ma anche per l’elaborazione di ontologie funzionali al trattamento automatico del linguaggio naturale, e per la descrizione dell’ontologia della vita quotidiana.
Destinato a studenti, insegnanti e ricercatori in Scienze del linguaggio, Informatica e Filosofia, questo manuale è accessibile anche senza alcuna precedente conoscenza di linguistica.

This paper deals with paraphrastic relations in Italian. In the following sentences: (a) Max strappò delle lacrime a Sara 'Max moved Sara to tears' and (b) Max fece piangere Sara 'Max made Sara cry', the verbs differ syntactically and semantically. Strappare 'tear/rip/wring' is transitive, fare 'have/make' is a causative, and piangere 'cry' is intransitive. Despite this, a translation of (a) as (b) is legitimate and therefore (a) is a paraphrase of (b). In theoretical linguistics this raises an issue concerning the relationship between strappare and fare/piangere in Italian, and that in English between move and make. In computational linguistics, can such paraphrases be obtained automatically? Which apparatus should be deployed? The aim of this paper is to suggest a pathway with which to answer these questions.

This contribution introduces a theoretical-methodological paradigm framed in an interdisciplinary research project at the insersection among law, linguistics and natural language processing, focused on the legislative and regulatory... more

This contribution introduces a theoretical-methodological paradigm framed in an interdisciplinary research project at the insersection among law, linguistics and natural language processing, focused on the legislative and regulatory production of Valle D’Aosta Region.
Main target of the project is the notion of underdetermination, that is the property of juridical utterances to allow language to convey different, alternative interpretations. The experimental methods employed for field survey are illustrated, along with the applications of digital humanities used to devise a descriptive model of phenomenology and linguistic realities of underdetermination.
The final aim of the project is to describe and to track underdetermination in the many different forms it takes in the wide range of the different text typologies featuring the juridical field.

For several years now, computational linguistics has been addressing the problems of and developing technological tools for automatic translation, with its important economic implications. At the same time, projects dedicated to facilitating translations of ancient works, which are often fraught with considerable hermeneutical difficulties, are far rarer. The PTTB system, which was designed and constructed at the Institute for Computational Linguistics (National Research Council) in Pisa, enables a group of about fifty scholars to translate the entire Babylonian Talmud, written in Aramaic and Biblical Hebrew, more quickly and uniformly. While the language and structure of the textual corpus made the development of machine translation algorithms impossible, translation memory and edit distance techniques have produced excellent results. Based on them, the system offers scholars a high percentage of correct translations, accessible through a very intuitive graphic user interface. The results are easily exportable to xml files suitable for the final editing and printing operations. So far, these innovations have made it possible to publish four treatises in six printed volumes with translations, annotations and thematic indexes within a relatively short time. Several other volumes have already been processed and are currently being edited. Various perspectives open up for the use of the digital Talmud in Italian. One of the most interesting options involves using machine learning and named entity recognition techniques to associate semantic or conceptual values (Talmud Ontological Framework) with and make cross-references among portions of the text that report or discuss similar themes. This will help various groups of (general and specialised) users to browse this vast and heterogeneous textual archive on the semantic basis. The strategy adopted here is also aligned with the Dictionnaire des Termes Médico-botaniques de l’Ancien Occitan (DiTMAO), another ongoing lexicographical project. It will enable users to semantically navigate within an extensive medical-pharmaceutical and botanical textual corpus in medieval Occitan. For these reasons, PTTB and DiTMAO can be regarded as two instances of one innovative technological infrastructure for linguistic and philological research in the field of digital humanities.

... word (as in the case of cliticized words, eg dammelo 'give+to_me+it'); ii) the case of more than one orthographic word which make up a single morphological word not otherwise decomposable (as in the case of multi-word expressions such as ad_hoc, al_di_là 'beyond', fino_a ...

Il convegno "Biblioteche digitali di testi latini in Italia. Per un progetto di archivio comune" si propone di illustrare la realtà delle digital humanities applicate ai testi latini in ambiente nazionale e di stimolare lo sviluppo di... more

Il convegno "Biblioteche digitali di testi latini in Italia. Per un progetto di archivio comune" si propone di illustrare la realtà delle digital humanities applicate ai testi latini in ambiente nazionale e di stimolare lo sviluppo di un'infrastruttura comune in grado di integrare le singole realtà esistenti. Comitato organizzativo: Martina Venuti (Università Ca' Foscari di Venezia), Venice Centre for Digital and Public Humanities.

The conference "Biblioteche digitali di testi latini in Italia. Per un progetto di archivio comune" aims to illustrate the reality of digital humanities applied to Latin texts in Italy and to stimulate the development of a common infrastructure able to integrate the single existing realities. Organizing Committee: Martina Venuti (Ca' Foscari University of Venice), Venice Centre for Digital and Public Humanities.

- The paper deals in some detail with the application of example- based machine learning techniques to the task of automatically acquiring semantic information from functionally annotated texts. Special emphasis is placed on the use of “analogical proportions” as a means of ...