Building a tree-bank of modern Hebrew text (original) (raw)
2001, … Automatique des Langues
This paper describes the process of building the first tree-bank for Modern Hebrew texts. A major concern in this process is the need for reducing the cost of manual annotation by the use of automatic means. To this end, the joint utility of an automatic morphological analyzer, a probabilistic parser and a small manually annotated tree-bank was explored. An initial tree-bank that consists of 500 annotated sentences from a daily newspaper is described. The annotation scheme that underlies the tree-bank analyses integrates morphology and syntax. An existing morphological analyzer and a language-independent probabilistic parser were applied to this tree-bank. Based on the results of some experiments with these tools, a semi-automatic procedure for future enlargement of the tree-bank is outlined. RSUM. Cet article décrit les différentesétapes dans la construction d'un corpus arboré de l'Hébreu moderne. L'objectif premier viseà la réduction du coût des annotations faitesà la mainà l'aide de moyens automatiques.À cette fin, nous montrons l'utilité de combiner un analyseur morphologique, un analyseur probabiliste et un corpus de référence de taille réduite manuellement annoté. Le corpus initial arboré consiste en 500 phrases annotéesà la main extraites d'un quotidien. Le schéma d'annotation intègre des informations morphologiques et syntaxiques. Un analyseur morphologique et un analyseur syntaxique probabiliste ont eté appliquéesà ce corpus arboré. En fonction des résultats de quelques expérimentations avec ces outils, une procédure semi-automatique est mise au point pour annoter de nouveaux textes.
Sign up for access to the world's latest research.
checkGet notified about relevant papers
checkSave papers to use in your research
checkJoin the discussion with peers
checkTrack your impact
Loading Preview
Sorry, preview is currently unavailable. You can download the paper by clicking the button above.