Project information
Abstract: 

Information Extraction (IE) is concerned with extracting relevant data from a collection of documents. During the past decade, several IE systems were developed for corpora of (semi-) structured or even unstructured texts. Those systems were trained using annotated corpora. Annotated data, however, are expensive and difficult to obtain in real-life applications. Therefore in this project we focus on the development of IE systems using semi-supervised learning. For this, we use a small (easy to construct manually) amount of annotated data, and a large set of un-annotated data that are easily obtainable.

Abstract Dutch: 

Informatie Extractie (IE) heeft als doel het extraheren van relevante data uit een verzameling documenten. Gedurende de laatste 10 jaar zijn er verschillende IE-systemen ontwikkeld voor corpora bestaande uit (semi-)gestructureerde tot volledig ongestructureerde teksten. Deze systemen werden steeds ontwikkeld op basis van geannoteerde data. Geannoteerde corpora zijn in real-life applicaties echter duur en moeilijk te verkrijgen. Daarom werkt dit project aan het ontwikkelen van IE-systemen door middel van semi-supervised leertechnieken. Hierbij wordt gebruik gemaakt van een kleine (eenvoudig zelf te construeren) hoeveelheid geannoteerde data, en grote verzamelingen niet-geanoteerde gegevens, die gemakkelijk te verkrijgen zijn.

Project Leader(s): 
Walter Daelemans
External Collaborator(s): 

ADRem (University of Antwerp)

Period: 
01/01/2003 - 30/09/2004
Sponsor(s): 

BOF-NOI - University of Antwerp

Syndicate content