Toegepast tokenizen voor natuurlijke taal verwerking : automatische analyse van platte en opgemaakte tekst

Klaij, Bastiaan (2005) Toegepast tokenizen voor natuurlijke taal verwerking : automatische analyse van platte en opgemaakte tekst.

[img]
Preview
PDF
3MB
Abstract:In dit verslag zullen we de mogelijkheden behandelen om tekst automatisch te tokenizen, d.w.z. semantische labels toe kennen aan stukjes tekst. We zijn in hoofdzaak geïnteresseerd in het tokenizen van zinnen, namen, titels, lijsten, tabellen en voetteksten in zowel platte als opgemaakte tekst. De opzet is om zo min mogelijk hulpbronnen en taalafhankelijke methodes te gebruiken, zodat het systeem geschikt is als vorm van preprocessing voor andere taken in het domein van Natuurlijke Taal Verwerking.
Item Type:Essay (Master)
Clients:
Carp technologies
Faculty:EEMCS: Electrical Engineering, Mathematics and Computer Science
Subject:54 computer science
Programme:Human Media Interaction MSc (60030)
Link to this item:http://purl.utwente.nl/essays/56931
Export this item as:BibTeX
EndNote
HTML Citation
Reference Manager

 

Repository Staff Only: item control page