University of Twente Student Theses
Toegepast tokenizen voor natuurlijke taal verwerking : automatische analyse van platte en opgemaakte tekst
Klaij, Bastiaan (2005) Toegepast tokenizen voor natuurlijke taal verwerking : automatische analyse van platte en opgemaakte tekst.
PDF
3MB |
Abstract: | In dit verslag zullen we de mogelijkheden behandelen om tekst automatisch te tokenizen, d.w.z. semantische labels toe kennen aan stukjes tekst. We zijn in hoofdzaak geïnteresseerd in het tokenizen van zinnen, namen, titels, lijsten, tabellen en voetteksten in zowel platte als opgemaakte tekst. De opzet is om zo min mogelijk hulpbronnen en taalafhankelijke methodes te gebruiken, zodat het systeem geschikt is als vorm van preprocessing voor andere taken in het domein van Natuurlijke Taal Verwerking. |
Item Type: | Essay (Master) |
Clients: | Carp technologies |
Faculty: | EEMCS: Electrical Engineering, Mathematics and Computer Science |
Subject: | 54 computer science |
Programme: | Interaction Technology MSc (60030) |
Link to this item: | https://purl.utwente.nl/essays/56931 |
Export this item as: | BibTeX EndNote HTML Citation Reference Manager |
Repository Staff Only: item control page