Toegepast tokenizen voor natuurlijke taal verwerking : automatische analyse van platte en opgemaakte tekst
Klaij, Bastiaan (2005)
In dit verslag zullen we de mogelijkheden behandelen om tekst automatisch te tokenizen, d.w.z. semantische labels toe kennen aan stukjes tekst. We zijn in hoofdzaak geïnteresseerd in het tokenizen van zinnen, namen, titels, lijsten, tabellen en voetteksten in zowel platte als opgemaakte tekst. De opzet is om zo min mogelijk hulpbronnen en taalafhankelijke methodes te gebruiken, zodat het systeem geschikt is als vorm van preprocessing voor andere taken in het domein van Natuurlijke Taal Verwerking.
Scriptie_Klaij.pdf