Apresentação
Autor: Iúri Chaer
O pacote contém uma série de programas para fazer a indexação de corpus de texto em inglês — primeiro usando a técnica tf-idf e depois aplicando a Análise da Semântica Latente — e consultas sobre esses índices. Esses programas foram construídos em C++ e é necessário ter no sistema a biblioteca Boost para poder compilá-los. São também incluídos uma interface em PHP para acessar o servidor de consultas e scripts em Perl para automatizar tarefas de teste e condensar resultados. Algumas das ferramentas são específicas para o tratamento do corpus da Reuters.