Recursos
Esses recursos devem ser extraídos no diretóriodata/
localizado na raíz do repositório.
Recursos próprios:
- Melhor modelo de embeddings: Word2vec skipgram 600dim
- Listas de disfluências pré-definidas: pausas preenchidas e marcadores discursivos
- Modelos de RCNN treinados no córpus Cinderela
- PosTaggers treinados
- Córpus Cinderela (entrar em contato)
- Córpus BALE (entrar em contato)
- Embeddings usadas no paper do STIL (entrar em contato - 120GB de dados)
Recursos externos:
- POS Tagger: nlpnet
- Córpus de Fala: Constituição