Processamento estatístico de linguagem natural Programação PRELIMINAR aula a aula 1 16/6 Apresentação do curso, "natural language and statistics", Introdução NLTK tutorial ch. 1 http://l2r.cs.uiuc.edu/~danr/Teaching/CS497-00/Lectures/1intro.ps http://nltk.sourceforge.net/tutorial/introduction.pdf 2 23/6 fundamentos matemáticos ch. 2 http://l2r.cs.uiuc.edu/%7Edanr/Teaching/CS598-04/Lectures/Lec4-Math.pdf // Fabricio-1 2> http://nltk.sourceforge.net/tutorial/probability.pdf 3 30/6 fundamentos linguísticos ch. 3,4 http://l2r.cs.uiuc.edu/~danr/Teaching/CS497-00/Lectures/2linguistics.ps // Neto-1 http://l2r.cs.uiuc.edu/~danr/Papers/spellJ.ps.gz 4 07/7 colocações ch. 5 http://nlp.stanford.edu/fsnlp/promo/colloc.pdf // Danilo-1 - http://www.d.umn.edu/~tpederse/nsp.html // Cesar-1 (rodou) 5 14/7 n-grams ch. 6 http://l2r.cs.uiuc.edu/%7Edanr/Teaching/CS598-04/Lectures/Lec5-Stat.pdf // Ricardo Marin-1 http://research.microsoft.com/~joshuago/longcombine.pdf http://l2r.cs.uiuc.edu/%7Edanr/Teaching/CS598-04/Papers/Chen-Goodman-smoothing.pdf - http://www.speech.sri.com/projects/srilm/ 6 21/7->4/8 Entropia Máxima (predio foi dedetizado) http://l2r.cs.uiuc.edu/~danr/Teaching/CS497-00/Lectures/7maxent.ps // Fabio Kepler-1 - http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html // Cristian-1 7 28/7 tagging 8> http://nltk.sourceforge.net/tutorial/tagging.pdf // Ricardo Marin-2 (nao rodou o sw. previamente). - daelemans tagging: TiMBL: Tilburg Memory Based Learner; http://ilk.kub.nl/~zavrel/tagtest.html 8 04/8->11 chunk parsing 8> http://nltk.sourceforge.net/tutorial/chunking.pdf // Danilo-2 - http://citeseer.ist.psu.edu/abney91parsing.html ; relacionar com Daelemans // Ricardo Acerbi-1 9 11/8->18 parsing 8> http://nltk.sourceforge.net/tutorial/parsing.pdf // Ricardo Acerbi-2 - http://www-nlp.stanford.edu/downloads/lex-parser.shtml // Neto-2 10 18/8->25 probabilistic parsing ch 11,12 http://l2r.cs.uiuc.edu/%7Edanr/Other-papers/Topics/NLP/Charniak/charniak-parse.ps.gz 8> http://nltk.sourceforge.net/tutorial/pcfg.pdf // Fabio Kepler-2 - inside-outside algorithm for reestimating PCFGs: http://www.cog.brown.edu/~mj/Software.htm 11 25/8 Information Retrieval ch 15 // Cristian-2 - [http://www-2.cs.cmu.edu/~mccallum/bow/ sobre classificacao] 12 01/9 Clustering ch 14 // Fabricio-2 http://l2r.cs.uiuc.edu/%7Edanr/Teaching/CS598-04/Lectures/Lec6-Similarity.pdf - clustering - software gcluto; http://www-users.cs.umn.edu/~karypis/cluto/ instalar e rodar exemplo. Cesar-2 Obs: talvez uma aula sobre alinhamento de textos bilíngues entre no lugar de alguma aula. Livro base: Foundations of Statistical Natural Language Processing. Tarefas: - TODOS: ler o material para a próxima aula, fazer um resumo / transparência de no mínimo uma página para discutí-lo em aula. Peso 1 / link - INDIVIDUAL 1: as experiências com o toolkit serão divididas entre os alunos para apresentação. Peso 8 / experiência, exceto para aula 2 que é peso 2. - INDIVIDUAL 2: fazer a apresentação da aula e moderar a discussão. Peso 4 Nota final: média ponderada dos trabalhos exigidos. Dividir tarefa para novos 4 alunos: 1) rede de markov - capítulo 9 do livro (disponível para download). http://www.cfar.umd.edu/~kanungo/software/software.html -> software para redes de markov 2) 3)