Programa preliminar.
1 | 22-09 |
|
2 | 29-09 | Tagger 1: baseado em regras aprendidas : Eric
Brill
As regras sao aprendidas a partir do corpus do TREEBANK. fase de treinamento. fase de aplicacao.
|
3 | 06-10 | Tagger 2: Baseado
em exemplos: Daelemans
link: http://ilk.kub.nl/ em publications Os exemplos sao colhidos da seguinte forma: f1, f2 ,... fn classe onde f1..fn sao as features ou caracteristicas. No caso do tagger se refere as tags das palavras anteriores e tags-compostas das palavras posteriores. A classe se refere aa tag. A cada feature podemos atribuir um peso. Se todas tiverem o mesmo peso entao eh o modelo IB1 senao eh o IB-IG. O peso pode ser obtido atraves da analise do quanto cada feature contribui para o aumento da entropia da peso. Isto pode ser feito automaticamente. Alem disso, Daelemans propoe que cada linha da tabela seja armazenada em uma arvore de decisao. O seu tagger tem desempenho semelhante ao do Eric Brill. |
4 | 13-10 | Tagger 3: estatistico baseado no modelo de entropia maxima
link: http://www.cis.upenn.edu/~adwait/statnlp.html : para a tese de doutorado. Adwat Ratnaparkhi propoe um modelo de resolucao de ambiguidades que ocorrem na linguagem natural em sua tese de doutorado de 1998. Uma das aplicacoes deste modelo eh o tagger aqui analisado. O modelo possui algumas semelhancas com o modelo baseado em exemplos do Daelemans. Para Adwat cada feature eh apenas uma funcao que devolve zero ou um. Assim, ele propoe que se crie uma tabela do tipo: f1,f2,...fn C1 C2 C3 ... Ca
para k features temos 2 ** k combinacoes de features e associamos uma
probabilidade de cada combinacao de feature levar a uma determinada classe.
A soma de todas as probabilidades desta tabela deve ser 1 (eh uma funcao
de distribuicao de probabilidade).
A aplicacao desta tabela eh feita da seguinte forma:
Este modelo serve para outras aplicacoes como a de se detectar quebras de sentencas. |
5 | 20-10 | Quebrar em sentencas: estatistico, entropia maxima - ver Adwait Ratnaparkhi |
6 | 27-10 | Parser 1: Shallow parser: Daelemans
passos: POS tagger, chuncking (descobrir os sintagmas), atribuir sujeito e objeto. |
7 | 03-11 | Alinhamento de corpus bilingue, Dekay Wu
Trainable coarse biblingual grammars for parallel bracketing stochastic inversion transduction grammars |
8 | 10-11 | parsers CKY e Earley.
Pergunta: como implementar a gramatica do Dekay Wu usando estes parsers?
|
9 | 17-11 | Alinhamento de corpus bilingue, Dan Melamed
em http://www.cis.upenn.edu/~melamed/ artigos:
|
10 | 24-11 | livro: finite-state language processing. Editado por Emmanuel
Roche, Yves Schabes. MIT. 1997
capitulo 7: Deterministic Tagging. |
11 | 01-12 | Um projeto envolvendo Example based machine translation.
http://crl.nmsu.edu/users/sb/papers/ebmt/col94/col94.html |
12 | 08-12 | apresentacao trabalhos. |
bibliografia complementar:
[1] Natural Language Processing in Prolog; Gerald Gazdar & Chris
Mellish; Addison Wesley .
Para se estudar parser tabular bottom-up normal da ordem de n**3: cap
6: Well formed substring tables and charts.
[2] Survey of the State of the Art in Human Language Technology - 1995. http://cslu.cse.ogi.edu/HLTsurvey/ - um otimo survey a respeito da area criado pelos mestres no assunto (Fernando Pereira, Joshi, Martin Kay, etc.) e apoiado pelo NSF.
agradecimentos:
parte deste material (aulas 2, 7,10) foi reunida pelo mestrando Carlos
Eduardo Dantas de Menezes.
o material da aula 8 foi cedido pelo mestrando Paulo Barreto.
Revisao para o proximo curso: terceiro quadrimestre de 2000
- adicionar uma aula sobre PC-KIMMO (sistema de regras para analise morfologica), provavelmente no lugar da aula 5:
http://www.sil.org/pckimmo/v2/doc/guide.html