SentiLex-PT 02

From IDSS Group at INESC-ID
Jump to: navigation, search

This page is also available in English

Esta página descreve a versão 2 do SentiLex-PT (a versão atual). A versão inicial deste recurso (SentiLex-PT 01 in English), previamente disponibilizada, é agora substituída por esta versão.

O SentiLex-PT é um léxico de sentimento para o português, constituído por 7.014 lemas e 82.347 formas flexionadas. Em concreto, o léxico descreve:

As entradas do léxico correspondem a predicadores humanos, i.e. predicadores que se constroem com nomes humanos, coligidos a partir de diferentes recursos públicos (léxicos e corpora).

Os atributos de sentimento descritos em cada entrada são os seguintes:

A informação de polaridade associada às entradas foi, na maioria dos casos, manualmente atribuída. Certas entradas adjetivais foram, contudo, automaticamente classificadas por uma ferramenta (JALC) desenvolvida pela equipa do projeto para este fim. As formas flexionadas dos verbos e das expressões idiomáticas, bem como os respetivos atributos morfológicos, foram semi-automaticamente extraídos do LABEL-LEX-sw, um léxico de palavras simples disponível para o português, o qual foi desenvolvido por Ranchhod et al. (1999), no http://label.ist.utl.pt/pt/ LabEL].


O SentiLex-PT02 é disponibilizado mediante pedido.


Contents

Resposta a Perguntas Frequentes (FAQ)

O que posso fazer com o SentiLex-PT?

O SentiLex-PT é um recurso especialmente importante para quem se interesse por aplicações em extração e classificação de sentimentos e opiniões em português, em particular as que envolvam entidades humanas.

Qual é o formato do SentiLex-PT?

O SentiLex-PT encontra-se disponível em dois ficheiros de texto distintos:

SentiLex-lem-PT02.txt
Cada linha inclui informação sobre:

Algumas entradas incluem um código adicional (REV), o qual se refere a observações específicas do anotador. Neste momento, é possível encontrar as seguintes anotações:

Abaixo, apresentam-se cinco entradas do SentiLex-lem-PT02.txt:

aberração.PoS=N;TG=HUM:N0;POL:N0=-1;ANOT=MAN
bonito.PoS=Adj;TG=HUM:N0;POL:N0=1;ANOT=MAN
castigado;PoS=Adj;TG=HUM:N0;POL:N0=-1;ANOT=JALC
estimado.PoS=Adj;TG=HUM:N0;POL:N0=1;ANOT=JALC;REV=AMB
enganar.PoS=V;TG=HUM:N0:N1;POL:N0=-1;POL:N1=0;ANOT=MAN
engolir em seco.PoS=IDIOM;TG=HUM:N0;POL:N0=-1;ANOT=MAN
SentiLex-flex-PT02.txt 
Em cada linha, as formas flexionadas estão associadas ao respetivo lema. Além das informações descritas no dicionário de lemas, neste formato as entradas adjetivais e nominais contêm informação sobre a flexão (FLEX) em género(masculino (m) ou feminino (f)) e número (singular (s) ou plural (p)). Os atributos morfológicos associados aos verbos e expressões idiomáticas incluem informação de tempo, pessoa e número. As formas flexionadas dos verbos e respetivos atributos foram automaticamente extraídos do dicionário LABEL-LEX-sw.


Abaixo, apresentam-se dez entradas do SentiLex-flex-PT02.txt:

aberração,aberração.PoS=N;FLEX=fs;TG=HUM:N0;POL:N0=-1;ANOT=MAN
bonita,bonito.PoS=Adj;FLEX=fs;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonitas,bonito.PoS=Adj;FLEX=fp;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonito,bonito.PoS=Adj;FLEX=ms;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonitos,bonito.PoS=Adj;FLEX=mp;TG=HUM:N0;POL:N0=1;ANOT=MAN
engoliste em seco,engolir em seco.PoS=IDIOM;Flex=J2p|J2s;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engolistes em seco,engolir em seco.PoS=IDIOM;Flex=J2p;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engoliu em seco,engolir em seco.PoS=IDIOM;Flex=J4s|P3s;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engulam em seco,engolir em seco.PoS=IDIOM;Flex=Y4p|S4p|S3p;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engulamos em seco,engolir em seco.PoS=IDIOM;Flex=Y1p|S1p;TG=HUM:N0;POL:N0=-1;ANOT=MAN

Quais são os termos de licenciamento do SentiLex-PT?

Creative-commons-BY.png
O SentiLex-PT01 pode ser utilizado sob uma licença Creative Commons Attribution 3.0 License (CC-BY).

Como posso obter o SentiLex-PT?

O SentiLex-PT é disponibilizado, mediante pedido. Por favor, envie uma mensagem a solicitar o recurso para: dmir-resources@inesc-id.pt

Quais são as principais alterações no SentiLex-PT02?

Na versão atual:

Como posso citar o SentiLex-PT?

Por favor, cite:

Mário J. Silva, Paula Carvalho and Luís Sarmento. "Building a Sentiment Lexicon for Social Judgement Mining", In Lecture Notes in Computer Science (LNCS) / Lecture Notes in Artificial Intelligence (LNAI), International Conference on Computational Processing of Portuguese (PROPOR), 17-20 April, 2012, Coimbra.

Agradecimentos

O SentiLex-PT02 foi desenvolvido pelos seguintes investigadores:

Com financiamento parcial da FCT:

Personal tools
Namespaces
Variants
Actions
Toolbox