감성140

  • 설명 :

Sentiment140을 사용하면 Twitter에서 브랜드, 제품 또는 주제의 정서를 발견할 수 있습니다.

데이터는 이모티콘이 제거된 CSV입니다. 데이터 파일 형식에는 6개의 필드가 있습니다.

  1. 트윗의 극성(0 = 부정, 2 = 중립, 4 = 긍정)
  2. 트윗 아이디(2087)
  3. 트윗 날짜(2009년 5월 16일 토요일 23:58:44 UTC)
  4. 쿼리(lyx). 조회가 없으면 이 값은 NO_QUERY입니다.
  5. 트윗한 사용자(robotickilldozr)
  6. 트윗의 텍스트 (Lyx is cool)

자세한 내용은 https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf 에서 Twitter Sentiment Classification with Distant Supervision 논문을 참조하십시오.

나뉘다
'test' 498
'train' 1,600,000
  • 기능 구조 :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'polarity': int32,
    'query': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'user': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
데이트 텍스트
극성 텐서 int32
질문 텍스트
텍스트 텍스트
사용자 텍스트
  • 인용 :
@ONLINE {Sentiment140,
    author = "Go, Alec and Bhayani, Richa and Huang, Lei",
    title  = "Twitter Sentiment Classification using Distant Supervision",
    year   = "2009",
    url    = "http://help.sentiment140.com/home"
}