Анализ возможности предсказывать отчетность компаний и реакцию на нее с помощью постов твиттера. Собирали посты в даты [-10..-2] до квартальной отчетности, по хэштегам названия компаний или тикеры, чистили затем определяли значение поста следующим способом:

  •  прогоняли через  Байесов классификатор (OPI1);
  • определяли негативную окраску с использованием словаря Loughran and McDonald (OPI2);
  • определяли негативную окраску с использованием словаря Harvard IV-4 (OPI3);
  • использовали комбинацию OPI1-OPI3 (OPI4).

Дальше в общем-то определяли взаимосвязь с сюрпризом на отчетности (SUE) и экстра-доходность за [-1..+1] дни. Статистики везде значимые, с SUE: OPI1 t-statistic = 5.56; OPI2: t-statistic = 2.93, OPI3: t-statistic = 2.71; OPI4: t-statistic = 4.07. Для экстра доходности: OPI1 t-statistic =4.04; OPI2: t-statistic = 7.48, OPI3: t-statistic =6.92; OPI4: t-statistic = 9.09. По OPI4 то есть годовая доходность в принципе может быть получена в размере 10-15% аннуализированно. По OPI1 всего ~5-6%

В статье описываются инструменты определения эмоций из речи. Практический смысл пока низок.