Исследуется возможность торговли акциями при предсказании на основании твитов (stocktwits.com). StockTwits позволяет маркировать твиты Bearish или Bulish. Собственно, самая простая стратегия - берем твиты по тикеру с прошлого открытия до текущего открытия и считаем S-Score=(#Bullish-#Bearish)/(#Bullish+Bearish), затем нормализуем (считаем z-score). Чувствительность меняется базовым периодом Z-score. Открываем на открытии, закрываем на закрытии. Используем бумаги с ценой>5$. Пороги подбирали индивидуально под акции. Если брать верхнюю квартлиь тикеров по объему - шарп 1.24  , если вся совокупность шарп 2.11 

Второй сценарий использования автор применяет в компании Social Market Analytics - считают sentiment scores с использованием машинного обучения (Natural Language Processing) - какую используют не раскрывают. Затем взвешивают сентимент экспоненциально. Далее акции делятся на квинтили на основании S-Score в отношении вселенной акций в этот день. Формируют лонг позицию из акций, которые в верхнем квинтиле и шортовую, из акций нижнего. Шарп 4.5. 

Анализируется возможность предсказания цен акций  с использованием нейронных сетей (deep neural networks) и анализа новостей. Соответственно, в качестве предикторов используется цена и ряд данных контент-анализа:

  • Bag of keywords (BoK): Сформированы ключевые слова и проверяется их наличие в статье;
  • Polarity score (PS): связывается влияение ключевых слов и изменения цены;
  • Category tag (CT): перечень категорий, которые могут быть индикаторыми определенных событий (слияния и т.п.).

Далее все это загоняется в нейронную сеть и формируется прогноз. На всех этих предикторах доля ошибок получалась 43.13%.

Дополнительно строились корреляции между компаниями и оценивалось влияние новости одной компании на связанные - для акций с корреляцией больше 90% доля верных предсказаний 52.44%

В статье описывается воздействие новостей компаний на доходность. Показано, что направление дневной доходности может быть предсказано статистически значимо, при компьютерном анализе новостей. Использованы алгоритмы state-of-the-art text analysis. Анализировали формы 8-К - сообщения компаний о существенных событиях. Определяли по моделям Latent Dirichlet Allocation (тулбокс доступен)и прогоняли через random forest. Результат: out-of-sample угадывается 55% направлений доходности (рост/падение).