Автор тестировал стратегии по покупкам инсайдеров. Скачал с Edgar за 11 лет 2.5 млн записей, обработал - оставил 650к записей о действиях инсайдеров, прогнал через random forest (что использовал как предикторы - не раскрывает). Отранжировал результаты и получил кросс-сектионал доходность за 3 мес (тестовая выборка) 3.09% (как я понимаю 12.36% годовых).

 

Исследуется возможность торговли акциями при предсказании на основании твитов (stocktwits.com). StockTwits позволяет маркировать твиты Bearish или Bulish. Собственно, самая простая стратегия - берем твиты по тикеру с прошлого открытия до текущего открытия и считаем S-Score=(#Bullish-#Bearish)/(#Bullish+Bearish), затем нормализуем (считаем z-score). Чувствительность меняется базовым периодом Z-score. Открываем на открытии, закрываем на закрытии. Используем бумаги с ценой>5$. Пороги подбирали индивидуально под акции. Если брать верхнюю квартлиь тикеров по объему - шарп 1.24  , если вся совокупность шарп 2.11 

Второй сценарий использования автор применяет в компании Social Market Analytics - считают sentiment scores с использованием машинного обучения (Natural Language Processing) - какую используют не раскрывают. Затем взвешивают сентимент экспоненциально. Далее акции делятся на квинтили на основании S-Score в отношении вселенной акций в этот день. Формируют лонг позицию из акций, которые в верхнем квинтиле и шортовую, из акций нижнего. Шарп 4.5. 

Анализ возможности предсказывать отчетность компаний и реакцию на нее с помощью постов твиттера. Собирали посты в даты [-10..-2] до квартальной отчетности, по хэштегам названия компаний или тикеры, чистили затем определяли значение поста следующим способом:

  •  прогоняли через  Байесов классификатор (OPI1);
  • определяли негативную окраску с использованием словаря Loughran and McDonald (OPI2);
  • определяли негативную окраску с использованием словаря Harvard IV-4 (OPI3);
  • использовали комбинацию OPI1-OPI3 (OPI4).

Дальше в общем-то определяли взаимосвязь с сюрпризом на отчетности (SUE) и экстра-доходность за [-1..+1] дни. Статистики везде значимые, с SUE: OPI1 t-statistic = 5.56; OPI2: t-statistic = 2.93, OPI3: t-statistic = 2.71; OPI4: t-statistic = 4.07. Для экстра доходности: OPI1 t-statistic =4.04; OPI2: t-statistic = 7.48, OPI3: t-statistic =6.92; OPI4: t-statistic = 9.09. По OPI4 то есть годовая доходность в принципе может быть получена в размере 10-15% аннуализированно. По OPI1 всего ~5-6%

Исследуется влияние таких событий как IPO, SEO (сезонные выпуски акций), слияния и поглощения и начало выплат дивидендов. Анализировали 4-мя разными способами, на 5-летнем периоде соответственно IPO, SEO, MA дают негативную доходность, старт дивидендов - позитивную. Кроме того, интересно, что при IPO и SEO можно наблюдать 1-месячную превышающую рынок доходность, затем начинает накапливаться отставание. 

Паттерн поведения рынка акций после объявления FOMC. В 0 (начинается с дня перед объявлением),2,4,6 недели нашли что рынок растет. Средний рост ~0.5%  в неделю. Если торговать эти периоды - шарп=0.8, средняя доходность 8.5%. Каких-то вразумительных объяснений почему это работает не представлено.

В статье описываются инструменты определения эмоций из речи. Практический смысл пока низок. 

Анализируется возможность предсказания цен акций  с использованием нейронных сетей (deep neural networks) и анализа новостей. Соответственно, в качестве предикторов используется цена и ряд данных контент-анализа:

  • Bag of keywords (BoK): Сформированы ключевые слова и проверяется их наличие в статье;
  • Polarity score (PS): связывается влияение ключевых слов и изменения цены;
  • Category tag (CT): перечень категорий, которые могут быть индикаторыми определенных событий (слияния и т.п.).

Далее все это загоняется в нейронную сеть и формируется прогноз. На всех этих предикторах доля ошибок получалась 43.13%.

Дополнительно строились корреляции между компаниями и оценивалось влияние новости одной компании на связанные - для акций с корреляцией больше 90% доля верных предсказаний 52.44%

Исследовали предсказательную способность статей и комментариев в seeking alpha. Брали текст, пропускали через словарь Loughran and McDonald, определяли сентимент - загоняли в регрессию (зависимые переменные - доля негативных слов в статье, разница доли негативных слов в статье и комментариях и комплексный вектор который включает доходности в предыдущие дни, волатильности, изменения в рекомендациях и т.п.). Полученные результаты показывают, что если доля негативных слов в SA на 1% больше, доходность на 0.379% ниже. (t-stat=-0.203). Далее пропускали два дня и покупали-продавали по квантилям/квартилям - удержание 3 месяца. Результаты не очень, судя по графику 6-7% в год, шарп не указан. 

В статье описывается воздействие новостей компаний на доходность. Показано, что направление дневной доходности может быть предсказано статистически значимо, при компьютерном анализе новостей. Использованы алгоритмы state-of-the-art text analysis. Анализировали формы 8-К - сообщения компаний о существенных событиях. Определяли по моделям Latent Dirichlet Allocation (тулбокс доступен)и прогоняли через random forest. Результат: out-of-sample угадывается 55% направлений доходности (рост/падение).