Статистические последствия жирных хвостов. О новых вычислительных подходах к принятию решений - Нассим Н. Талеб - E-Book

Статистические последствия жирных хвостов. О новых вычислительных подходах к принятию решений E-Book

Нассим Н. Талеб

0,0

Beschreibung

Новая книга всемирно известного мыслителя, автора «Черного лебедя» Нассима Николаса Талеба открывает серию The Technical Incerto Collection и посвящена тем классам статистических распределений, от которых можно ждать экстремальных событий. Если вы не дружите с графиками и формулами, то из этой книги почерпнете информацию только про скандалы и разоблачение горе-ученых. Если вы учили математическую статистику, эта книга поможет вам переучиться. Если вы студент или ученый, эта книга — бесценный мастер-класс. Впервые под одной обложкой собраны исследовательские статьи Талеба и его учеников, где в неповторимом талебовском стиле живо и ярко прослеживается ход мысли прикладного математика, сталкивающегося с жизненной задачей, не зная, можно ли ее решить аналитически, с чего начать, за что хвататься, — но настроенного пустить в ход, если понадобится, весь арсенал классической и современной математики и всю мощь компьютеров. Автор и его последователи щедро делятся с читателем своими ранними догадками, интуицией и аналогиями, которые помогли им в итоге найти решение. «Книги серии Incerto посвящены выживанию в реальном мире с его структурой неопределенности, которая слишком сложна для нашего понимания. Цикл ставит целью объединить пять областей знания, связанных с жирными хвостами и экстремальными событиями: в математике, философии, общественных науках, теории контрактов и теории принятия решений, — с опытом профессионалов». (Нассим Николас Талеб)

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 582

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Содержание
1. Пролог*†
2. ГЛОССАРИЙ, ОПРЕДЕЛЕНИЯ И ОБОЗНАЧЕНИЯ
Часть I. ЖИРНЫЕ ХВОСТЫ И ИХ ПОСЛЕДСТВИЯ, ЗНАКОМСТВО
3. НЕТЕХНИЧЕСКИЙ ОБЗОР — ЛЕКЦИЯ В КОЛЛЕДЖЕ ДАРВИНА*‡
4. ОДНОМЕРНЫЕ ЖИРНЫЕ ХВОСТЫ УРОВНЯ 1, С КОНЕЧНЫМИ МОМЕНТАМИ†
5. УРОВЕНЬ 2: СУБЭКСПОНЕНЦИАЛЬНЫЕ И СТЕПЕННЫЕ ЗАКОНЫ
6. ЖИРНЫЕ ХВОСТЫ В ВЫСШИХРАЗМЕРНОСТЯХ†
A. ОСОБЫЕ СЛУЧАИ ТОЛСТЫХ ХВОСТОВ
Часть II. ЗАКОН СРЕДНИХ ЧИСЕЛ
7. ПРЕДЕЛЬНЫЕ РАСПРЕДЕЛЕНИЯ, КОНСОЛИДАЦИЯ*†
8. СКОЛЬКО НУЖНО ДАННЫХ? РАБОЧИЙ ПОКАЗАТЕЛЬ ЖИРНОХВОСТОСТИ‡
9. ЭКСТРЕМАЛЬНЫЕ ЗНАЧЕНИЯ И СКРЫТЫЕ ХВОСТЫ*‡
B. СКОРОСТЬ РОСТА И РЕЗУЛЬТАТ ПРИНАДЛЕЖАТ РАЗНЫМ КЛАССАМ РАСПРЕДЕЛЕНИЙ
C. ПРИНЦИП БОЛЬШОГО ОТКЛОНЕНИЯ, ВКРАТЦЕ
D. КАЛИБРОВКА В СИТУАЦИИ ПАРЕТО
10. ПЕЧАЛЬНО, НО ФАКТ: ДИАГНОСТИКА S&P 500‡
E. ПРОБЛЕМА С ЭКОНОМЕТРИКОЙ
F. ОСОБЕННОСТИ МАШИННОГО ОБУЧЕНИЯ
Часть III. ПРЕДСКАЗАНИЯ, ПРОГНОЗЫ И НЕОПРЕДЕЛЕННОСТЬ
11. КАЛИБРОВКА ВЕРОЯТНОСТИ ПРИ ЖИРНЫХ ХВОСТАХ‡
12. ПРЕДСКАЗАНИЯ ВЫБОРОВ КАК МАРТИНГАЛ: АРБИТРАЖНЫЙ ПОДХОД‡
Часть IV. ОЦЕНОЧНЫЕ НЕРАВЕНСТВА ПРИ ЖИРНЫХ ХВОСТАХ
13. ОЦЕНКА ДЖИНИ ПРИ БЕСКОНЕЧНОЙ ДИСПЕРСИИ‡
14. СУПЕРАДДИТИВНОСТЬ И СМЕЩЕННЫЕ ОЦЕНКИ ВКЛАДА КВАНТИЛЕЙ‡a
Часть V. СТАТЬИ О ТЕНЕВЫХ МОМЕНТАХ
15. ТЕНЕВЫЕ МОМЕНТЫ ЯВЛЕНИЙ С МНИМО БЕСКОНЕЧНЫМ СРЕДНИМ‡
16. О ХВОСТОВОМ РИСКЕ ОСТРОГО КОНФЛИКТА‡
G. КАКОВА ВЕРОЯТНОСТЬ ТРЕТЬЕЙ МИРОВОЙ ВОЙНЫ?*†
Часть VI. СТАТЬИ О МЕТАВЕРОЯТНОСТИ
17. КАК ТОЛСТЫЕ ХВОСТЫ ВОЗНИКАЮТ ИЗ РЕКУРСИВНОЙ ЭПИСТЕМОЛОГИЧЕСКОЙ НЕОПРЕДЕЛЕННОСТИ†
18. СТОХАСТИЧЕСКИЙ ПОКАЗАТЕЛЬ ХВОСТА ПРИ АСИММЕТРИЧНЫХ СТЕПЕННЫХ ЗАКОНАХ†
19. МЕТА-РАСПРЕДЕЛЕНИЕ p-ЗНАЧЕНИЙ И p-ХАКИНГ‡
H. НЕКОТОРЫЕ НЕДОРАЗУМЕНИЯ В ПОВЕДЕНЧЕСКОЙ ЭКОНОМИКЕ
Часть VII. ТОРГОВЛЯ ОПЦИОНАМИ И ЦЕНЫ ПРИ ЖИРНЫХ ХВОСТАХ
20. НЕУДАЧИ ФИНАНСОВОЙ ТЕОРИИ КАСАТЕЛЬНО ЦЕН ОПЦИОНОВ†
21. ЕДИНСТВЕННАЯ МЕРА ДЛЯ ЦЕН ОПЦИОНОВ (БЕЗ ДИНАМИЧЕСКОГО ХЕДЖИРОВАНИЯ ИЛИ ПОЛНОГО РЫНКА)‡
22. ТОРГОВЦЫ ОПЦИОНАМИ НЕ ПОЛЬЗУЮТСЯ ФОРМУЛОЙ БЛЭКА — ШОУЛЗА — МЕРТОНА*‡
23. ЦЕНООБРАЗОВАНИЕ ОПЦИОНОВ ПРИ СТЕПЕННЫХ ЗАКОНАХ: РОБАСТНАЯ ЭВРИСТИКА*‡
24. ЧЕТЫРЕ ОШИБКИ В ФИНАНСОВОЙ МАТЕМАТИКЕ*‡
25. ОГРАНИЧЕНИЯ ХВОСТОВОГО РИСКА И МАКСИМАЛЬНАЯ ЭНТРОПИЯ‡
Персоналии
Библиография

Nassim Nicholas TalebSTATISTICAL CONSEQUENCES OF FAT TAILSReal World Preasymptotics, Epistemology, and ApplicationsThe Technical Incerto Collection

Перевод с английского Виктора Боруна

Талеб Нассим НиколасСтатистические последствия жирных хвостов : О новых вычислительных подходах к принятию решений / Нассим Николас Талеб ; [пер. с англ. В. Ф. Боруна]. — М. : КоЛибри, Азбука-Аттикус, 2023.

ISBN 978-5-389-23105-4

16+

Новая книга всемирно известного мыслителя, автора «Черного лебедя» Нассима Николаса Талеба открывает серию The Technical Incerto Collection и посвящена тем классам статистических распределений, от которых можно ждать экстремальных событий.Если вы не дружите с графиками и формулами, то из этой книги почерпнете информацию только про скандалы и разоблачение горе-ученых. Если вы учили математическую статистику, эта книга поможет вам переучиться. Если вы студент или ученый, эта книга — бесценный мастер-класс. Впервые под одной обложкой собраны исследовательские статьи Талеба и его учеников, где в неповторимом талебовском стиле живо и ярко прослеживается ход мысли прикладного математика, сталкивающегося с жизненной задачей, не зная, можно ли ее решить аналитически, с чего начать, за что хвататься, — но настроенного пустить в ход, если понадобится, весь арсенал классической и современной математики и всю мощь компьютеров. Автор и его последователи щедро делятся с читателем своими ранними догадками, интуицией и аналогиями, которые помогли им в итоге найти решение.«Книги серии Incerto посвящены выживанию в реальном мире с его структурой неопределенности, которая слишком сложна для нашего понимания. Цикл ставит целью объединить пять областей знания, связанных с жирными хвостами и экстремальными событиями: в математике, философии, общественных науках, теории контрактов и теории принятия решений, — с опытом профессионалов». (Нассим Николас Талеб)

© Nassim Nicholas Taleb, 2020© Борун В.Ф., перевод на русский язык, 2023© Издание на русском языке, оформление.ООО «Издательская Группа «Азбука-Аттикус», 2023КоЛибри®

СОАВТОРЫ [1]

 

Паскуале Чирилло (главы 13, 15 и 16)

Рафаэль Дуади (глава 14)

Андреа Фонтанари (глава 13)

Эльетт Жиман (глава 25)

Дональд Жиман (глава 25)

Эспен Хог (глава 22)

Сотрудники хедж-фонда Universa Investments (глава 23)

 

 

 

 

Издание подготовлено на основе диссертации Андре Миду и адаптации Лоренцо Пантьери для Ars Classica.

С глубочайшей признательностью Андре и Лоренцо.

В организации издательской деятельности поддержку оказала компания Scribe Media; особая благодарность Такеру Максу, Элли Коул, Заку Обронту и Эрике Хоффман.

 

 

 

Нетехнические главы отмечены звездочкой *;главы, посвященные дискуссии, отмечены типографским крестиком † ;адаптированные версии статей в рецензируемых журналах —двойным типографским крестиком ‡.Главы нумеруются арабскими цифрами, но вводные и другие короткие главки (отличные от приложений и от полноценных глав) индексируются буквами A, B и т. д.

1ПРОЛОГ*†

Чем хуже вы понимаете мир, тем проще вам принять решение.

 

Рисунок 1.1: Проблема не в том, что люди не слышали о «жирном хвосте», а в том, что не понимают серьезность его последствий. Когда вам встретился «жирный хвост», нельзя выбрать из привычного арсенала статистики соответствующий вариант комплекта инструментов; нужно сменить весь подход к принятию решений. © Stefan Gasic

Главная идея в основе проекта Incerto — та, что при всей неопределенности и непроницаемости мира и при нехватке информации и понимания все равно в каждой конкретной ситуации оказывается совершенно ясно, какие действия нужно предпринять на основе того немногого, что известно и понятно.

Эта книга состоит из (1) опубликованных статей и (2) бесцензурного комментария, посвященных тем классам статистических распределений, от которых можно ждать экстремальных событий. Мы изучим, как использовать эти распределения для статистических выводов и принятия решений.

 

Рисунок 1.2: Усложнение из-за непонимания. Что творится в головах профессионалов, когда они применяют статистику и анализ данных, не имея ясного представления об основных понятиях. © Wikimedia

«Стандартная» статистика по большей части работает на основе теорем, выведенных для тонких хвостов. Чтобы работать с предасимптотикой [2] жирных хвостов, эти методы придется либо адаптировать нетривиальным образом, либо вовсе исключить из арсенала полезных инструментов.

Автору не раз приходилось слышать фразы вроде «Это и так все знают» и «В жирных хвостах нет ничего нового» — ими пытались защищаться преподаватель или практик, пойманные на совершенно бессмысленной в конкретной ситуации попытке использовать дисперсию, обобщенную авторегрессию, коэффициент эксцесса, коэффициент Шарпа или стоимость под риском или указать статистическую значимость там, где она не значит ничего.

Автор обогатил свой опыт, когда осуществил программу научных исследований и выпустил ряд книг серии Incerto [226], посвященных выживанию в реальном мире с его структурой неопределенности, которая слишком сложна для нашего понимания.

Цикл Incerto ставит целью объединить пять областей знания, связанных с жирными хвостами и экстремальными событиями: в математике, философии, общественных науках, теории контрактов и теории принятия решений, — с опытом профессионалов. Если вы спросите, при чем здесь теория контрактов и теория принятия решений, то ответ таков: математика опционов основана на идее условной вероятности и объединении контрактов с целью изменить класс воздействия в хвостах распределения; некоторым образом теория опционов — это математическая теория контрактов. Теория принятия решений ставит целью не понять мир, а выбраться из неприятностей и выжить. Этой задаче будет посвящен следующий том Технического Incerto, его текущее рабочее название — Convexity, Risk, and Fragility («Выпуклость вниз, риск и хрупкость»).

ЗАМЕЧАНИЕ О ТЕРМИНАХ

В академическом контексте при описании распределения часто используется термин «толстые хвосты» (thick tails). Мы вместо этого будем говорить, что «коэффициент эксцесса выше, чем у гауссианы»; это ближе к профессиональному жаргону финансиста.

Термин «жирные хвосты» (fat tails) мы оставим за особо толстыми хвостами, которые характерны для распределений по степенно́му закону или эквивалентному (жирный хвост и степенной закон, как мы покажем в Главе 8, неотделимы друг от друга). Некоторые авторы придают «жирным хвостам» более узкий смысл, требуя точного степенного закона или хотя бы правильно меняющейся функции. Однако мы, хотя и будем иногда применять степенные законы (в тех случаях, когда известно, что процесс работает именно так), жирными хвостами будем называть все экстремально толстые хвосты.

Во избежание путаницы не будем пользоваться дополнительными терминами вроде «тяжелых хвостов» (heavy tails) или «длинных хвостов» (long tails).

Термины «толстые хвосты» и «жирные хвосты» будут прояснены в следующих двух главах.

 

Рисунок 1.3: Классическая реакция, когда «альтернативой» считается только тот анализ, который рекомендует одобрить кредит. © Stefan Gasic

БЛАГОДАРНОСТИ

Помимо уже названных соавторов, автор благодарен Чжуо Си, Жан-Филипу Бушо, Роберту Фраю, Спиросу Макридакису, Марку Шпицнагелю, Брэндону Яркину, Рафаэлю Дуади, Питеру Карру, Марко Авельянеде, Дидье Сорнетту, Полю Амбре, Бруно Дюпиру, Джамилю Базу, Дамиру Деличу, Яниру Бар-Яму, Диего Цвивовичу, Джозефу Норману, Оле Петерсу, Читпьюниту Манну, Гарри Крейну — и, разумеется, долгим, нескончаемым дискуссиям с великим Бенуа Мандельбротом.

Много опечаток исправили добровольные редакторы в социальных сетях, такие как Максим Бьет, Чао Винчи, Джейсон Торелл и Петри Хэло. Обширный список опечаток и потенциальных нотационных двусмысленностей прислал Кевин Ван Хорн.

Часть статей, ставших главами этой книги, была представлена на конференциях; автор благодарит Лоренца де Гаана, Берта Цварца и других за комментарии по проблемам, связанным с экстремальными значениями. Более точные благодарности сформулированы в конкретных главах. Как обычно, автор хотел бы поблагодарить штат ресторана Naya в Нью-Йорке.

Автор представил данную книгу и главные тезисы на ежемесячной конференции Блумберг — Квант [3] в Нью-Йорке в сентябре 2018 года. После лекции ко мне подошел один выдающийся профессор финансовой математики.

— Типичная талебщина, — сказал он. — Вы доказываете, что так-то и так-то нельзя, но взамен не предлагаете альтернатив.

Понятно, что в бизнесе и любой другой сфере, где действует суровая школа реального мира, такой работник долго бы не выжил. Но кто не рискует собственной шкурой [236], до того не доходит, как важно, смотря по обстоятельствам, отложить свои убеждения и как ценны сведения о ненадежности для принятия решений: не передавай пилоту неточные данные, научись передавать только надежную информацию; сообщая пилоту о неисправности самолета, ты спасаешь жизни. И до них не доходит, как эффективен подход via negativa — когда наука, по Попперу, развивается отсечением неудачных теорий. Покойный Дэвид Фридман предпринял безуспешную попытку укротить маньяков бессмысленного и обманчивого моделирования в статистике, продемонстрировав, как их прогнозы с большим отрывом проигрывают соревнование «ничему», пустой теории.

Между тем в ряде статей и глав этой книги предлагаются решения и альтернативы. Увы, некоторых они не обрадуют, поскольку требуют математических усилий, чтобы построить совершенно другие модели, модели для ситуаций с жирными хвостами.

2ГЛОССАРИЙ, ОПРЕДЕЛЕНИЯ И ОБОЗНАЧЕНИЯ

Это систематический каталог с пояснениями основных разделов и обозначений. Все обозначения разъясняются и в основном тексте; здесь те же пояснения дублируются для удобства читателя, решившего посмотреть только отдельные отрывки. Некоторые обозначения отличаются в той или иной главе, созданной на основе конкретной статьи; здесь это указывается. Иногда наша терминология расходится с терминологией других исследовательских групп, хотя мы старались не противоречить существующим терминам.

2.1. ОБЩИЕ ОБОЗНАЧЕНИЯ И ЧАСТО ИСПОЛЬЗУЕМЫЕ СИМВОЛЫ

 — вероятность случайного события; обычно в форме (X > X), где X — случайная величина, а событием считается, что ее реализация превзошла значение X. Более формальные определения событий и вероятностей по канонам теории меры и прочий французский встречаются в Главе 11 и других местах, где этот формализм имеет смысл.

𝔼 — оператор математическое ожидание [4].

𝕍 — оператор дисперсия [5].

𝕄 — среднее абсолютное отклонение; [6] если центрируется, то относительно среднего (а не медианы).

φ(.) и f (.) обычно зарезервированы за плотностью вероятности заранее указанного распределения. В некоторых главах делается различие между fX (x) и fY (y), особенно когда случайные величины X и Y следуют двум разным распределениям.

n обычно зарезервировано за числом слагаемых.

p обычно зарезервировано за порядком момента.

НСВ — непрерывная случайная величина [7].

F(.) обычно зарезервировано за функцией распределения, то есть F(x) = (X < x). Функция выживания (X > x) записывается с чертой сверху, F̅ (.) или обозначается буквой S [8].

~ означает, что случайная величина по одну сторону от тильды распределена согласно закону, указанному по другую сторону от тильды.

χ(t) = 𝔼 eitXs — характеристическая функция случайной величины XS. Иногда для аргумента t ∈ ℝ используется другая буква — ω. Сама характеристическая функция иногда обозначается заглавной Ψ [9].

→D означает сходимость по распределению, то есть следующее. Пусть X1, X2, … — последовательность случайных величин; тогда Xn →DX означает, что последовательность соответствующих функций распределения Fn имеет предел:

при всяком действительном x, при котором F непрерывна.

→P означает сходимость по вероятности, то есть что при ε > 0 для описанной выше последовательности

→a.s.означает сходимость почти наверное [10], то есть более сильное требование:

Sn обычно обозначает сумму n слагаемых.

α, а также αP и αS. Во избежание двусмысленности мы будем прибегать к двум обозначениям: αS ∈ (0, 2] для показателя хвоста платонического (предельного) устойчивого распределения; αP ∈ (0, ∞) для показателя хвоста в распределении Парето (доасимптотическом). В недвусмысленном контексте можем обходиться просто α.

𝒩 (μ1, σ12) — нормальное (гауссово) распределение со средним μ1 и дисперсией σ12  [11].

ℒ (., .) или ℒ𝒩 (., .) — логнормальное распределение, с плотностью f(L)(.). Здесь обычно параметры указываются как ℒ ; тогда математическое ожидание X0 и дисперсия   [12].

𝒮(αS, β, μ, σ) — устойчивое распределение с показателем хвоста αS ∈ (0, 2], коэффициентом симметрии β в интервале (–1, 1), коэффициентом положения μ ∈ ℝ и коэффициентом масштаба σ > 0.

𝔓 — класс степенного закона (см. ниже).

𝔖 — субэкспоненциальный класс (см. ниже).

δ(.) — дельта-функция Дирака.

ϑ(.) — тета-функция Хевисайда [13].

erf(.) — функция ошибок, представляющая собой интеграл плотности гауссова распределения [14]

erfc(.) — дополнительная функция ошибок, 1 – erf (Z).

∥⋅∥p — норма; в этой книге [15] применяется к действительному вектору X = (X1, …, Xn)T и определяется как

Обратите внимание, что компоненты вектора берутся по абсолютной величине.

1F1(.; .; .) — вырожденная гипергеометрическая функция:

2F̃2(., .; ., .; .) — регуляризация обобщенной гипергеометрической функции 2F2:

 ,

где обобщенная гипергеометрическая функция pFq(.; .; .) раскладывается в ряд

с использованием символа Похгаммера [16] (a)na + i).

2.2. СИСТЕМАТИЧЕСКИЙ КАТАЛОГ ОБЩИХ И ИДИОСИНКРАЗИЧЕСКИХ ПОНЯТИЙ

Ниже дублируются определения из основных разделов.

2.2.1. Класс степенного закона 𝔓

Принято определять класс степенного закона по свойству функции выживания следующим образом.

Пусть X — случайная величина из класса распределений с правым хвостом, подчиняющимся степенному закону, то есть:

(X > X) = L(x) x–α,(2.1)

где L: [xmin, +∞) → (0, +∞) — медленно меняющаяся функция, определяемая требованием

для всех k > 0 [22].

Тогда говорят, что функция выживания случайной величины X принадлежит классу правильно меняющихся на бесконечности функций RVα [17].

Давайте уточним: функция f: ℝ+ → ℝ+ меняется на бесконечности с показателем ρ, то есть f ∈ RVρ, когда

 [18].

С практической точки зрения это значит, что рано или поздно L(x) подходит к своему пределу l и становится константой, которую мы будем называть константой Караматы; рубеж, где достигается константа, будем называть точкой Караматы. За этой точкой хвосты степенного закона калибруются стандартными методами, такими как характеристика Хилла. Б. Мандельброт называл распределение в этой области сильным законом Парето [162], [75].

То же верно при соответствующих оговорках для левых хвостов.

2.2.2. Закон больших чисел (слабый)

Обычно его представляют так. Пусть X1, X2, …, Xn — бесконечная последовательность независимых одинаково распределенных случайных величин, интегрируемых по Лебегу, с математическим ожиданием 𝔼Xiμ (вообще говоря, требование н. о. р. можно до некоторой степени ослабить).

Тогда выборочное среднее первых n величин X̅n
1/n
(X1 + X2 + … + Xn) сходится к математическому ожиданию, X̅n → μ при n → ∞.

Конечность дисперсии не обязательна (однако весьма желательна: если дисперсия и прочие высшие моменты распределения конечны, то X̅n сходится быстрее).

Когда потребуется, рассмотрим и сильный закон больших чисел.

2.2.3. Центральная предельная теорема (ЦПТ)

Классический вариант ЦПТ, теорема Линдеберга-Леви, утверждает следующее. Пусть дана последовательность Xi н. о. р. величин с 𝔼Xiμ и 𝕍 Xiσ2 < +∞, и пусть X̅n — это среднее по выборке первых n величин. Тогда по мере приближения n к бесконечности центрированное и нормированное среднее √n (X̅n–μ) сходится по распределению к гауссову [20] [21]

𝒩 (0, σ2).

Сходимость по распределению означает, что функция распределения для √n (X̅n–μ) поточечно сходится к 𝒩 (0, σ2), то есть что для всякого действительного Z

где Φ(Z) — значение стандартного нормального распределения в точке Z.

Есть ряд других вариантов ЦПТ, которые мы представим по мере надобности.

2.2.4. Закон средних чисел, или Предасимптотика

Это центральная тема этой книги. Нас интересует поведение случайной величины для умеренно большого n, или предасимптотика. Вопрос не так актуален для гауссова распределения, поскольку оно сходится быстро (в силу ЗБЧ и ЦПТ); другое дело — негауссовы случайные величины.

Смотрите далее в разделе о показателе каппа.

2.2.5. Показатель каппа

Здесь показатель не в алгебраическом смысле, как показатель степени, а в инженерном, как количественный параметр машины [19]. Каппа оценивает доасимптотическое поведение случайной величины. Этот показатель разработан автором, как описано в главе 8 и статье [235]. Каппа пробегает интервал [0, 1]; κ = 0 для гауссовой случайной величины и κ = 1 для распределения Коши или иной случайной величины, не имеющей математического ожидания [20].

Пусть X1, …, Xn, … — случайные величины н. о. р. с конечным математическим ожиданием, то есть 𝔼X < +∞. Пусть SnX1 + X2 + … + Xn — частичная сумма. Пусть 𝕄(n) = 𝔼|Sn– 𝔼Sn| — математическое ожидание абсолютного отклонения частичной суммы n слагаемых от математического ожидания этой суммы (как мы уже предупреждали, у нас отклонение отсчитывается не от медианы, а от среднего). Определим скорость сходимости при увеличении числа слагаемых от n0 до n:

, (2.2)

где n0, n = 1, 2, … и n > n0 ≥ 1; соответственно

(2.3)

В дальнейшем мы будем часто пользоваться значениями nn0 + 1 и сокращать обозначение до κn0.

2.2.6. Эллиптическое распределение

О случайном векторе X размерности p × 1 говорят, что у него эллиптическое распределение (или распределение с эллиптическим контуром) с параметрами положения μ, неотрицательной матрицей Σ и некоторой скалярной функцией Ψ, если характеристическая функция представима в виде exp(it′μ)Ψ(tΣt′).

С практической точки зрения эллиптическое распределение должно собираться из распределений с одной и той же ковариационной матрицей. Переключение режима или стохастические ковариации (корреляции) мешают распределению быть эллиптическим. И мы покажем в Главе 6, что линейная комбинация случайных величин, следующих распределениям с тонким хвостом, способна генерировать взрывные толстохвостые свойства, когда эллиптичность нарушается. Этот эффект, наряду со случаями жирного хвоста, делает несостоятельной значительную часть современной финансовой науки.

2.2.7. Статистическая независимость

Независимость между двумя случайными величинами X и Y с частными функциями плотности вероятности fX(X) и fY(y) и совместной функцией плотности вероятности f(x, y) определяется тождеством:

независимо от коэффициента корреляции. В классе эллиптических распределений, когда совместное гауссово распределение имеет коэффициент корреляции 0, случайные величины и независимы, и некоррелированы. Иначе обстоит дело с многомерными формами t-распределения Стьюдента или распределения Коши.

2.2.8. Устойчивое распределение (устойчивое по Леви)

Это обобщение ЦПТ.

Пусть X1, …, Xn — независимые одинаково распределенные случайные величины. Рассмотрим их сумму Sn. Теорема утверждает, что

 , (2.4)

где XS следует устойчивому распределению 𝒮, an и bn — нормирующие константы, а  →D, как вы помните, означает сходимость по распределению (распределению X при n → ∞).

Свойства 𝒮 будут должным образом определены и рассмотрены в следующей главе. Пока заметим, что про случайную величину XS говорят, что она следует устойчивому (или α-устойчивому) распределению, и пишут XS ~ 𝒮(αS, β, μ, σ), если ее характеристическая функция χ(t) = 𝔼eitXS имеет вид:

, где αS ≠ 1. (2.5)

Ограничения: –1 ≤ β ≤ 1 и 0 < αS ≤ 2 [21].

2.2.9. Многомерное устойчивое распределение

О случайном векторе X = (X1, …, Xk)T говорят, что он имеет многомерное устойчивое распределение, если каждая линейная комбинация его компонент Ya1X1 + ⋯ + akXk имеет устойчивое распределение. То есть каждая векторная константа a ∈ ℝk должна давать устойчивое одномерное распределение для случайной величины YaX.

2.2.10. Точка Караматы

См. Класс степенного закона.

2.2.11. Субэкспоненциальность

Естественной границей между Медиокристаном [22] и Экстремистаном служит субэкспоненциальный класс, обладающий следующим свойством.

Пусть X1, …, Xn — последовательность независимых одинаково распределенных случайных величин с носителем в (ℝ+) и кумулятивной функцией распределения F.

Субэкспоненциальный класс определяется требованием (см. [248], [196]):

, (2.6)

где F*2F′ ∗ F — это кумулятивное распределение X1 + X2, суммы двух независимых копий случайной величины X. Требование означает, что вероятность того, что сумма X1 + X2 превысит значение x, вдвое выше вероятности того, что значение x будет превышено любым отдельно взятым слагаемым. Значит, для больших x все случаи, когда сумма превышает x, она обязана этим только одному из слагаемых — большему из двух, — тогда как вклад другого пренебрежимо мал [23].

Обобщая, можно доказать, что и в сумме n величин преобладает одна из них, максимальная. Формально следующие два свойства эквивалентны условию субэкспоненциальности [43], [84].

Для данного n ≥ 2 пусть и Mn = max1≤i≤nXi. Тогда

 

a)

b) .

 

Таким образом, сумма Sn сравнима по величине с наибольшим слагаемым Mn, другими словами — хвосты играют главную роль.

На интуитивном уровне важно понять, что частота событий в хвосте субэкспоненциальных распределений падает медленнее, чем в экспоненциальном распределении, где событиями в далеком хвосте можно пренебречь.

В самом деле, можно доказать, что у субэкспоненциальных распределений нет экспоненциальных моментов:

(2.7)

для всех ε больше нуля. Однако обратное неверно, поскольку распределения могут не иметь экспоненциальных моментов и все равно не удовлетворять субэкспоненциальному условию.

2.2.12. t-распределение Стьюдента как прокси

Мы используем t-распределение Стьюдента с α степенями свободы как удобное распределение степенного закона с двумя хвостами. При α = 1 оно превращается в распределение Коши, а при α → ∞, естественно, в гауссово.

t-распределение Стьюдента — это главный колоколообразный степенной закон, то есть плотность вероятности непрерывная и гладкая, асимптотически приближается к нулю для больших x, отрицательных или положительных, и унимодальна, то есть ее максимум — единственный (кроме того, плотность вероятности квазивыпукла вверх, хотя и не выпукла вверх).

2.2.13. Круг цитирования

Замкнутый механизм, помогающий академической карьере авторов статей, которые считаются выдающимися, поскольку их цитируют, без фильтрации по внешним критериям; в результате исследоватили оседают по уютным углам, сосредоточившись на несущественных частных вопросах. Этот механизм сложился в условиях функционирования академической системы без контроля извне и без собственной шкуры на кону.

Примеры областей исследований, которые по сути шарлатанство, так как их результаты непереносимы в реальную жизнь и пригодны только как пища для новых статей, которые, в свою очередь, произведут только новые статьи: современная портфельная теория [24], эконометрика (особенно в части макроэкономических параметров), процедуры GARCH [25], психометрия, модели стохастического управления финансами, поведенческая экономика и финансирование, принятие решений в условиях неопределенности, макроэкономика и прочее.

2.2.14. Погоня за рентой в научном мире

Существует конфликт интересов [26] между исследователем и его темой. Целью кафедры и ее сотрудников становится цитируемость, награды и прочее в ущерб собственно исследованию; например, чтобы не браться за трудные задачи, многие разбредаются по углам, где исследование полезно для личной карьеры и для кафедры, а не для дела.

2.2.15. Псевдоэмпиризм, или Проблема Пинкера [27]

Привлечение «доказательств», лишенных статистической значимости, или использование показателей, которые неинформативны, поскольку неприменимы к рассматриваемым случайным величинам (например, вывод на основе средних значений или корреляция величин с толстым хвостом). Причина болезни в том, как учат будущих исследователей в общественных науках:

 

i) статистике учат на примере гауссовых величин или величин с тонким хвостом,

ii) не учат теории вероятностей и плохо учат терминам статистики,

iii) вовсе не учат работать с многомерностью.

Вот примеры псевдоэмпиризма: сравнивают число смертей от террористических актов или при эпидемиях вроде эболы (где у случайной величины хвост жирный) и несчастные случаи при падении со стремянок (где хвост тонкий).

Смещение в сторону подтверждения наблюдений — бич современной науки; оно приводит к ложно-позитивным выводам как в случаях многомерных случайных величин, так и в случаях жирного хвоста.

На самом деле даже не обязательно знать разницу между величинами с жирным хвостом и гауссовыми, чтобы заметить шаткость таких рассуждений, поскольку они не удовлетворяют простому критерию статистической значимости. Впрочем, рассуждающие обычно вовсе не разбираются в статистической значимости.

2.2.16. Предасимптотика

Математическая статистика любит работать с суммой n слагаемых при n = 1 или n = ∞. Посередине находится то, что мы называем реальностью и чему главным образом посвящена эта книга. Некоторые суммы (скажем, те, где у слагаемых конечная дисперсия) ведут себя, как гауссова величина, асимптотически, при n = ∞, однако не делают этого даже при некоторых огромных n < ∞.

2.2.17. Стохастизация

Замена детерминированного параметра на случайный; можно (i) простым способом, можно (ii) с применением более сложного непрерывного или дискретного распределения.

i) Пусть s — детерминированный параметр; стохастизируем его простейшим способом, заменив на случайную величину S, следующую распределению [28] Бернулли с двумя значениями: s1, которое принимается с вероятностью p, и s2, которое принимается с вероятностью 1 – p. Стохастизация сохранит среднее, если ps1 + (1 – p)s2s, то есть когда значение параметра s сохраняется в виде среднего значения случайной величины S. Вообще говоря, заменить некоторый параметр s некоторого распределения f на случайную величину S можно так, чтобы сохранить дисперсию распределения или какие-то другие характеристики.

ii) Можно использовать полноценное распределение вероятностей. Обычно берут гауссово, если нужна случайная величина с двумя хвостами, а когда нужен один хвост, берут логнормальное или экспоненциальное распределение, реже степенной закон. Когда s — это среднеквадратическое отклонение некоторой случайной величины, можно стохастизировать s2, создав стохастическую волатильность; дисперсию или среднеквадратическое отклонение параметра s называют волатильностью волатильности и обозначают V-vol.

2.2.18. Стоимость под риском, условная стоимость под риском

Математически стоимость под риском (value at risk, VaR) при пороге [29] λ ∈ [0, 1] для случайной величины X с функцией распределения F выражается как

VaRλ X = –inf{x ∈ ℝ | F(x) > λ} [30],

а соответствующая условная стоимость под риском (conditional value at risk, CVaR), она же ожидаемые потери (expected shortfall, ES) [31] при пороге λ, как

ESλ X = 𝔼(–X | X ≤ –VaRλ X)

или, рассматривая положительную величину потерь, работают с положительным хвостом распределения [32].

Обобщая, ожидаемые потери при пороге k определяют как 𝔼(X | X > K) [33].

2.2.19. Своя шкура на кону

Фильтрующий механизм, который заставляет повара отведать собственное блюдо и пострадать, если оно не удалось; так система избавляется от опасных участников.

Ставят на кон свою шкуру, например, сантехники, дантисты, хирурги, инженеры. Их работа приносит осязаемый результат, или предприятие разоряется.

Где нет своей шкуры на кону: в академических кругах. Участники оценивают друг друга, не ощущая давления со стороны реальности, угрожающего их существованию.

2.2.20. График MS

График MS (maximum to sum, максимум к сумме) показывает проявление ЗБЧ на данный момент, вклад максимального наблюдения в итог и поведение итога по мере роста n.

Чтобы узнать для НСВ X, существует ли 𝔼 Xp, нужно пронаблюдать сходимость согласно закону больших чисел или ее отсутствие, изучив поведение высших статистических моментов в данной выборке. Удобно это делать по графику MS, как показано на Рисунке 10.3.

График MS опирается на следствие из закона больших чисел [184], касающегося максимального значения случайной величины. Для последовательности X1, X2, …, Xn, … неотрицательных случайных величин н. о. р., если 𝔼 Xp < ∞ при p = 1, 2, 3, … то отношение

где  — частичная сумма, а  — частичный максимум. (Заметим, что в качестве X можно взять абсолютную величину случайной величины, если НСВ может принимать отрицательные значения, и тогда данный подход будет применим и к нечетным статистическим моментам.)

2.2.21. Максимальный аттрактор (MDA)

Теория экстремальных значений рассматривает распределение максимума по n экземплярам НСВ, когда это распределение при x → x*, где x* = sup{x: F(x) <1} (точка, в которой распределение «кончается» [34]), приближается, с точностью до последовательностей нормирующих коэффициентов, к одному из предельных распределений G(x) — максимальных аттракторов [35] [116]. Другими словами,

2.2.22. Подмена интеграла в литературе для психологов

В литературе без формул совершается следующее смешение понятий. Пусть K ∈ ℝ+ — порог, f (.) — плотность вероятности, pK ∈ [0, 1] — соответствующая вероятность превысить порог и g(.) — функция воздействия. Обозначим как I1 ожидаемый платеж при превышении K:

и как I2 платеж при K, умноженный на вероятность превысить K:

Подмена происходит из-за смешения I1 и I2, которые на самом деле совпадают только в случае, когда g(.) — константа в области выше K (скажем, когда g(x) = ϑK(x), тета-функция Хевисайда).

Если же, напротив, g(.) изменяется с положительной первой производной, интеграл I1 будет близок к I2 только при распределении с тонким хвостом, а в случае жирного хвоста — нет [36].

2.2.23. Попытка вынести вероятность за скобку (еще одна типичная ошибка)

Пусть F: 𝒜 → [0, 1] — распределение вероятностей (с производной f), а g: ℝ → ℝ — измеримая функция «платежа». Понятно, что платеж по области 𝒜 — подмножеству множества 𝒜 составит

В дискретном случае для функции вероятности π(.)

(2.8)

Общая идея в том, что умножение на вероятность не выносится за знак интеграла или суммы; если по ставкам на разные события разная вероятность выигрыша, ожидаемый платеж при некотором наборе ставок разной величины на разные события нельзя посчитать по средней вероятности выигрыша.

2.2.24. Линейка Витгенштейна

Имеется в виду следующий парадокс: вы правда измеряете стол линейкой или на самом деле вы измеряете линейку столом? [37] В нашем случае ответ зависит от результата.

Допустим, имелось только две альтернативы: гауссово распределение и степенной закон. Мы докажем, что большое отклонение, скажем на «шесть сигма», — признак степенного закона [38].

2.2.25. Черные лебеди

Черные лебеди появляются из-за неполноты нашего знания и могут быть весьма значительны в области жирных хвостов.

По сути, это вещи, которые выпадают из вашего горизонта планирования и моделирования, но могут иметь значительные последствия. Речь не о том, чтобы предсказать их, а только о том, чтобы иметь для них выпуклую вниз (или хотя бы не выпуклую вверх) оценку воздействия: хрупкость по отношению к определенному классу событий поддается обнаружению и даже измерению (путем оценки эффектов второго порядка и асимметрии реакций), даже если статистические параметры этих событий установить не удастся.

Тяжело объяснить разработчикам модели, что им нужно научиться работать с вещами, которых они никогда не видели (и даже не представляли), но это нужно сделать [39].

Примечание об эпистемологическом измерении: черные лебеди зависят от наблюдателя; одно и то же событие может быть черным лебедем для индейки и белым лебедем для торговца мясом. 11 сентября стало черным лебедем для жертв нападения, но не для террористов. Зависимость от наблюдателя — неотъемлемое свойство черного лебедя, и его объективная теоретико-вероятностная модель не просто недоступна, она логически невозможна, ибо разрушит моделируемый объект, нарушив существенную для него неполноту информации и ее распространения.

Серые лебеди: так называются большие отклонения со значительными последствиями и низкой частотой, но все же не нарушающие статистических параметров. Разумеется, серость лебедя зависит от наблюдателя: лебедь, который сер для разработчика модели с распределением по степенному закону, окажется черен для наивного статистика, тщетно перебирающего стандартные системы моделирования и репрезентации тонких хвостов.

Повторим лишний раз: черные лебеди возможны и вне жирных хвостов, но в жирных хвостах они важнее. Связь между жирными хвостами и черными лебедями та, что в области жирных хвостов большие отклонения оказывают более сильное воздействие.

2.2.26. Выборочная функция распределения ненаблюдаема эмпирически [40]

Выборочная функция распределения F̂(t) определяется так.

Пусть X1, X2, …, Xn — действительные случайные величины н. о. р. с функцией распределения F(t). Тогда

где𝟙𝒜 — индикаторная функция множества 𝒜.

Согласно теореме Гливенко — Кантелли, независимо от исходного распределения F(t) статистика Колмогорова [41] равномерно сходится к распределению [42] Колмогорова — Смирнова, причем

(2.9)

Эта «сходимость почти наверное» независимо от распределения гарантирована для вероятности, но не для высших моментов; такой результат автор получил и обобщил для «скрытого момента» выше максимума.

Отметим главный результат [43] (который Донскер в дальнейшем обобщил, выведя теорему броуновского моста, для случая ограничения t интервалом от 0 до 1):

(2.10)

Когда говорят, что «выборочная функция распределения ненаблюдаема эмпирически», имеют в виду, что выборочные распределения неизбежно цензурируются на интервале [xmin, xmax], и в случае жирного хвоста исследователь попадает в трудное положение: хвост не удается проанализировать в вероятностном пространстве, только в пространстве платежей.

Смотрите также главку о скрытом хвосте (следующую).

2.2.27. Скрытый хвост

Рассмотрим Kn — максимум по выборке из n независимых одинаково распределенных случайных величин: Kn = max(X1, X2, …, Xn). Пусть φ(.) — плотность исходного распределения. Разложим его статистический момент порядка p на два слагаемых, где «скрытый» вклад вносится хвостом выше Kn:

Здесь μL — вклад наблюдаемой части распределения и μK — вклад скрытой части (выше K).

Согласно теореме Гливенко — Кантелли, распределение μK, 0 не может зависеть от исходного распределения X, но на высшие статистические моменты эта теорема не распространяется, так что у исследователя, полагающегося на критерий [44] Колмогорова — Смирнова, могут быть проблемы.

2.2.28. Теневой момент

В этой книге рассматривается «дополнительная оценка». Бывает, что недостаточно найти среднее по наблюдаемой выборке: в случае распределений с жирным хвостом оно дает систематическую ошибку. Мы показываем, как оценить методом максимального правдоподобия основные параметры распределения, такие как показатель хвоста α, и рассчитать соответствующее теневое математическое ожидание или высшие статистические моменты.

2.2.29. Зависимость в хвосте

Пусть X1 и X2 — две случайные величины, не обязательно из одного класса распределений. Пусть F←(q) — функция, обратная функции распределения для вероятности q, то есть F←(q) = inf {x ∈ ℝ: F(x) ≥ q}, тогда зависимость в верхнем хвосте λu определяется как

 [45]. (2.11)

Аналогично определяется показатель зависимости в нижнем хвосте.

2.2.30. Метавероятность

Вероятность вероятности возникает, когда два вероятностных распределения сравнивают методами, включающими в себя стохастизацию параметров. Или когда параметр стохастизируют, чтобы рассчитать распределение цен опционов «колл» или показателей риска вроде VaR (см. соответствующую главку), CVaR и т. д. и проверить робастность или выпуклость вниз полученного распределения.

2.2.31. Динамическое хеджирование

Выигрыш по европейскому опциону «колл» C с установленным сроком T при стоимости исходного актива S следует хеджировать потоком динамических хеджей от настоящего времени T до t со следующим пределом:

(2.12)

Мы разбиваем интервал на n частей с инкрементом ∆t. Здесь хедж-отношение 
∂С/∂S
  вычисляется на промежутке времени t + (i – 1) ∆t, но мы получаем непредвосхищающую разность между ценой на время инициации хеджа и результирующей ценой на время t + i ∆t.

Предполагается, что таким путем выигрыш становится детерминированным в пределе ∆t → 0. В мире гауссовых распределений пределом будет интеграл Ито — Маккина.

Мы покажем, в каких случаях жирного хвоста специальные доасимптотические свойства делают хеджирование невозможным.

Часть IЖИРНЫЕ ХВОСТЫ И ИХ ПОСЛЕДСТВИЯ,ЗНАКОМСТВО

3НЕТЕХНИЧЕСКИЙ ОБЗОР — ЛЕКЦИЯ В КОЛЛЕДЖЕ ДАРВИНА*‡

Abyssus abyssum invocat [46].Псалтирь

В этой главе [47] представлены нетехнически, но полно все статистические эффекты проекта жирных хвостов. Все основные идеи кратко изложены в одном месте. Главным образом это список доброй дюжины последствий, которые жирные хвосты имеют для статистических выводов.

3.1. О РАЗЛИЧИИ МЕЖДУ ТОНКИМ И ЖИРНЫМ ХВОСТОМ

Начнем с понятия толстого хвоста и как оно связано с экстремальными значениями. Представим себе два воображаемых царства, Медиокристан (где хвосты тонкие) и Экстремистан (где хвосты толстые).

В Медиокристане, как только выборка изучаемых событий станет большой, дальнейшие наблюдения перестанут влиять на оценку статистических свойств.В Экстремистане на эти свойства непропорционально сильно влияют хвосты (редкие события).

Рисунок 3.1: Закон больших чисел, то есть сходимость среднего по выборке к устойчивому значению, медленно работает в Экстремистане (в данном примере взято распределение со степенным законом при показателе хвоста 1,13, обеспечивающем «правило Парето 20 на 80»). В обоих распределениях одно и то же среднеквадратическое отклонение. Заметим, что феномен наблюдается и для других форматов выборки, например, тех, что используются в портфельной теории

Посмотрим с другого бока. Рассмотрим большое отклонение X.

В Медиокристане вероятнее два раза подряд встретить в выборке отклонение больше X, чем встретить один раз отклонение больше 2X.В Экстремистане скорее попадется отклонение выше 2X, чем два раза подряд отклонение выше X.

Пусть в Медиокристане мы выбрали двоих жителей, и оказалось — редкий, хвостовой случай, — что их суммарный рост 4,1 метра. При гауссовом распределении (точнее, в данном случае речь о его брате с одним хвостом) самое вероятное сочетание ростов окажется 2,05 метра и 2,05 метра. Никак не 10 сантиметров у одного жителя и 4 метра у другого.

Упрощая, можно сказать, что вероятность отклониться дальше чем на 3 сигмы составляет 0,00135, и вероятность отклониться дальше чем на 6 сигм, то есть вдвое сильнее, составляет 9,86 × 10–10. Значит, вероятность совпадения двух трехсигмовых событий равна 1,8 × 10–6, и это гораздо вероятнее, чем одно шестисигмовое событие.

 

Рисунок 3.2: Что происходит с распределением среднего по выборке при росте числа наблюдений? Представлен тот же феномен, что на Рисунке 3.1, но в пространстве вероятностных распределений. Сжать распределение с жирным хвостом труднее, чем гауссово. Выборка потребуется гораздо бо́льшая. Такие дела

Рисунок 3.3: Изолинии плотности вероятности для двух независимых гауссовых распределений. Прямая показывает случаи x+ y = 4,1. Видно, что самый высоковероятный из них — при x = y = 2,05

Так рассуждают, если хвост распределения не толстый.

На Рисунке 3.4 показано, что если продвигаться дальше по хвосту, перейти от отношения вероятности совпадения двух 3-сигмовых событий к вероятности одного 6-сигмового к отношению вероятности совпадения двух 4-сигмовых и к вероятности одного 8-сигмового, то окажется, что большое отклонение возможно только при сочетании (сложении) умеренных отклонений; см. правую часть Рисунка 3.4. Другими словами, большая беда может грянуть только в результате серии редких событий, никак не из-за одного-единственного. Такова логика в Медиокристане.

Теперь отправимся в Экстремистан и выберем двух жителей. Пусть оказалось, что в сумме их состояние составляет 36 млн долларов. Но вряд ли это будет сочетание 18 млн долларов и 18 млн долларов. Скорее окажется, что это 35 999 000 долларов и 1000 долларов.

 

Рисунок 3.4: Отношение функций выживания S(.) для двух аномалий размером K и одной аномалии размером 2K при гауссовом распределении [48]. Чем больше K, то есть чем дальше мы уходим в хвост, тем решительнее составная аномалия, то есть совпадение двух независимых аномалий размером K, с функцией выживания, преобладает над единичной аномалией величиной 2K

Рисунок 3.5: Изолинии плотности для двух независимых распределений с толстым хвостом (в классе степенного закона). Прямая показывает случаи x + y = 36. Видно, что самые высоковероятные из них — при x = 36 – ε или при y = 36 – ε и что ε будет стремиться к нулю, если рассмотреть бо́льшие x + y

Рисунок 3.6: Та же ситуация, что на Рисунке 3.5, только показаны оси действительных чисел, включая отрицательные. Видно, что, в отличие от Рисунка 3.3, изолинии степенного закона напоминают крест, особенно при низких плотностях, где эллиптичность совершенно утрачивается

Мы подчеркнули четкое различие между двумя областями. В классе субэкспоненциальных распределений катастрофа скорее наступит из-за одного редкого события, чем из-за серии аварий. Эта логика лежит в основе классической теории рисков, намеченной страховым статистиком Филипом Лундбергом в начале XX века [155] и формализованной в 1930-е Харальдом Крамером [51], но забытая современными экономистами. Чтобы имело смысл страховать убытки, у них должно быть много ожидаемых причин, а не одна-единственная; только при большом числе ожидаемых причин возможна диверсификация.

Это показывает, что страховой бизнес работает только в Медиокристане; не выписывайте страховки без верхнего предела возмещаемого ущерба, если рискуете разориться на одной-единственной катастрофе. Это правило называется принципом катастрофы [49].

Как мы видели ранее, при распределениях с толстым хвостом экстремальные события, далекие от центра распределения, играют весьма важную роль. Не то чтобы черные лебеди здесь встречаются чаще, это недоразумение, просто их последствия существеннее. Самый жирный хвост — это когда в распределении всего одно отклонение, зато огромное, а не многочисленные умеренные аномалии. На Рисунке 4.4 показано, что, если взять распределение вроде гауссова и начать ужирнять его хвосты, число событий за пределами одного стандартного отклонения падает. При гауссовом распределении вероятность того, что случайное событие попадет в интервал плюс-минус одного стандартного отклонения от математического ожидания, составляет 68 процентов. По мере ужирнения хвостов, скажем, до уровней, типичных для финансовых рынков, вероятность того, что событие останется в пределах одного стандартного отклонения от математического ожидания, возрастает до 75–95%. Чем жирнее хвосты, тем выше и у́же пик и вместе с тем сильнее эффект очень больших отклонений. Поскольку сумма всех вероятностей дает 1 (даже во Франции), при добавлении жира в хвосты худеют склоны пика.

3.2. ХВОСТ, ВИЛЯЮЩИЙ СОБАКАМИ: ИНТУИТИВНО

Эффект хвоста, виляющего собакой

Центральная идея та, что чем толще хвост распределения, тем больше хвост виляет собакой, то есть важная информация сосредотачивается в хвосте, покидая «туловище» (центральную часть) распределения. В случае очень жирного хвоста все отклонения, кроме больших, делаются информационно стерильными.

Центр становится просто шумом. Хотя «доказательная наука» еще не вполне осознала этот феномен, но есть обстоятельства, когда основной корпус данных ни о чем не свидетельствует.

Это свойство также объясняет, почему закон больших чисел медленно срабатывает при наблюдении таких областей, ведь хвостовые наблюдения, где сосредоточена главная информация, по определению хвоста случаются редко.

Это свойство объясняет, например, почему наблюдение миллиона белых лебедей не доказывает несуществование черных лебедей или почему миллион подтверждающих наблюдений стоит меньше, чем одно опровергающее. Мы свяжем этот феномен с асимметрией в духе Поппера позже в этой главе.

Оно также объясняет, почему нельзя сопоставлять случайные величины, определяемые своим хвостом (например, число жертв пандемии), со случайными величинами, определяемыми своим телом (например, число утонувших в своем бассейне). О следствиях системных рисков для политики смотрите статью Чирилло и Талеба 2020 года [48].

3.3. ДОПОЛНИТЕЛЬНЫЕ КАТЕГОРИИ И ЧТО ИЗ НИХ СЛЕДУЕТ

Рассмотрим разные степени толстохвостости, для начала бегло; позже в этой книге нам еще предстоит углубиться, и не раз. Упорядочим их по серьезности.

Распределения бывают:

Толстохвостые ⊃ Субэкспоненциальные ⊃ По степенному закону (по Парето)

Во-первых, есть толстохвостые начального уровня. Чтобы попасть в «толстые», хвосту достаточно всего лишь быть толще, чем у гауссова распределения; это значит, что в пределы ± среднеквадратическое отклонение должно попасть больше чем erf
1/√2
≈ 68,2% наблюдений, или что эксцесс (представляющий собой функцию четвертого центрального момента [50],  [51]) превышает 3 [52].

Во-вторых, есть субэкспоненциальные распределения, которые соответствуют приведенному выше мысленному эксперименту — тому, где иллюстрируется принцип катастрофы. У чисто субэкспоненциального распределения, не вошедшего в класс степенного закона, хвост лишь умеренно толст и не ставит распределение под чудовищное, непропорциональное воздействие со стороны редких событий. А именно у чисто субэкспоненциального распределения в наличии все статистические моменты.

Распределения третьего уровня называют по-всякому — степенной закон, правильно меняющийся класс, класс «с хвостом Парето»; речь о самых толстых, жирных хвостах, но и среди таких различают разную жирность. Определения различий внутри этого класса зависят от выбираемой системы параметров; не углубляясь пока в подробности того или иного показателя хвоста, заметим, что у всякого жирнохвостого распределения некоторый статистический момент обращается в бесконечность, и все моменты более высоких порядков также бесконечны.

Рассмотрим пирамиду на Рисунке 3.7, снизу вверх. Слева внизу вырожденное распределение, когда случайная величина может принимать только одно значение, то есть никакой случайности и никакой изменчивости нет. Этажом выше распределение Бернулли, при котором возможны ровно два исхода. Еще выше два гауссовых распределения. Есть естественное гауссово распределение (с носителем от минус бесконечности до плюс бесконечности) и есть приближения, полученные сложением случайного блуждания (с более-менее компактным [53] носителем, если не допустить бесконечно большого числа слагаемых). Это две разные вещи, ведь первое разрешает бесконечно большие значения, а второе — нет (не считая асимптотического приближения к бесконечным значениям). Над гауссовыми распределениями расположен класс субэкспоненциальных, не принадлежащих классу степенного закона. В субэкспоненциальном классе у распределения существуют все моменты. К этому классу относятся логнормальные распределения, и это самые коварные звери во всей статистике, способные ввести исследователя в заблуждение. При низкой дисперсии они тонкохвостые; при высокой дисперсии обнаруживают ярко выраженное толстохвостое поведение. Некоторые спешат обрадоваться, когда данные оказываются распределены не по Парето, а логнормально, однако иногда радоваться не стоит. В причудливые свойства логнормальных распределений мы углубимся в Главе 8.

 

Рисунок 3.7: Пирамида толстых хвостов и ряд классификаций по сходимостям (сходимость по закону больших чисел и др.) и по серьезности проблем для выводов. Распределения по степенному закону на белом фоне, остальные на желтом. См. Амбре и др. [82]

Принадлежность субэкспоненциальному классу не обеспечивает условия Крамера, разрешающего заниматься страхованием, как мы видели в мысленном эксперименте в начале главы и проилюстрировали на Рисунке 3.4. Говоря техничнее, условие теоремы Крамера означает существование математического ожидания для экспоненты случайной переменной [54].

Покинув желтую зону, где закон больших чисел (ЗБЧ) более-менее работает [55], мы перейдем в классы, где не будет работать центральная предельная теорема (ЦПТ) [56] и начнутся проблемы со сходимостью. Это зона степенных законов. Мы ранжируем их по показателю хвоста α, о котором поговорим позже; пока примем, что чем ниже показатель хвоста, тем жирнее хвост. При α ≤ 3 распределение называется субкубическим и при α = 3 — кубическим. Эта часть жирнохвостой зоны неформально приграничная: у распределений есть моменты первого и второго порядка, а значит, закон больших чисел и центральная предельная теорема применимы… теоретически.

Следом идет класс с α ≤ 2, который мы для простоты называем классом устойчивости по Леви, хотя распределение степенного закона с показателем степени меньше 2 не является устойчивым по Леви; мы, однако, обращаем внимание на то, что по мере сложения все большего числа случайных величин распределение суммы приблизится, хотя бы теоретически, именно к устойчивости по Леви, а не гауссовому; это гарантируется так называемой обобщенной центральной предельной теоремой (ОЦПТ).

Еще выше по пирамиде жирность хвоста усиливается и пропадает дисперсия. При 1 ≤ α ≤ 2 дисперсии нет, но еще существует абсолютное среднее отклонение (то есть математическое ожидание абсолютной величины отклонения).

Еще выше, в верхней секции, пропадает даже математическое ожидание. Мы назвали этот класс Безнадегой [57]. Если вы что-то увидели в потоке данных этой категории, вернитесь домой и никому не рассказывайте.

У статистиков сложилась традиция в отношении толстых хвостов: пообещать, что будут использоваться особые распределения, а потом как ни в чем не бывало опять использовать старые показатели, критерии и оценки значимости. Но после выхода из желтой зоны, для которой раньше разрабатывались статистические методы, ничто не работает по плану. В следующем разделе представлен целый ворох проблем, и почти все безнадежны. С этого места развернем технические подробности и начнем использовать математический жаргон.

Обзор проблемы со злоупотреблением стандартной статистикой

Статистическая оценка основана на двух элементах: на центральной предельной теореме (предполагающей работу с «большими» суммами, когда почти всякое явление в мире становится уютным и нормальным) и на законе больших чисел, согласно которому дисперсия оценки падает по мере роста выборки. К сожалению, не все так просто; есть ограничения. В Главе 8 мы покажем, что нужная выборка сильно зависит от того, какому распределению следует исходный процесс, и драматически различается даже в одном классе. Как показали Бушо и Поттерс в [27] и Сорнетт в [214], хвосты с конечной дисперсией даже при бесконечных высших моментах могут сходиться, с ростом числа слагаемых n, к гауссовому в области ± √n ln n, то есть центральная часть распределения в этой полосе становится гауссовой, тогда как далекие части, то есть хвосты, этого не делают; надо понимать, что многие свойства определяются как раз хвостами.

Жизнь протекает в доасимптотических областях.

К сожалению, в статье про статистические оценки в монументальной «Энциклопедии статистических наук» [147] Василий Хёфдинг пишет:

 

«Обычно точное распределение статистического параметра оказывается сложным и неудобным. Отсюда потребность приблизить его более простой формулой, имеющей более прозрачные свойства. Важный инструмент для таких приближений дают предельные теоремы теории вероятностей. В частности, классические центральные предельные теоремы утверждают, что сумма большого числа независимых случайных величин распределена приблизительно по нормальному закону при весьма общих условиях. Собственно, нормальное распределение преобладает среди возможных предельных распределений. Процитируем из текста Гнеденко и Колмогорова [[111], Гл. 5]:

 

…если для сходимости функций распределения сумм независимых слагаемых к нормальному закону на слагаемые помимо требования их бесконечной малости (или предельного постоянства) приходится налагать лишь ограничения весьма общего характера, то для сходимости к другим предельным законам от слагаемых требуется наличие некоторых весьма специальных свойств [58].

 

Более того, многие статистические распределения асимптотически ведут себя как суммы независимых случайных величин. Все это помогает объяснить важную роль нормального распределения как приближающего распределения».

 

Но что, если мы не успели достичь нормального распределения, если жизнь настигла нас до выхода на асимптоту? Вот о чем рассказывается в данной книге [59].

3.4. ОСНОВНЫЕ СЛЕДСТВИЯ И КАК ОНИ СВЯЗАНЫ С ДАННОЙ КНИГОЙ

Вот некоторые следствия выхода за пределы желтой части пирамиды, зоны статистического комфорта:

Следствие 1

Закон больших чисел в реальном мире даже если работает, то слишком медленно.

Это невообразимый шок — большинство статистических оценок отменяется. Иллюстрацию смотрите на Рисунке 3.1 в этой главе. Тема рассматривается в Главе 8, где проводится соответствующая классификация распределений [60].

Следствие 2

Среднее по выборкам редко концентрируется вокруг среднего, присущего генерирующему процессу; чаще проявляется стойкое смещение малой выборки в одну сторону, особенно сильное, когда распределение генерирующего процесса асимметрично (или однохвостое).

Это еще одна проблема из-за недостаточности выборки. Собственно, ни при каком толстохвостом или однохвостом распределении невозможно правильно оценить среднее генеральной совокупности по среднему выборки — первое зависит от редких событий, а такие события становятся видны только при большом объеме данных [61]. Возьмем некоторые степенные законы. При законе, дающем пресловутые «20 к 80», в 92% наблюдений по выборке среднее занижается. Чтобы на основании среднего по выборкам можно было как-то судить о распределении, требуются объемы данных на порядки больше, чем практически доступный объем (исследователи в области экономики до сих пор этого не понимают, хотя трейдеры инстинктивно чувствуют). Проблема кратко обсуждается ниже в главке 3.8 и с более детальным формализмом в главах о теневом среднем — 15 и 16. Кроме того, в главке 3.8 мы представим концепцию скрытых свойств. Понятно, что дисперсия при малой выборке недооценивается.

 

Рисунок 3.8: При наличии толстого хвоста можно подогнать весьма различные линейные регрессии к одним и тем же данным (а теорема Гаусса — Маркова  [62], на которую опирается метод линейной регрессии, неприменима). Слева: обычная (наивная) регрессия. Справа: линейная регрессия, которая пытается адаптироваться к большой дисперсии — так сказать, домножить на хеджирующий коэффициент, то есть защитить агента от большого отклонения, идя на худшее приближение слабых отклонений. Иногда фатально именно пропустить большое отклонение. Заметим, что выборка не содержит критических наблюдений, об их существовании лишь делаются допущения методами теневого среднего.

Следствие 3

Такие показатели, как среднеквадратическое отклонение и дисперсия, неприменимы.

Выборка не отражает их, даже если они существуют, даже если статистические моменты существуют. Всяческие подробности обсуждаются в Главе 4. Научный предрассудок, будто концепция среднеквадратического отклонения (которую пользователи вдобавок путают со средним отклонением) — универсально полезный показатель вариативности; на самом деле этот параметр в лучшем случае работает в предписанной ему узкой области.

Следствие 4

Бета-коэффициент, коэффициент Шарпа и прочие расхожие финансовые показатели неинформативны.

Это простое следствие предыдущего пункта [63]. Для этих показателей либо требуется слишком много данных, на много порядков величины больше имеющегося объема, либо исходная модель нужна не та, что используется, а другая, которую еще не изобрели. На Рисунке 3.6 было показано, как коэффициент Шарпа, разработанный, чтобы предсказывать эффективность, провалился по выборке и даже сработал обратно своему назначению. То, что такой показатель по-прежнему используется, демонстрирует, как легко люди ведутся на цифирь.

 

Рисунок 3.9: Данные о хедж-фондах: по горизонтали коэффициент Шарпа накануне кризиса 2008 года, по вертикали потери в период кризиса, в среднеквадратических отклонениях. Коэффициент Шарпа не только не предсказал эффективность хедж-фонда в выборке, он скорее показал себя как слабый предиктор неудачи. С разрешения Рафаэля Дуади

Практически каждая экономическая величина и стоимость ценных бумаг имеет толстый хвост. Из 40 000 изученных ценных бумаг ни одна не оказалась тонкохвостой. В этом главная причина неудач в финансах и экономике.

Финансовые теоретики делают вопиюще безосновательные заявления вроде «если у распределения толстый хвост, но существуют математическое ожидание и дисперсия, то портфельная теория на основе среднего и дисперсии работает»; иногда делают оговорку насчет эллиптичности, которую мы обсудим позже. Беда в том, что даже когда дисперсия существует, мы не имеем сколько-нибудь точного представления о ее величине; будучи вторым статистическим моментом, дисперсия подчиняется закону больших чисел еще медленнее, чем среднее, потому что имеет еще более толстый хвост, чем исходная случайная величина. Хуже того, стохастические корреляции или ковариации проявляют толстые хвосты своего рода (или теряют эллиптичность), тем самым обесценивая такие показатели.

Практически всякая статья по экономике, где используются ковариационные матрицы, — подозрительна.

Подробности приведены в Главе 4 для одномерной ситуации и в Главе 6 — для многомерной.

Следствие 5

Робастная статистика не робастна, а выборочное распределение не эмпирично.

Старая история. Название советской газеты Правда стало восприниматься как издевательство; робастная статистика врет не меньше, но в среде профессиональных статистиков прозрение пока не наступило.

Во-первых, робастная статистика гонится за параметрами, которые слабо реагируют на хвостовые события, наблюдения больших значений. Такое понимание робастности порочно, потому что отсутствие реакции показателя на хвостовое событие вполне может быть следствием неинформативности этого показателя. Более того, такие параметры не помогут оценить ожидаемый платеж.

Во-вторых, типичная робастная статистика строится в рамках так называемой «непараметрической» ветви статистической науки, где исследователи мнят, будто без параметров анализ будет меньше зависеть от распределения. На протяжении всей этой книги будет демонстрироваться, что зависимость от распределения только обостряется.

Винсоризация данных, устраняя выбросы, уродует процесс сходимости к математическому ожиданию и, по сути, сокращает доступные данные, хотя бывает полезно перепроверить достоверность выброса — вдруг это случайная ошибка, такая как опечатка или компьютерный глюк; в финансовом мире мы называем такие выбросы bad print («непропечатка»).

В непараметрической статистике популярно выборочное распределение [64], которое не работает эмпирически, поскольку, как мы покажем в главе 10, оно неправильно представляет ожидаемые платежи в хвостах, во всяком случае, та версия, которая используется в управлении финансами и рисками. Пока поясним только, что будущие максимумы плохо отслеживаются по прошлым данным, если не применить разумную экстраполяцию.

Представим себе, что планируется построить систему дамб для защиты от наводнения. Данные по уровню воды покажут наихудшее в истории наводнение, и этот уровень будет историческим максимумом. Наивно построенное выборочное распределение предскажет, что вероятность более страшного наводнения ноль (или около того). Но исторический максимум, по определению, являет пример, дискредитирующий оценку по историческому максимуму: в том году, когда случился исторический максимум, он превзошел предыдущий исторический максимум. И если бы к тому году мы столь же наивно построили эмпирическое распределение по имевшимся данным, мы не предвидели бы явление нового исторического максимума. При толстом хвосте различие между историческим максимумом и ожидаемым максимумом много драматичнее, чем при тонком хвосте.

Следствие 6

Линейная регрессия по методу наименьших квадратов не работает (провал теоремы Гаусса — Маркова).

Посмотрите на Рисунок 3.8 и подпись к нему. Логика за методом наименьших квадратов та, что по теореме Гаусса — Маркова наилучшая прямая по точкам данных оказывается единственной, когда у распределения тонкий хвост. Вывод: когда теорема Гаусса — Маркова применима и минимизировать квадраты отклонений можно, данных потребуется гораздо больше, чем бывает в реальном, доасимптотическом мире конечных данных; если же второй статистический момент не существует, то минимизация квадратов отклонений невозможна ни при каком объеме данных. В последнем случае можно попробовать минимизировать средние абсолютные отклонения (mean absolute deviations, MAD), но тогда, как мы увидим в 4.1, можно не только столкнуться с недостаточностью данных для хорошей сходимости, но и угловой коэффициент линейной регрессии может оказаться не единственным.

Эту проблему мы обсудим подробнее в Главе 6.7 и покажем, как из-за эффекта малой выборки при толстом хвосте завышается коэффициент детерминации (R2). В случае бесконечной дисперсии R-квадрат должен быть нулем. Но по конечной выборке получаются ложные значения выше 0. Вывод: при толстом хвосте R-квадрат бесполезен, неинформативен, и им злоупотребляют шарлатаны (например, в исследованиях IQ).

Следствие 7

Методы максимального правдоподобия могут работать в отношении некоторых параметров распределения (это хорошая новость).

Возьмем степенной закон. Форму хвоста по степенному закону можно оценить параметром — показателем хвоста (который мы в этой книге обозначаем греческой α [65]), и при добавлении еще одного параметра (масштаба) мы получаем лучшую связь со средним, чем непосредственное взятие среднего по выборке.

Пример: для простого распределения Парето с минимальным значением l, показателем хвоста α и плотностью вероятности αLαx–α–1 среднее зависит от α как L
α/α−1
. Есть смысл оценивать среднее именно по этой формуле, особенно если один из двух параметров уже известен (этот метод мы и назвали выше дополнительной статистической оценкой). Можно оценить α с небольшой погрешностью, пользуясь визуальным инструментом, а можно использовать методы максимального правдоподобия и получить оценку с низкой дисперсией — у нее обратное гамма-распределение; найдя α, можно получить среднее. И выйдет лучше, чем просто среднее по выборке.

Логика этого метода стоит того, чтобы ее выделить:

Показатель хвоста экстраполирует низковероятные отклонения, которые не встретились в собранных данных, но которые вносят непропорционально большой вклад в среднее.

Этот общий подход к статистическим оценкам применим, в частности, к индексу Джини и другим оценкам социального неравенства.

 

Рисунок 3.10: Показатели неравенства, такие как коэффициент Джини, требуют других методов оценки при толстом хвосте, как мы увидим в Части III. Наука дается трудно

Итак, возможно получить надежные (или хотя бы менее шаткие) оценки для, так сказать, функции показателя хвоста в некоторых ситуациях. Но никоим образом не во всех.

Здесь неизбежен вопрос из реального мира: а что делать, когда у нас нет надежной статистической оценки? Сидеть дома. Не следует подставляться при наличии хрупкости; можно тем не менее принимать рискованные решения, если нас несет к максимальным потерям (Рисунок 3.11).

 

Рисунок 3.11: «Я УЧИЛСЯ НА СВОИХ ОШИБКАХ, Я СТАЛ МУДРЕЕ. ХОЧУ СДЕЛАТЬ ЕЩЕ ПАРОЧКУ». Дело в том, что учиться на собственных ошибках хорошо, только пока хвосты тонкие. При жирных хвостах ошибки фатальны.Источник: сетевой фольклор с хештегом #youhadonejob (У тебя была одна задача)

Следствие 8

В отличие от обычной статистики, в случае жирных хвостов возникает пропасть между эмпиризмом опровержений и конфирматорным эмпиризмом; отсутствие доказательств здесь не служит доказательством отсутствия. (Так называемая доказательная наука, если не ограничивается строго одними опровержениями, обычно оказывается интерполяторской, бездоказательной и ненаучной.)

Из полемики с когнитивным лингвистом и популяризатором Стивеном Пинкером автор вынес следующее: нельзя делать выводы и строить теории на основе последних отклонений в данных, если не следовать стандартам значимости, а по ним в ситуации толстого хвоста требуется больше данных (эта логика аналогична рассуждениям касательно медленного ЗБЧ).

Утверждение Пинкера, что «уровень насилия упал», поскольку уменьшилось число убитых в войнах по сравнению с предыдущим годом или десятилетием, — ненаучно; научное суждение основывается не на анекдотическом свидетельстве, а на выборке, и учитывает такую вещь, как статистическая значимость.

Повторим лишний раз: утверждения, лишенные статистической значимости, не принадлежат миру науки. Практика вычитывать описательную статистику бывает оправданной в случае тонкого хвоста (где не требуется огромного размера выборки); в случае толстого хвоста так делать не надо — за исключением, повторимся, ситуации, когда наблюдалось большое отклонение; так, утверждение о росте числа острых конфликтов может вполне научным образом базироваться на одном-единственном наблюдении.

Следствие 9

Метод главных компонент и факторный анализ, скорее всего, нагенерируют кучу паразитных факторов и насчитают иллюзорные нагрузки.

Это техническая область; понятие недостаточной выборки применяется к так называемому методу главных компонент (principal component analysis, PCA), который призван сократить размерность больших случайных векторов. Проблемы с законом больших чисел имеют свою версию для высоких размерностей. Лучше всего эту историю разъясняет Рисунок 3.26, демонстрирующий предыскаженное восприятие так называемого «эффекта Вигнера» из-за недостаточности данных для PCA. Кроме того, говоря о технике дела, заметим, что распределение случайных матриц Марченко — Пастура неприменимо, когда не существует конечный четвертый момент (или, как показано в [23], когда показатель хвоста превышает 4) [66].

Следствие 10

Метод моментов (method of moments, MoM) не работает. Высшие моменты неинформативны или не существуют.

То же относится к ОММ, обобщенному методу моментов, увенчанному премией Банка Швеции по прозвищу нобелевка. Это долгая история, а пока ограничимся тем, что оценка данного распределения путем подбора моментов проваливается, если моменты не конечны, и от выборки к выборке оценка момента скачет — как мы скоро увидим на примере 4-го момента S&P 500 [67].

Попросту говоря, высшие моменты в толстохвостых распределениях вообще склонны взрываться, а в экономике и подавно.

Следствие 11

Такой вещи, как типичное большое отклонение, не существует.

При условии «большого» изменения величина изменений расходится, особенно при серьезной толщине хвоста (класс степенного закона). Ситуация похожа на принцип катастроф, который мы описали выше. В Гауссовом мире математическое ожидание изменения при условии, что величина изменения больше 4 среднеквадратических отклонений, примерно 4 среднеквадратических отклонения. При степенном законе получается в разы больше. Мы называем это свойством Линди; оно обсуждается отчасти в Главе 5, а главным образом в Главе 11.

Следствие 12

Коэффициент Джини теряет аддитивность.

Данные выборки для коэффициента Джини измеряют интерполяционно — по существу, с ними та же проблема, что мы видели выше с недооценкой среднего, если использовать выборочное среднее. Теперь дополнительное осложнение возникает из-за сверхаддитивности коэффициента Джини при толстом хвосте. По мере роста объема выборки условное измерение коэффициента Джини создает иллюзию суперконцентрации богатств. (Например, для Европы в целом можно насчитать неравенство доходов жителей, которое превысит средневзвешенное среднее по странам, составляющим Европу.)

Дело не просто в коэффициенте Джини, та же ситуация и с другими показателями концентрации, такими как процент национального богатства в собственности 1% самых богатых и т. д. Формулы выводятся в Главах 13 и 14.

Следствие 13

Теория больших отклонений к толстым хвостам неприменима.

Я не оговорился, именно так: неприменима [68]. Методы, связанные с принципом большого отклонения ([260], [59] и др.), очень полезны в мире тонких хвостов. И только там. Обсуждение и вывод формул смотрите в Приложении C, а также в главах, затрагивающих центральную предельную теорему, особенно в Главе 7.

Следствие 14

Динамическое хеджирование не снижает риски опционов.

Возможно, эта тема технически слишком сложна и при этом недостаточно интересна для тех, кто не занимается финансами, но сама основа хеджирования по модели [69] ценообразования опционов Блэка — Шоулза покоится на возможности и необходимости динамического хеджирования, и оба предположения несостоятельны, как показано в Главах 20, 21 и 22. Для этой модели требуется экспоненциальное падение частоты отклонений вдали от центра, то есть исключается распределение вероятности в субэкспоненциальном классе. Здесь мы опять говорим о вещах, связанных с условием Крамера, то есть в сухом остатке — с экспоненциальным моментом.

Вспомните, что автор занимался торговлей опционами, а среди трейдеров цена на опцион устанавливается отнюдь не путем динамического хеджирования, с которым, как показали Хог и автор, в прошлые века биржа не имела ничего общего.

Следствие 15

Прогнозирование в пространстве частот расходится с ожидаемым платежом.

А также:

Следствие 16

Львиная доля утверждений в литературе по психологии и по принятию решений, где говорится о якобы переоценке вероятностей в хвосте и якобы иррациональном поведении из-за редких событий, делается из-за непонимания исследователями природы хвостового риска, смешения вероятности и ожидаемого платежа, злоупотребления распределениями вероятностей и незнакомства с теорией больших отклонений.

Рисунок 3.12: Калибровка вероятностей, встречаемая в литературе по психологии. На оси x показана оценка вероятности, данная прогнозистом, а на y — что происходит в действительности; например, если после того, как некий метеоролог объявил вероятность дождя 30%, дождь происходит именно в 30% случаев, оценка этого метеоролога объявляется «откалиброванной». Мы утверждаем, что калибровка в пространстве частот (вероятностей) — академическая тема (в плохом смысле), создающая неверное представление о реальной жизни за пределами узкой области пари о двух возможных исходах. Данный подход особенно обманчив при толстых хвостах. Подробно вопрос разбирается в Главе 11

Этот вопрос рассматривается в следующем разделе и в Главе 11: дурацкая идея сфокусироваться на частотах вместо математического ожидания может дать небольшой эффект, но только при тонком хвосте, никак не при толстом. Эффект показан на Рисунках 3.12 и 3.13.

 

Рисунок 3.13: Как ошибка калибровки по вероятности отвечает ошибке калибровки по платежу при степенном законе. Рассматривается распределение Парето с показателем хвоста α = 1,15. Подробнее этот вопрос будет рассмотрен опять-таки в Главе 11

Следствие 17

Проблемы с разорением обостряются, и эргодичность становится неизбежной при толстых хвостах.

Здесь без технических деталей не обойтись, но мы разберемся с этой темой к концу данной главы.

Обсудим несколько вопросов.

3.4.1. Прогнозирование

В «Одураченных случайностью» [70] одного персонажа спрашивают про некоторый рынок, что вероятнее к концу месяца — подъем или падение. «Подъем, — отвечает персонаж, — намного вероятнее». После чего оказывается, что он заключил сделки, выгодные в случае падения. Разумеется, эта ситуация парадоксальна только на взгляд тех, кто незнаком с теорией вероятностей; для трейдеров это обычное дело, особенно когда распределение отличается от нормального: да, у подъема рынка вероятность была выше, но при этом у падения, если оно случится, ожидалась много бо́льшая глубина.

 

Рисунок 3.14: В жизни важен ожидаемый выигрыш, а не бинарный прогноз, и различие особенно велико в Экстремистане. (Почему «габиш», а не «капиш» [71]? Воспроизведен сицилийско-калабрезский акцент: «п» звучит как «б», а «к» звучит как семитский коф, твердое карфагенское «K». Примерно так же «капиколи» превращается в «габагул».) © Stefan Gasic

Это иллюстрирует распространенное смешение бинарного прогноза, который сообщает вероятность одного из двух исходов, с прогнозом эффекта, который учитывает больше нюансов и зависит от распределения вероятностей. Это самая элементарная, хотя и распространенная ошибка: называть в прогнозе одну-единственную вероятность, когда в действительности возможен целый диапазон различных исходов и ему отвечает распределение вероятностей. По мере углубления в тему мы встречаемся с менее очевидными парадоксами, которые не так известны. Но суть в том, что, по мнению автора, ненаучно говорить о вероятности как некой итоговой оценке, по которой принимают решение.

В реальном мире платеж представляет собой не проценты вероятности, а доллары, выживание и т. д. Чем жирнее хвост, тем важнее пространство платежей; как говорят в Экстремистане, «платеж поглотил вероятность» (см. текст в рамке в начале следующей главки). Можно позволить себе то и дело ошибаться и проигрывать, если потери невелики и выпуклы вниз по платежу (благодаря большому доходу при выигрышах). И наоборот, можно делать верные ставки в 99,99% случаев и обанкротиться (собственно, такого рода правота даже делает банкротство более вероятным: именно фонды с безупречным послужным списком разорились во время краха 2008–2009) [72]. Прозвучит немного сложно для незнакомых с финансовой математикой, но дело в том, что есть разница между «ванильным» [73] опционом и бинарным [74] опционом с той же страйк-ценой, как описано в «Динамическом хеджировании» [225