Оценка вероятности

CFA – Как оценивать вероятность событий при принятии финансовых решений?

Оценка вероятности

Все инвестиционные решения принимаются в условиях риска. Инструменты, которые позволяют нам принимать решения последовательно и логично в этой ситуации, относятся к категории вероятностных. В этом чтении представлены основные вероятностные инструменты, необходимые для решения многих реальных проблем, связанных с риском.

Мы покажем, как эти инструменты применяются к решению таких вопросов, как прогнозирование эффективности работы инвестиционного управляющего, прогнозирование финансовых показателей и ценообразование облигаций таким образом, чтобы они справедливо компенсировали своим держателям риск дефолта.

При этом мы сфокусируемся на практических аспектах: подробно исследуем концепции, которые наиболее важны для инвестиционных исследований и практики.

Одной из таких концепций является независимость событий, поскольку она связана с предсказуемостью доходов и финансовых показателей. Другая – ожидание, так как аналитики постоянно смотрят в будущее в своих анализах и решениях.

Аналитики и инвесторы также должны справляться с изменчивостью. Здесь мы рассмотрим дисперсию или изменчивость ожиданий как концепцию риска, важную для инвестиций.

В этом разделе рассматриваются:

Формула Байеса – это процедура обновления (корректировки) убеждений на основе новой информации. В нескольких областях, включая широко используемую биномиальную модель ценообразования опционов, расчет вероятностей включает в себя определение и подсчет результатов.

Что такое вероятность события?

Вероятностные концепции и инструменты, необходимые для большей части работы финансового аналитика, относительно немногочисленны и просты, но требуют обдуманного применения.

В этом разделе представлены основы работы с вероятностью, ожиданиемым значением и дисперсией, – на примерах анализа рынка капитала и инструментов с фиксированным доходом.

Внимание инвестора сфокусировано на доходности. Доходность рискованного актива является примером случайной величины (англ. 'random variable'), то есть величины, результаты (возможные значения) которой являются неопределенными.

Например, портфель может иметь целевую доходность 10% годовых. На данный момент портфельный менеджер может сосредоточиться на вероятности получения прибыли, которая в следующем году составит менее 10%.

10 процентов – это конкретное значение или результат случайной величины «доходность портфеля». Хотя мы можем быть обеспокоены одним результатом, часто наш интерес может быть связан с рядом результатов: понятие «событие» охватывает оба варианта.

Определение события

Событие (англ. 'event') – это определенный набор результатов или исходов (англ. 'outcomes').

Мы можем определить событие как единый результат – например, портфель приносит доход 10% (курсивом выделено определение события).

Мы также можем отразить озабоченность менеджера портфеля, определив событие следующим образом: портфель приносит доход ниже 10%.

Это второе событие, относящееся ко всем возможным доходам, которые ≥ -100% (наихудший возможный доход), но < 10%, включающее бесконечное количество результатов.

Определенное событие обычно выделяется в тексте заглавной буквой и курсивом. Мы могли бы определить событие A = портфель с доходностью 10% и событие B = портфель с доходностью ниже 10%.

Насколько вероятно, что портфель получит доход ниже 10%?

Ответ на этот вопрос – вероятность (англ. 'probability'): число от 0 до 1, которое измеряет вероятность того, что указанное событие произойдет. Если вероятность того, что портфель принесет доход ниже 10% составляет 0.40, это означает, что вероятность этого события составляет 40%.

  • Если событие невозможно, оно имеет вероятность 0.
  • Если событие обязательно произойдет, оно имеет вероятность 1.
  • Если событие невозможно или произойдет в любом случае, оно вовсе не случайно.
  • Диапазон от 0 до 1 включает все возможные значения вероятности.

Вероятность имеет два свойства, которые вместе составляют ее определение.

Определение вероятности

Два определяющих свойства вероятности таковы:

  1. Вероятность любого события E представляет собой число от 0 до 1: 0 ≤ P(E) ≤ 1.
  2. Сумма вероятностей любого наборавзаимоисключающих и исчерпывающих событий равна 1.

P с последующими круглыми скобками означает «вероятность (событие в скобках)», то есть P(E) – это «вероятность события E». Мы также можем думать о P как о правиле или функции, которая присваивает числовые значения событиям, соответствующим указанным выше свойствам 1 и 2.

В приведенном выше определении термин взаимоисключающий (англ. 'mutually exclusive') означает, что одновременно может происходить только одно событие; термин исчерпывающий (англ. 'exhaustive') означает, что события охватывают все возможные результаты.

События A = портфель с доходностью 10% и B = портфель с доходностью ниже 10% являются взаимоисключающими, поскольку A и B не могут происходить одновременно.

Например, доходность 8.1% означает, что событие B произошло, а событие A не произошло. Хотя события A и B являются взаимоисключающими, они не являются исчерпывающими, поскольку они не охватывают такие результаты, как доходность в 11%.

Предположим, мы определили третье событие: C = портфель приносит доход выше 10%.

Очевидно, что A, B и C являются взаимоисключающими и исчерпывающими событиями. Каждое из событий P(A), P(B) и P(C) является числом от 0 до 1, и
P(A) + P(B) + P(C) = 1.

Самым основным видом взаимоисключающих и исчерпывающих событий является набор всех различных возможных результатов случайной величины. Если мы знаем и этот набор, и распределение вероятностей для этих результатов (распределение вероятностей случайной величины) – у нас есть полное описание случайной величины, и мы можем назначить вероятность любому событию, которое мы можем описать.

В чтении об общих распределениях вероятностей мы опишем некоторые из распределений вероятностей, наиболее часто используемых в инвестиционной практике.

Вероятность любого события – это сумма вероятностей различных результатов, включенных в определение события.

Предположим, что интересующим событием является D = портфель приносит доход выше безрисковой ставки, и мы знаем распределение вероятностей доходности портфеля.

Предположим, безрисковая ставка составляет 4%. Чтобы вычислить P(D), т.е. вероятность события D, мы суммируем вероятности результатов, которые удовлетворяют определению события; то есть мы суммируем вероятности доходности портфеля более 4%.

Ранее, чтобы проиллюстрировать концепцию, мы предполагали вероятность 0.40 для портфеля с доходностью менее 10%, без обоснования конкретного предположения. Мы также говорили об использовании распределения вероятностей результатов для вычисления вероятности событий, не объясняя, как можно получить распределение вероятностей.

Принятие фактических финансовых решений с использованием неточных вероятностей может иметь серьезные последствия.

Как на практике мы оцениваем вероятность события?

Эта тема сама по себе является предметом изучения, но существует 3 основных подхода к оценке вероятностей.

1. В инвестициях мы часто оцениваем вероятность события как относительную частоту его возникновения, основываясь на исторических данных. Этот метод позволяет найти эмпирическую вероятность (англ. 'empirical probability').

Например, Thanatawee (2013) сообщает, что в его выборке из 1927 ежегодных наблюдений за нефинансовыми фирмами SET (Фондовая биржа Таиланда) в период с 2002 по 2010 год 1382 были фирмами, выплачивающими дивиденды, и 545 были компаниями, не выплачивающими дивиденды. Таким образом, эмпирическая вероятность того, что тайская фирма выплатит дивиденды, составляет приблизительно 1 382/1 927 = 0,72.

2. Результаты должны стабильно прослеживаться с течением времени, чтобы эмпирические вероятности были точными. Мы не можем рассчитать эмпирическую вероятность события, отсутствующего в исторической записи, или достоверную эмпирическую вероятность очень редкого события.

Таким образом, существуют случаи, когда мы можем скорректировать эмпирическую вероятность, чтобы учесть восприятие меняющихся результатов.

3. В других случаях у нас вообще нет возможности использовать эмпирическую вероятность. Поэтому мы также можем сделать личную оценку вероятности без ссылки на какие-либо конкретные данные.

Каждый из этих трех типов вероятности является субъективной вероятностью (англ. 'subjective probability'), основанной на личном или субъективном суждении.

Субъективные вероятности имеют большое значение в инвестициях. Инвесторы, принимая решения о покупке и продаже, которые определяют цены активов, часто опираются на субъективные вероятности.

Субъективные вероятности появляются в разных местах в этом чтении, особенно в обсуждении формулы Байеса.

В более узком диапазоне четко определенных проблем мы иногда можем вывести вероятности, рассуждая о проблеме. Результирующая вероятность – это априорная вероятность (англ. 'a priori probability'), основанная на логическом анализе, а не на наблюдении или личном суждении.

Мы будем использовать этот тип вероятности в приведенном далее, в Примере (6).

Методы подсчета, которые мы обсудим позже, особенно важны при вычислении априорной вероятности.

Поскольку априорные и эмпирические вероятности обычно не зависят от конкретного человека, они часто группируются как объективные вероятности.

Источник: https://fin-accounting.ru/cfa/l1/quantitative/cfa-calculating-probability-of-events-in-making-financial-decisions

Что такое вероятность и как ее посчитать

Оценка вероятности

Пусть будет некий абстрактный эксперимент в процессе которого может происходить некое событие. Этот эксперимент провели пять раз, и в четырех из них происходило то самое событие.

Какие выводы можно сделать из этих 4/5?

Есть формула Бернулли, которая дает ответ, с какой вероятностью происходит 4 из 5 при известной исходной вероятности.

Но она не дает ответ, какая была исходная вероятность, если событий получилось 4 из 5. Оставим пока в стороне формулу Бернулли.

Сделаем маленькую простенькую программку, симулирующую процессы вероятностей для такого случая, и на основе результата вычислений построим график.
void test1() { uint sz_ar_events = 50; // замеряемых точек графика uint ar_events[sz_ar_events]; // в этом массиве сбор данных для графика for (uint i = 0; i < sz_ar_events; ++i) ar_events[i] = 0; uint cnt_events = 0; // сколько уже событий в точках графика uint k = 4; // k событий из n экспериментов uint n = 5; // НАКОПЛЕНИЕ СТАТИСТИКИ while (cnt_events < 1000000) { // случайный выбор предполагаемой вероятности // эксперимента, из диапазона 0..1 double probability = get_random_real_0_1(); uint c_true = 0; for (uint i = 0; i < n; ++i) { // вероятность события в эксперименте probability, // и n-раз взяли истина или ложь с выбранной этой вероятностью bool v = get_true_with_probability(probability); if (v) ++c_true; } // если из n-раз получили k-раз истину, значит это тот самый случай if (c_true == k) { uint idx = lrint(floor(probability*sz_ar_events)); assert( idx < sz_ar_events ); // проверка, что с округлением не напутал ++cnt_events; // всего событий ++ar_events[idx]; // событий в этой точке графика } } // ВЫВОД РЕЗУЛЬТАТА for (uint i = 0; i < sz_ar_events; ++i) { double p0 = DD(i)/sz_ar_events; // плотность вероятности: // вероятность на отрезке деленное на протяженность отрезка double v = DD(ar_events[i])/cnt_events / (1.0/sz_ar_events); printf("%4.2f %f", p0, v); }}
Код этой программы можно найти здесь, рядом же вспомогательные функции. Полученный расчет закинул в эксель и сделал график. Такой вариант графика можно назвать распределением плотности вероятностей значения вероятности. Его площадь равна единице, которая распределена в этом холмике. Для полноты картины упомяну, что этот график соответствует графику по формуле Бернулли от параметра вероятность и умноженный на N+1 количества экспериментов. Далее по тексту, там где в статье употребляю дробь вида k/n, то это не деление, это k событий из n экспериментов, чтобы каждый раз не писать k из n. Далее. Можно увеличить количество экспериментов, и получить более узкую область расположения основных величин значения вероятность, но как бы их не увеличивали, эта область не сократится до нулевой области с точно известной вероятностью. На графике ниже изображены распределения для величин 4/5, 7/9, 11/14 и 24/30. Чем уже область, тем выше холмик, площадь которого неизменная единица. Эти соотношения выбраны, потому что они все около 0.8, а не потому что именно такие могут возникнут при 0.8 исходной вероятности. Выбраны, чтобы продемонстрировать, какая область возможных значений остается даже при 30 проведенных экспериментах.

Код программы для этого графика здесь.

Из чего следует, что в действительности экспериментальную вероятность абсолютно точно не определить, а можно лишь предположить область возможного расположения таковой величины, с точностью в зависимости от того сколько произвели замеров. Сколько бы экспериментов не провели, всегда остается вероятность, что исходная вероятность может оказаться и 0.0001 и 0.9999. Для упрощения крайние маловероятные значения отбрасываются. И берется, скажем, например 95% от основной площади графика распределения. Такая штука называется доверительные интервалы. Каких-либо рекомендаций, сколько именно и почему процентов нужно оставить я не встречал. Для прогноза погоды берут поменьше, для запуска космических шаттлов побольше. Так же обычно не упоминают, какой все же используется доверительный интервал на вероятность событий и используется ли вообще.

В моей программе расчет границ доверительного интервала осуществляется здесь.

Получилось, что вероятность события определяется плотностью вероятностей значения вероятности, и на это еще нужно наложить процент области основных значений, чтобы можно было хоть что-то определенно сказать, какая все же вероятность у исследуемого события.

Теперь, про более реальный эксперимент

Пусть будет всем надоевшая монетка, подбрасываем эту монетку, и получаем 4 из 5 выпадений решкой — очень реальный случай. В действительности это не совсем то же самое, что описал чуть выше.

Чем это отличается от предыдущего эксперимента?

Предыдущий эксперимент описывался из предположения, что вероятность события может быть равнораспределена на интервале от 0 до 1. В программе это задается строкой double probability = get_random_real_0_1();.

Но не бывает монеток с вероятностью выпадения, скажем, 0.1 или 0.9 всегда одной стороной.

Источник: https://habr.com/ru/post/456824/

Оценка вероятности события по частоте его появления

Оценка вероятности

Обновлено 30.01.2009 Пятницкий А.М.

Пятницкий А.М.

Российский Государственный Медицинский Университет 

Вопросы, обсуждаемые ниже, являются фундаментальными. Речь пойдет о том, как связаны вероятность появления события и эмпирическая частота события, что такое вероятность и правдоподобие, интервал рассеяния и доверительный интервал. Наконец мы столкнемся с практически важным понятием регрессии.

Сложность будет заключена не в формулах, а в их интерпретации. Необходимые математические результаты просты и были известны с конца 18 столетия. Это интегральная формула Муавра-Лапласа, которая аппроксимирует (приближает) дискретное биномиальное распределения с помощью непрерывного (нормального).

Тем не менее, на формирование понятия доверительного интервала потребовалось больше 100 лет.

Рассмотрим следующие три, на первый взгляд разные задачи, которые окажутся эквивалентными.

1.Сделано n независимых опытов, в которых K раз произошло событие A. Таким образом, известна частота события . В следующей серии из n опытов значение частоты будет, вообще говоря, другим. Частота события случайная величина, так как случаен числитель дроби – величина K – количество успехов.

Что можно сказать о величине p – вероятности события A? Нельзя ограничиться тем, что просто приравнять вероятность одному конкретному значению частоты. Вероятность события не случайна и неизвестна. Частота – случайна, и нам известна одна ее реализация.

Поэтому следует как-то оценить погрешность равенства.

2.Имеется “генеральная совокупность” – некое множество объектов, из которого можно делать выборки – брать n объектов для исследования. Для наглядности представим себе ящик, в котором имеются шары разных цветов. Внутрь ящика заглянуть нельзя – его состав нам неизвестен. Мы можем лишь делать “выборки”.

Методика построения суждений о генеральной совокупности на основе изучения выборки называется “статистическим выводом” (statistical inference). Пусть извлечены 100 (=n) шаров и 24 (=k) из них оказались белого цвета. Доля белых шаров в выборке . Требуется оценить неизвестную долю p белых шаров в генеральной совокупности.

Заметим, что выбор шаров при составлении выборки производится “случайным образом”. Если число шаров в генеральной совокупности конечно, то будем считать, что их выбор производится “с возвращением”.

Тогда при каждом извлечении мы имеем дело с одной и той же генеральной совокупностью – результаты предыдущих извлечений никак не влияют на результат данного. Если в качестве события A рассмотреть событие “извлекаемый шар – белого цвета”, то мы приходим к задаче №1.

Доля объектов в генеральной совокупности (неизвестна и неслучайна) совпадает с вероятностью события, а доля объектов в выборке – с частотой события (известна и случайна, точнее известна одна из реализаций этой случайной величины).

Пример. При исследовании 100 лейкоцитов в мазке крови (выборка) найдено 3 эозинофила (выборочная доля ν=3/100). Что можно сказать о доле эозинофилов p в периферической крови пациента (генеральная совокупность)?

3.На математическом языке задачи 1 и 2 сводятся к задаче оценки неизвестного параметра в распределении вероятности. Действительно, все n опытов независимы и производятся в постоянных условиях. Поэтому величина K имеет биномиальное распределение: K – общее число успехов в серии из n испытаний Бернулли. Итак,

1)задан закон распределения

2)известно одно значение (реализация) случайной величины k. Требуется оценить неизвестный параметр распределения p.

Принято говорить, что это задача математической статистики. В теории вероятности величина параметра p известна, а значение k – не фиксировано, его можно считать любым от 0 до n. Теперь, наоборот, известно значение k и требуется оценить p. Рассмотрим качественно, какой ответ оказался бы приемлемым. Пусть в серии из 10 опытов событие не произошло ни разу: K=0, .

Было бы неразумно считать, что вероятность события p=0. Отсутствие успехов в первых десяти опытах не означает, что их не будет вообще. Но значение случайной величины K=0, по-видимому, также несовместимо и с большими значениями вероятности успеха. Например, если p=1/2, то появление подряд 10 неудач встречалось бы в среднем лишь в одном случае из 1024.

Итак, в качестве ответа мы хотели бы получить некий интервал [0; ], в который неизвестный нам параметр p попадал бы “почти всегда”. Если число опытов будет увеличиваться, то данный интервал должен уменьшаться. Подобный интервал будет назван “доверительным интервалом” (confidence interval, CI).

Найдем так, чтобы построенный интервал накрывал число p с вероятностью (близкой к единице). С увеличением p гистограмма вероятностей для биномиального распределения сдвигается вправо, и вероятность получить 0 успехов уменьшается. Мы выберем настолько большую величину p, чтобы этой вероятностью можно было пренебречь (она станет меньше малой величины).

Тогда можно считать, что параметр p заключен в интервале: . Уравнение для определения :

Для =0.05 получаем =0.26. Что означает полученный ответ: доверительный интервал для p равен [0; 0.26]? При таком способе рассуждения только в одном случае из 20 (=0.05=1/20) неизвестный нам параметр p мог бы оказаться вне этого интервала.

Поэтому после наблюдения события K=0 при n=10 мы можем считать, что p заключено от p1 =0 до p2 =0.26. Строя интервалы, накрывающие p таким образом, мы будем ошибаться в 100%=5% случаев. Если бы мы захотели большей надежности вывода и выбрали =0.

01, то доверительный интервал расширился бы [0; 0.37].

Итак, предлагается способ построения интервала, который в большинстве случаев накрывает неизвестный параметр p. Надежность вывода равна . С ростом числа опытов ширина доверительного интервала уменьшается. В следующем разделе обсудим точный метод, а далее приближенный, который обычно вполне достаточен и что самое важное – дает качественное понимание сути дела.

Построение доверительного интервала – точные формулы

Рассмотрим общий случай: пусть в серии из n испытаний произошло k успехов.

Как построить левую и правую границы интервала , так, чтобы вероятность того, что этот интервал накроет параметр p, была равна :

Рассмотрим обратное событие, которое состоит из двух несовместных: p оказывается меньшим или p оказывается большим . Припишем каждому из них малую вероятность . При поиске левой границы интервала p1 мы ищем распределение с настолько малой вероятностью успеха p1, чтобы вероятность получить при этом число успехов большее или равное k была мала :

Аналогично при поиске правой границы интервала находим распределение с такой большой величиной p2, чтобы малой оказывалась вероятность получить значения меньшие либо равные k:

Полученные уравнения, решениями которых являются границы доверительного интервала можно решать численно или пользоваться таблицами.

Метод максимального правдоподобия

Частота является естественной оценкой для вероятности. Однако в других случаях может быть неясно:

1)как выбрать оценку для неизвестного параметра распределения,

2)как оценить точность этой оценки (найти доверительный интервал), и

3)как, если не вся информация, содержащаяся в данных, использована, проверить гипотезу о типе распределения. Универсальный метод решения этой задачи – метод максимального правдоподобия разработан Фишером.

Фишер предложил называть выражение для вероятности P (Probability) правдоподобием L (lihood), если фиксированы значения, принятые случайной величиной, а параметры распределения произвольны. То есть параметры и аргументы поменялись местами.

В нашем случае известно k, а вероятность p – изменяется.

Заметим, что биномиальный коэффициент не зависит от p и обозначен константой.

Принцип максимального правдоподобия состоит в том, что в качестве оценки параметра выбирается такое значение, при котором правдоподобие максимально.

Сложное событие – появление k успехов в испытаниях с определенными номерами есть произведение n событий, из которых k соответствуют успехам, а (n-k) –неудачам. Поэтому вероятность это произведение k множителей p и (n-k) множителей (1-p). Произведение удобно перевести в сумму, рассматривая задачу о наибольшем значении не самого правдоподобия, а его логарифма:

Для p->0+0 ln p стремится к минус бесконечности, а для p->1–0 к минус бесконечности стремится ln(1-p). Поэтому с увеличением p от 0 до 1 логарифм правдоподобия вначале возрастает, а потом убывает. Максимум достигается при таком значении p, которое и будет принято в качестве его оценки.

Ясно, что чем острее максимум, тем с большей точностью можно будет локализовать неизвестный параметр. Поэтому величина второй производной в точке максимума существенна.

Итак, приравнивая первую производную нулю, найдем оценку вероятности, а, вычисляя в точке максимума вторую производную, – найдем точность полученной оценки.

В качестве оценки для параметра p мы получили очевидный ответ – частоту. С ростом числа опытов кривизна в точке максимума увеличивается пропорционально n, и отклонения p oт значения в точке максимума (k/n) становятся все менее правдоподобными.

Построение интервала рассеяния и доверительного интервала на основе нормальной аппроксимации биномиального распределения

Согласно формуле Муавра-Лапласа случайная величина K как правило (то есть в (1-)100% случаев) заключена в интервале: .

Иными словами с вероятностью близкой к единице выполнено неравенство. Запишем это утверждение, используя частоту.

Это чрезвычайно важный результат и все дальнейшее обсуждение будет посвящено уяснению его смысла и наглядной интерпретации (см. рис). Величина называется надежностью (или коэффициентом доверия), а – точностью.

Уравнение y=(p(1-p))1/2 соответствует верхней полуокружности с центром в точке (0;1/2) и радиусом ½. Если умножить это выражение на коэффициент , то полуокружность сожмется по оси ординат и превратится в верхнюю половину эллипса.

Касательная к этому эллипсу в верхней точке горизонтальна и проходит на расстоянии. Рассмотрим на плоскости квадрат . На его диагонали частота равна вероятности.

Согласно формуле (***) область, в которую точка попадает, как правило (точнее с вероятностью 1-α), представляет собой внутренность наклонного эллипса, который получится, если к линейной функцииприбавить и вычесть функцию, описывающую половину сжатого эллипса:

C увеличением n эллипс приближается к отрезку диагонали. Эллипс не целиком вписан в квадрат: на верхней и нижней его сторонах для он частично выходит из него, касаясь оси ординат (p=0) и прямой p=1. Часть эллипса заключенная в квадрате содержится в вытянутом шестиугольнике OABCDE, образованном пересечением двух касательных к эллипсуи квадратом.

Построение интервала рассеяния и доверительного интервала происходит при решении двух задач (“прямой” и “обратной”), из которых первая относится к теории вероятности, а вторая – к статистике.

1.Задача теории вероятности. Если известна вероятность события p, то неравенство () дает интервал на оси ν, в который случайная величина K/n попадает с вероятностью 1- α. Это “интервал рассеяния”.

Границы его неслучайны, так как зависят от трех неслучайных величин p,n,α и симметричны относительно центра p, если исключить случаи, когда границы выходят за пределы интервала [0;1]. Длина интервала рассеяния обратно пропорциональна квадратному корню из числа опытов.

Итак, решая задачу теории вероятности для всех возможных значений p, мы двигаемся по “вертикальным” отрезкам формируя эллипс из этих “интервалов рассеивания”. Эллипс заключен между двумя касательными, проведенными в точке p=1/2, где длина интервала рассеяния максимальна: .

При фиксированной вероятности частота имеет нормальное распределение с математическим ожиданием M[ν]=p, и среднеквадратическим отклонением σ[ν]=(p(1-p)/n)1/2. Разброс оказывается зависимым от среднего значения. Максимальный абсолютный разброс частоты относительно вероятности имеет место при p=1/2: σmax=1/(2n1/2).

Зависимость математического ожидания случайной величины от неслучайного параметра называют регрессией. В данном случае это линейная, нормальная, гетероскедастическая регрессия. Имеется преобразование, которое делает разброс почти постоянным, но регрессию нелинейной – это так называемое арксинус преобразование Фишера.

2.Задача статистики. Теперь p – неизвестно, однако известна реализация случайной величины ν. Поэтому в старину говорили о задаче “обращения вероятности”. Рассмотрим отрезок горизонтальной прямой y=ν, заключенный внутри эллипса.

Неизвестный нам параметр p с вероятностью 1-α находится между абсциссами точек пересечения прямой y=ν и эллипса. Для того чтобы их найти нужно решить квадратное уравнение. Полученный интервал называется “доверительным интервалом”.

В отличие от интервала рассеяния его границы случайны, так как зависят от случайной величины ν, а также от n и α. Эти границы несимметричны, особенно если частота близка к нулю или единице. Ширина интервала для 0

Источник: http://bioinformatics.ru/Data-Analysis/prob_estimate.html

Ошибки при оценке вероятностей

Оценка вероятности

Интуиция плохо натренирована на оценку вероятностей, особенно — маленьких. Оценка больших вероятностей связана с оценками малых (“почти наверняка А” — это “почти точно не 'не А'”), а также сложно сравнивать близкие вероятности.

Примером последнего является бриджевая задача: как правильно разыграть 11 карт в масти на двоих, если не хватает короля и мелкой. Есть два плана, но ни один не дает 100% на успех. У одного шанс 50%, у другого 52%, но это, мягко говоря, не очевидно.

Резать или валить? Играть двойкой к тузу или даме, надеясь что король слева? Шансы 50%. Или играть тузом, надеясь, что король “голый”? Шансы 52%.

То же верно при прогнозе. Прогнозируя будущее, нам нужно правильно оценить вероятности возможных событий. Это сложно, по понятным причинам.

Однако “задним числом” маловероятные исходы выкидываются и все становится очень ясно.

Например, если человек играет в казино, то с большой вероятностью он проиграется, но когда, как, как быстро — сказать очень сложно. Зато, если он пришел разоренный, каждый скажет “это было предсказуемо!”

Отчасти проблема связана с самим определением вероятности. Вот вычислили мы вероятность, скажем, что десять монет упадут гербом, она чуть меньше 0.

001 — и что это означает? Это НЕ означает, что из тысячи попыток мы точно увидим такое событие. Это означает лишь, что если мы будем бросать 10 монет снова и снова, и считать попытки, и запоминать, сколько раз мы событие зарегистрировали…

то отношение числа событий к числу попыток будет все ближе к 0.001 (точнее, к 1/1024).

Вероятность увидеть событие с вероятностью p за n=1/p попыток хотя бы один раз выражается формулой 1-(1-p)n~1-1/e~0.63.

То есть нужно не просто много раз пробовать, а много раз наблюдать маловероятное событие, чтобы оценить его вероятность статистически. Скажем, вероятность попасть в центр мишени НЕ оценивается величиной 1/n, где n — число бросков до попадания, включительно.

Еще проблема связана с неустойчивостью выводов к погрешностям исходных данных. Так вероятности 0.001 и 1/1024 обе малы и интуиция справедливо считает, что оба события маловероятны.

Однако вероятность увидеть событие за 1000 попыток равна, соответственно, 0.6323 и 0.6235. Разница в один процент уже заметна. Так и ситуации “выиграл” или “проиграл” можно перепутать.

Например, парадокс де Мере.

При четырех бросках кубика вероятность хотя бы раз увидеть шестерку выше 0.5; однако при 24 бросках пары кубиков вероятность увидеть две шестерки одновременно меньше 0.5.

Еще пример с двумя бумажками.

В мешке три бумажки: на одной с двух сторон черная метка, на другой обе стороны чистые, на третьей с одной стороны черная метка. Сильвер вытягивает наугад бумажку и кладет ее на стол. Черной метки не видно.

Какова вероятность, что она с другой стороны?

Рассуждение “0.5, потому что бумажек с чистой стороной две, Сильвер вытащил одну равновероятно” — неправильное. Потому что в мешке лежит шесть сторон, причем две из них точно остались в мешке.

Сильвер мог выложить на стол две чистые стороны чистой бумажки или одну сторону бумажки с одной черной меткой. Три шанса. Из них один дает черную метку. Так что вероятность 1/3. Если ваша интуиция здесь не ошиблась, то либо вы подготовлены, либо у вас хорошая интуиция.

Собственно, почти все мои заметки серии про Сильвера — примеры на эту тему!

Еще вспомним ошибку выжившего — если на Тортугу приходят корабли с дырками в парусах, но редко приходят с дырками в борту — то это не значит, что проблема в парусах. Это значит, что проблема в бортах.

Да, статистика показывает, что по парусам попадают часто, а по бортам редко; но это у тех, кто вернулся. А статистики по тем, кто не вернулся, у нас обычно мало.
Вот еще пример. Пусть известно, что Хендс — пират, убийца, богохульник и насильник.

Что более вероятно: “У Хендса есть любимая жена в Бристоле” или “У Хендса есть любимая жена в Бристоле, которая бережет присланные мужем награбленные кровавые дублоны и сорванные с пленных женщин украшения”? Второе событие немного менее вероятно — понятно, почему?

Ошибка прокурора — еще один пример. Прокурор заявляет, что вероятность невиновному оставить отпечатки пальцев на месте преступления очень мала, а раз таковые отпечатки обнаружены, то подозреваемый, вероятно, виновен. Видите ошибку?

Нам нужна вероятность невиновности при условии, что на месте преступления есть его отпечатки, а не вероятность оставить отпечатки при условии невиновности. Проблема видна лучше на таком примере: большинство пиратов — мужчины, то есть вероятность, что наугад выбранный пират — мужчина, очень высока. Но вероятность, что наугад выбранный мужчина — пират, все-таки, существенно ниже.

Если на месте преступления 3 отпечатка, а виновный один, то вероятность, что данный подозреваемый невиновен при условии, что его отпечатки налицо, 2/3 — довольно много. А вот вероятность, что какой-то конкретный невиновный (а их в городе десятки тысяч) оставил отпечатки на месте преступления — очень мала, тут прокурор прав.

Вот еще пример. Пусть у губернатора есть алхимик, который разработал зелье, позволяющее определять фальшивые монеты с вероятностью 99% — точнее, оно с вероятностью 99% распознает хорошую монету как хорошую и с вероятностью 99% распознает фальшивую как фальшивую. Хорошее средство, как считаете?

Губернатор считает, что да. Он доверяет зелью и казнит всякого, кто улучен в платеже фальшивой монетой.

Зелье для проверки монет. Надежность 99%. Виселица на фоне. Как считаете, хорошее зелье?

Однако фальшивых монет, предположим, всего одна десятая процента: одна из тысячи.

В среднем, из тысячи платежей один фальшивый, и он чаще всего разоблачается. Из тысячи платежей, однако, в среднем десять ошибочно разоблачаются как фальшивые.

Таким образом, если в неделю осуществляется около тысячи платежей, то в неделю в среднем вешают одиннадцать человек — из них десять невиновны.

В заметке использован материал из книги D. Hand. Improbability Principle.

Путеводитель по каналу

Источник: https://zen.yandex.ru/media/math_notebook/oshibki-pri-ocenke-veroiatnostei-5f3ceca93ecabf2770324b0f

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.