Математическая статистика – раздел прикладной математики, непосредственно примыкающий и основанный на теории вероятностей. Как и любая математическая теория, математическая статистика развивается в рамках некоторой модели, описывающей определенный круг реальных явлений. Чтобы определить статистическую модель и объяснить специфику задач математической статистики, напомним некоторые положения из теории вероятностей.
Математическая модель случайных явлений, изучаемых в теории вероятностей, основывается на понятии вероятностного пространства . При этом в каждой конкретной ситуации вероятность считается полностью известной числовой функцией на -алгебре , то есть для любого полностью определено число . Основной задачей теории вероятностей является разработка методов нахождения вероятностей различных сложных событий по известным вероятностям более простых (например, по известным законам распределения случайных величин определяются их числовые характеристики и законы распределения функций от случайных величин).
Однако на практике при изучении конкретного случайного эксперимента вероятность , как правило, неизвестна или известна частично. Можно только предположить, что истинная вероятность является элементом некоторого класса вероятностей (в худшем случае - класс всевозможных вероятностей, которые можно задать на ). Класс называют совокупностью допустимых для описания данного эксперимента вероятностей , а набор - статистической моделью эксперимента. В общем случае задачей математической статистики является уточнение вероятностной модели изучаемого случайного явления (то есть отыскание истинной или близкой к ней вероятности ), используя информацию, доставляемую наблюдаемыми исходами эксперимента, которые называют статистическими данными.
В классической математической статистике, изучением которой мы будем заниматься далее, имеют дело со случайными экспериментами, состоящими в проведении n повторных независимых наблюдений над некоторой случайной величиной , имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения . В этом случае множество всех возможных значений наблюдаемой случайной величины называют генеральной совокупностью , имеющей функцию распределения или распределенной согласно . Числа , являющиеся результатом независимых наблюдений над случайной величиной , называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число наблюдений называется объемом выборки.
Основная задача математической статистики состоит в том, как по выборке из генеральной совокупности, извлекая из нее максимум информации, сделать обоснованные выводы относительно неизвестных вероятностных характеристик наблюдаемой случайной величины .
Под статистической моделью, отвечающей повторным независимым наблюдениям над случайной величиной , естественно, вместо понимать набор , где - генеральная совокупность, - -алгебра борелевских подмножеств из , - класс допустимых функций распределения для данной случайной величины , которому принадлежит и истинная неизвестная функция распределения .
Часто тройку называют статистическим экспериментом.
Если функции распределения из заданы с точностью до значений некоторого параметра , то есть ( - параметрическое множество), то такая модель называется параметрической . Говорят, что в этом случае известен тип распределения наблюдаемой случайной величины, а неизвестен только параметр, от которого распределение зависит. Параметр может быть как скалярным, так и векторным.
Статистическая модель называется непрерывной или дискретной , если таковыми являются все составляющие класс функции распределения соответственно.
Пример 1 . Предположим, что распределение наблюдаемой случайной величины является гауссовским с известной дисперсией и неизвестным математическим ожиданием .
В этом случае статистическая модель является непрерывной и имеет вид:
Если и дисперсия неизвестна, то статистическая модель имеет вид:
а функция распределения имеет плотность вероятностей
Это, так называемая, общая нормальная модель, обозначаемая .
Пример 2 . Предположим, что распределение наблюдаемой случайной величины является пуассоновским с неизвестным параметром . В этом случае статистическая модель является дискретной и имеет вид: , случайными величинами (при этом говорят, что случайные величины - копии ), и который еще не принял конкретного значения в результате эксперимента. Переход от выборки конкретной к выборке случайной будет неоднократно использоваться далее при решении теоретических вопросов и задач для получения выводов, справедливых для любой выборки из генеральной совокупности.
Основные задачи, рассматриваемые в математической статистике, можно разбить на две большие группы:
1. Задачи, связанные с определением неизвестного закона распределения наблюдаемой случайной величины и параметров в него входящих (они рассматриваются в рамках статистической теории оценивания).
2. Задачи, связанные с проверкой гипотез относительно закона распределения наблюдаемой случайной величины (решаются в рамках теории проверки статистических гипотез).
Статистические и теоретико-вероятностные методы составляют методологическую основу одноименного вида моделирования. На этом уровне формализации модели речь о вскрытии закона, обеспечивающего устранение неопределенности при принятии решения, пока еще не идет, но существует некоторый массив наблюдений за данной системой или ее аналогом, позволяющих сделать некие выводы относительно прошлого/текущего/будущего состояния системы, основываясь на гипотезе об инвариантности ее поведения.
Как всегда, сформулируем определение… Статистическая или теоретико-вероятностная модель (стохастическая модель) - это модель, в которой обеспечивается учет влияния случайных факторов в процессе функционирования системы, основанная на применении статистической или теоретико-вероятностной методологии по отношению к повторяющимся феноменам . Данная модель оперирует количественными критериями при оценке повторяющихся явлений и позволяет учитывать их нелинейность, динамику, случайные возмущения за счет выдвижения на основе анализа результатов наблюдений гипотез о характере распределения некоторых случайных величин, сказывающихся на поведении системы.
По существу, теоретико-вероятностные и статистические модели отличаются уровнем неопределенности знаний о моделируемой системе, существующей на момент синтеза модели. В случае, когда представления о системе носят, скорее, теоретический характер и основываются исключительно на гипотезах о характере системы и возмущающих воздействий, не подкрепленных результатами наблюдений, теоретико-вероятностная модель является единственно возможной. Когда же на этапе синтеза модели уже существуют данные, полученные опытным путем, появляется возможность подкрепления гипотез за счет их статистической обработки. Это становится очевидным, если рассмотреть соотношение между методами математической статистики и теории вероятностей. Математическая статистика - это наука, изучающая методы вскрытия закономерностей, свойственных большим совокупностям однородных объектов или событий, на основании их выборочного обследования (либо большим массивам данных, полученных в результате наблюдения за одним и тем же объектом на протяжении достаточно протяженного интервала времени). Теория же вероятностей изучает количественные закономерности, которым следуют случайные явления, если эти явления определяются событиями известной вероятности. Соответственно, математическая статистика является связующим звеном между теорией вероятностей и явлениями реального мира, поскольку позволяет сформулировать оценки вероятности тех или иных событий на основе анализа статистических данных.
Можно утверждать, что статистические модели представляют собой особый вид математических моделей, использующих в качестве исходных данных не только актуальные данные о текущем состоянии объекта, но и данные, характеризующие состояние либо других объектов данного класса, либо этого объекта, но в иной момент времени. Статистические модели применимы для изучения массовых явлений любой природы, включая и те, которые не относятся к категории вероятностно определенных (математическая статистика приспособлена и для решения детерминированных задач). При моделировании последних статистический процесс вводится в модель искусственно для получения статистических оценок численного решения (например, точности измерения параметров детерминированного процесса).
Методы математической статистики и теории вероятности могут вводиться, в том числе, и в логические и логико-лингвистические модели, как это было указано в предыдущем подразделе. Например, могут рассматриваться методы интеграции статистических оценок в модели семантических отношений для придания различных весов дугам, связывающим отдельные вершины. Статистические оценки могут быть внедрены и в системы представления тезаурусов для разрешения ситуаций полисемии без обращения к процедурам контекстного анализа. Иными словами, статистические методы могут составлять как основу модели, так и применяться для модификации моделей других типов.
Для обработки результатов наблюдений используются методы корреляционного, регрессионного, факторного, кластерного и иных видов анализа, оперирующих статистическими гипотезами. Особая роль здесь отводится методу статистических испытаний (методу Монте-Карло ). Это метод численного решения математических задач, основанный на многократном теоретико-вероятностном и статистическом моделировании случайных величин или процессов с целью построения статистических оценок для искомых величин. Сущность метода состоит в реализации многократного моделирования случайного явления с помощью некоторой процедуры, дающей случайный результат. Для этого с применением ЭВМ создается некоторое множество реализаций случайных процессов, моделирующих возмущающие воздействия на исследуемый объект или процесс, после чего производится моделирование этого процесса или объекта в условиях, определяемых полученными случайными воздействиями. Результаты такого моделирования обрабатывают с использованием методов математической статистики. При этом могут варьироваться тип и параметры распределения случайной величины.
Реализация случайного процесса методом Монте-Карло представляет собой последовательность розыгрышей единичных жребиев, перемежающихся обычными расчетами, в ходе которых определяется результат возмущающего воздействия на объект или процесс, на исход операции.
Поскольку адекватность модели распределения случайных воздействий в общем случае установить трудно, задачей моделирования с применением метода Монте-Карло является обеспечение робастности полученных решений (устойчивости к изменению параметров закона распределения случайных величин и начальных условий моделирования) . Если результат моделирования не является робастным (существенно зависит от параметров закона распределения и параметров модели), то это свидетельствует о наличии высокого риска при принятии решения в данной реализации моделируемой системы.
Важную роль в статистических моделях играют гипотезы о характере процессов смены состояний в моделируемой системе. Так, например, весьма интересный случай представляет собой гипотеза о «марковости » процессов (получившая название в честь русского ученого А.А. Маркова - начало XX века). Марковские процессы представляют собой случай процесса с детерминированными вероятностями, для которого ранняя предыстория смены состояний системы на некотором предшествующем интервале времени несущественна для установления вероятности наступления следующего события - основное значение придается ее текущему состоянию . Если существует уверенность в марковости процесса, это существенно меняет представления о системе (она может рассматриваться как «инерционная», в большой степени зависящая от текущего ее состояния и характера возмущающего воздействия). Принцип марковости был открыт при анализе текстов на естественных языках, где вероятность появления следующего символа может быть предсказана на основе статистического анализа текстовых массивов, на данном конкретном языке.
Статистическое моделирование тесно сопряжено с имитационным моделированием , ходе которого модель объекта нередко «погружается в вероятностную (статистическую) среду», в которой проигрываются различные ситуации и режимы функционирования модели/объекта. Однако имитационные модели могут реализовываться и в детерминированных средах.
Методы статистического моделирования широко распространены в сфере стратегического планирования и управления . Широкому распространению методов статистического моделирования в сфере оперативного управления препятствует высокая трудоемкость процесса моделирования. В основном это связано с необходимостью глубокой математической проработки моделей и высокими требованиями, предъявляемыми к математическим познаниям пользователей.
Приложение 1. МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА И ПРОГНОЗИРОВАНИЯ В БИЗНЕСЕ
2. Математические модели как необходимый инструмент статистического анализа и прогнозирования в бизнесе
Начнем с простого примера демонстрирующего различия чисто статистического, чисто вероятностного и вероятностно-статистического подходов к выработке прогнозного решения. Одновременно на этом примере достаточно прозрачно видна роль математических моделей в технологии формирования прогнозного решения.
Статистический способ принятия решения. Пусть читатель представит себя бизнесменом, наблюдающим за игрой двух его приятелей-бизнесменов (А и В ) в кости. Игра идет по следующим правилам. Производится четыре последовательных бросания игральной кости. Игрок А получает одну денежную единицу от игрока В , если в результате этих четырех бросаний хотя бы один раз выпало шесть очков (назовем этот исход «шесть»), и платит одну денежную единицу игроку В в противном случае (назовем этот исход «не шесть»). После ста туров читатель должен сменить одного из игроков, причем он имеет право выбрать ситуацию, на которую он будет ставить свою денежную единицу в следующей серии туров: за появление хотя бы одной «шестерки» или против. Правильное осуществление этого выбора определяется, естественно, качеством его прогноза по поводу результата игры при ставке на исход «шесть»: если вероятность этого исхода правильно оценивается величиной, превосходящей половину, то игрок должен поставить именно на этот исход. Итак, задача наблюдателя – сделать достоверный прогноз.
Статистический способ решения этой задачи диктуется обычным здравым смыслом и заключается в следующем. Пронаблюдав сто туров игры предыдущих партнеров и подсчитав относительные частоты их выигрыша, казалось бы, естественно поставить на ту ситуацию, которая чаще возникала в процессе игры. Например, было зафиксировано, что в 52 партиях из 100 выиграл игрок В , т.е. в 52 турах из 100 «шестерка» не выпадала ни разу при четырехкратном выбрасывании кости (соответственно в остальных 48 партиях из ста осуществлялся исход «шесть»). Следовательно, делает вывод читатель, применивший статистический способ рассуждения, выгоднее ставить на исход «не шесть», т.е. на тот исход, относительная частота появления которого равна 0,52 (больше половины).
Теоретико-вероятностный способ решения . Этот способ основан на определенной математической модели изучаемого явления: полагая кость правильной (т. е. симметричной), а следовательно, принимая шансы выпадения любой грани кости при одном бросании равными между собой (другими словами, относительная частота, или вероятность, выпадения «единицы» равна относительной частоте выпадения «двойки», «тройки» и т. д. и равна 1/6), можно подсчитать вероятность P {«не шесть»} осуществления ситуации «не шесть», т. е. вероятность события, заключающегося в том, что при четырех последовательных бросаниях игральной кости ни разу не появится «шестерка». Этот расчет основан на следующих фактах, вытекающих из принятых нами предпосылок модели. Вероятность не выбросить шестерку при одном бросании кости складывается из шансов появиться в результате одного бросания «единице», «двойке», «тройке», «четверке»и «пятерке» и, следовательно, составляет (в соответствии с определением вероятности любого события) величину 5/6. Затем используем правило умножения вероятностей, в соответствии с которым вероятность наступления нескольких независимых событий равна произведению вероятностей этих событий. В нашем случае мы рассматриваем факт наступления четырех независимых событий, каждое из которых заключается в невыпадении «шестерки» при одном бросании и имеет вероятность осуществления, равную 5/6. Поэтому
Как видно, вероятность ситуации «не шесть» оказалась меньше половины, следовательно, шансы ситуации «шесть» предпочтительнее (соответствующая вероятность равна: 1-0,482 = 0,518). А значит, читатель, использовавший теоретико-вероятностный способ рассуждения, придет к диаметрально противоположному по сравнению с читателем со статистическим образом мышления решению и будет ставить в игре на ситуацию «шесть».
Вероятностно-статистический (или математико-статистический) способ принятия решения. Этот способ как бы синтезирует инструментарий двух предыдущих, так как при выработке с его помощью окончательного вывода используются и накопленные в результате наблюдения за игрой исходные статистические данные (в виде относительных частот появления ситуаций «шесть» и «не шесть», которые, как мы помним, были равны соответственно 0,48 и 0,52), и теоретико-вероятностные модельные соображения . Однако модель, принимаемая в данном случае, менее жестка, менее ограничена, она как бы настраивается на реальную действительность, используя для этого накопленную статистическую информацию . В частности, эта модель уже не постулирует правильность используемых костей, допуская, что центр тяжести игральной кости может быть и смещен некоторым особым образом. Характер этого смещения (если оно есть) должен как-то проявиться в тех исходных статистических данных, которыми мы располагаем. Однако читатель, владеющий вероятностно-статистическим образом мышления, должен отдавать себе отчет в том, что полученные из этих данных величины относительных частот исходов «шесть» и «не шесть» дают лишь некоторые приближенные оценки истинных (теоретических) шансов той и другой ситуации: ведь подбрасывая, скажем, 10 раз даже идеально симметричную монету, мы можем случайно получить семь выпадений «гербов»; соответственно относительная частота выпадения «герба», подсчитанная по этим результатам испытаний, будет равна 0,7; но это еще не значит, что истинные (теоретические) шансы (вероятности) появления «герба» и другой стороны монеты оцениваются величинами соответственно 0,7 и 0,3, – эти вероятности, как мы знаем, равны 0,5. Точно так же установленная нами в серии из ста игровых туров относительная частота исхода «не шесть» (равная 0,52) может отличаться от истинной (теоретической) вероятности того же события и, значит, может не быть достаточным основанием для выбора этой ситуации в игре!
Получается, что весь вопрос заключается в том, насколько сильно может отличаться наблюденная (в результате осуществления n испытаний) относительная частота интересующего нас события от истинной вероятности появления этого события, и как это отличие, т. е. погрешность , зависит от числа имеющихся в нашем распоряжении наблюдений (интуитивно ясно, что чем дольше мы наблюдали за игрой, т. е. чем больше общее число использованных нами наблюдений, тем больше доверия заслуживают вычисленные нами эмпирические относительные частоты , т. е. тем меньше их отличие от неизвестных нам истинных значений вероятностей ). Ответ на этот вопрос можно получить в нашем случае, если воспользоваться рядом дополнительных модельных соображений : а) предположить, что результат каждого тура никак не зависит от результатов предыдущих туров, а неизвестная нам вероятность осуществления ситуации «не шесть» остается одной и той же на протяжении всех туров игры; б) использовать тот факт, что поведение случайно меняющейся (при повторениях эксперимента) погрешности приближенно описывается законом нормального распределения вероятностей со средним значением, равным нулю, и дисперсией, равной (см. , п. 3.1.5).
Эти соображения, в частности, позволяют оценить абсолютную величину погрешности , заменяя неизвестную величину вероятности интересующего нас события (в нашем случае – исход «не шесть») относительной частотой этого события, зафиксированной в серии из испытаний (в нашем случае , а ). Если же мы смогли численно оценить абсолютную величину возможной погрешности , то естественно применить следующее правило принятия решения: если относительная частота появления исхода «не шесть» больше половины и продолжает превышать 0,5 после вычитания из нее возможной погрешности , то выгоднее ставить на «не шесть»; если относительная частота меньше половины и продолжает быть меньше 0,5 после прибавления к ней возможной погрешности , то выгоднее ставить на «шесть»; в других случаях у наблюдателя нет оснований для статистического вывода о преимуществах того или иного выбора ставки в игре (т. е. надо либо продолжить наблюдения, либо участвовать в игре с произвольным выбором ставки, ожидая, что это не может привести к сколько-нибудь ощутимому выигрышу или проигрышу).
Приближенный подсчет максимально возможной величины этой погрешности, опирающийся на модельное соображение б) (т. е. теорему Муавра-Лапласа, см. и п. 4.3), дает в рассматриваемом примере, что с практической достоверностью, а именно с вероятностью 0,95, справедливо неравенство
Возведение этого неравенства в квадрат и решение получившегося квадратного неравенства относительно неизвестного параметра дает
или, с точностью до величин порядка малости выше, чем ,
В данном случае (при и ) получаем:
Следовательно,
Таким образом, наблюдения за исходами ста партий дают нам основания лишь заключить, что интересующая нас неизвестная величина вероятности исхода «не шесть» на самом деле может быть любым числом из отрезка , т. е. может быть как величиной, меньшей 0,5 (и тогда надо ставить в игре на ситуацию «шесть»), так и величиной, большей 0,5 (и тогда надо ставить в игре на ситуацию «не шесть»).
Иначе говоря, читатель, воспользовавшийся вероятностно-статистическим способом решения задачи и указанными выше модельными предпосылками, должен прийти к следующему «осторожному» выводу: ста партий в качестве исходного статистического материала оказалось недостаточно для вынесения надежного заключения о том, какой из исходов игры является более вероятным . Отсюда решение: либо продолжить роль «зрителя» до тех пор, пока область возможных значений для вероятности , полученная из оценок вида (4), не окажется целиком лежащей левее или правее 0,5, либо вступить в игру, оценивая ее как близкую к «безобидной», т. е. к такой, в которой в длинной серии туров практически останешься «при своих».
Приведенный пример иллюстрирует роль и назначение теоретико-вероятностных и математико-статистических методов, их взаимоотношения. Если теория вероятностей предоставляет исследователю набор математических моделей , предназначенных для описания закономерностей в поведении реальных явлений или систем, функционирование которых происходит под влиянием большого числа взаимодействующих случайных факторов, то средства математической статистики позволяют подбирать среди множества возможных теоретико-вероятностных моделей ту, которая в определенном смысле наилучшим образом соответствует имеющимся в распоряжении исследователя статистическим данным , характеризующим реальное поведение конкретной исследуемой системы.
Математическая модель . Математическая модель – это некоторая математическая конструкция, представляющая собой абстракцию реального мира: в модели интересующие исследователя отношения между реальными элементами заменены подходящими отношениями между элементами математической конструкции (математическими категориями). Эти отношения, как правило, представлены в форме уравнений и (или) неравенств между показателями (переменными), характеризующими функционирование моделируемой реальной системы. Искусство построения математической модели состоит в том, чтобы совместить как можно большую лаконичность в ее математическом описании с достаточной точностью модельного воспроизводства именно тех сторон анализируемой реальности, которые интересуют исследователя.
Выше, анализируя взаимоотношения чисто статистического, чисто теоретико-вероятностного и смешанного – вероятностно-статистического способа рассуждения, мы, в действительности, пользовались простейшими моделями, а именно:
статистической частотной моделью интересующего нас случайного события, заключающегося в том, что в результате четырех последовательных бросаний игральной кости ни разу не выпадет «шестерка»; оценив по предыстории относительную частоту этого события и приняв ее за вероятность появления этого события в будущем ряду испытаний , мы, тем самым, используем модель случайного эксперимента с известной вероятностью его исхода (см. и п. 1.1.3);
теоретико-вероятностной моделью последовательности испытаний Бернулли (см. и п. 3.1.1), которая никак не связана с использованием результатов наблюдений (т. е. со статистикой); для подсчета вероятности интересующего нас события достаточно принятия гипотетического допущения о том, что используемая игральная кость идеально симметрична. Тогда в соответствии с моделью серии независимых испытаний и справедливой, в рамках этой модели, теоремой умножения вероятностей подсчитывается интересующая нас вероятность по формуле ;
вероятностно-статистической моделью , интерпретирующей оцененную в чисто статистическом подходе относительную частоту как некую случайную величину (см. и п. 2.1), поведение которой подчиняется правилам, определяемым так называемой теоремой Муавра–Лапласа; при построении этой модели были использованы как теоретико-вероятностные понятия и правила, так и статистические приемы, основанные на результатах наблюдений.
Обобщая этот пример, можно сказать, что:
вероятностная модель – это математическая модель, имитирующая механизм функционирования гипотетического (не конкретного) реального явления (или системы) стохастической природы; в нашем примере гипотетичность относилась к свойствам игральной кости: она должна была быть идеально симметричной;
вероятностно-статистическая модель – э то вероятностная модель, значения отдельных характеристик (параметров) которой оцениваются по результатам наблюдений (исходным статистическим данным), характеризующим функционирование моделируемого конкретного (а не гипотетического) явления (или системы).
Вероятностно-статистическая модель, описывающая механизм функционирования экономической или социально-экономической системы, называется эконометрической .
Прогностические и управленческие модели в бизнесе . Вернемся к задачам статистического анализа механизма функционирования предприятия (фирмы) и связанным с ними прогнозами. Вновь рассматривая «фазовое пространство » этих задач, нетрудно описать общую логическую структуру необходимых для их решения моделей. Эта структура прямо следует из сформулированного выше определения стратегии бизнеса .
Для того чтобы формализовать (т. е. записать в терминах математической модели) задачи оптимального управления и построения прогноза в бизнесе, введем следующие обозначения:
– вектор-столбец результирующих показателей (объем продаж и т. п.);
– вектор-столбец «поведенческих» (управляемых) переменных (вложения в развитие основных фондов, в службы маркетинга и т. п.);
– вектор-столбец так называемых «статусных» переменных, т. е. показателей, характеризующих состояние фирмы (число работников, основные фонды, возраст фирмы и т. п.);
– вектор-столбец гео-социо-экономико-демографичес-ких характеристик внешней среды (показатели общей экономической ситуации, характеристики клиентов и поставщиков и т. п.);
– вектор-столбец случайных регрессионных остатков (подробнее о них ниже).
Тогда система уравнений, на базе которых может осуществляться оптимальное управление предприятием и выполнение необходимых прогнозных расчетов , в самом общем виде может быть представлена в форме:
, (5)
где – некоторая векторнозначная ( -мерная) функция от , структура (значения параметров) которой, вообще говоря, зависит от того, на каких уровнях зафиксированы величины переменных «состояния» фирмы и «внешней среды» .
Тогда базовая проблема статистического анализа и прогнозирования в бизнесе состоит в построении наилучшей (в определенном смысле) оценки для неизвестной функции по имеющейся в распоряжении исследователя исходной статистической информации вида
где – значения соответственно поведенческих, «статусных», внешних и результирующих переменных, характеризующие -й такт времени (или измеренных на -м статистически обследованном предприятии), . Соответственно параметр (объем выборки ) интерпретируется как общая длительность наблюдений за значениями анализируемых переменных на исследуемом предприятии, если наблюдения регистрировались во времени , и как общее число статистически обследованных однотипных предприятий, если наблюдения регистрировались в пространстве (т. е., переходя от одного предприятия к другому). При этом описание функции должно сопровождаться способом расчета гарантированных погрешностей аппроксимации (ошибок прогноза ), т. е. таких векторных ( -мерных) значений и , которые для любых заданных значений и гарантировали бы выполнение неравенств (с вероятностью, не меньшей, чем , где – наперед заданная, достаточно близкая к единице положительная величина) , т.е. соответственно поведенческих (управляемых), «статусных» и переменных внешней среды для момента времени классической модели регрессии, величина тождественно равна нулю (см ).
Некоторые общие сведения о математическом инструментарии решения задач (9) и (10) см. ниже, в п. 4 .
Предыдущая |
Статистическое моделирование – это численный метод решения математических задач, при котором искомые величины представляют вероятностными характеристиками какого-либо случайного явления. Это явление моделируется, после чего нужные характеристики приближённо определяют путём статистической обработки «наблюдений» модели.
Разработка подобных моделей заключается в выборе метода статистического анализа, планировании процесса получения данных, компоновке данных об экологической системе, алгоритмировании и расчете компьютерными средствами статистических соотношений. Изменение закономерностей развития экологической ситуации требует повторения описанной процедуры, но уже в новом качестве.
Статистическое нахождение математической модели включает в себя выбор вида модели и определение ее параметров. Причем искомая функция может быть как функцией одной независимой переменной (однофакторной), так и многих переменных (многофакторной). Задача выбора вида модели – задача неформальная, т. к. одна и та же зависимость может быть описана с одинаковой погрешностью самыми различными аналитическими выражениями (регрессионными уравнениями). Рациональный выбор вида модели может быть обоснован при учете ряда критериев: компактность (например, описанная одночленом или многочленом), интерпретируемость (возможность придания содержательного смысла коэффициентом модели) и др. Задача расчета параметров выбранной модели зачастую чисто формальная и осуществляется на ЭВМ.
Формируя статистическую гипотезу об определенной экологической системе, необходимо иметь массив разнообразных данных (базу данных), который может быть неоправданно велик. Адекватное представление о системе связано в этом случае с отделением несущественной информации. Сокращению могут подлежать как перечень (тип) данных, так и количество данных. Одним из методов осуществления подобного сжатия экологической информации (без априорных предположений о структуре и динамике наблюдаемой экосистемы) может стать факторный анализ. Сокращение данных проводят методом наименьших квадратов, главных компонент и другими многомерными статистическими методами с использованием в дальнейшем, например, кластерного анализа.
Отметим, что первичная экологическая информация обладает в той или иной степени следующими особенностями:
– многомерностью данных;
– нелинейностью и неоднозначностью взаимосвязей в исследуемой системе;
– погрешностью измерений;
– влиянием неучтенных факторов;
– пространственно-временной динамикой.
При решении первой задачи выбора вида модели полагают, что известны m входных (х 1 , х 2 , ..., х m и n выходных (y 1 , y 2 , ..., y) данных. В этом случае возможны, в частности, следующие две модели в матричной записи:
где X и Y – известные входные (выходные) и выходные (входные) параметры экологического объекта ("черного ящика") в векторной форме записи; А и В – искомые матрицы постоянных коэффициентов модели (параметров модели).
Наряду с указанными моделями рассматривается более общий вид статистического моделирования:
где F – вектор скрытых влияющих факторов; С и D – искомые матрицы коэффициентов.
При решении экологических задач целесообразно использовать и линейные и нелинейные математические модели, т. к. многие экологические закономерности мало исследованы. В результате будут учтены многомерность и нелинейность моделируемых взаимосвязей.
На основе обобщенной модели можно выделить внутренние скрытые факторы изучаемых экологических процессов, которые не известны инженеру-экологу, но их проявление отражается на компонентах векторов X и Y. Эта процедура наиболее целесообразна в случае, когда между величинами X и Y не наблюдается строгой причинно-следственной связи. Обобщенная модель с учетом воздействия скрытых факторов устраняет определенное противоречие между двумя моделями с матрицами А и В, когда фактически две различные модели могли бы быть использованы для описания одного и того же экологического процесса. Это противоречие вызвано противоположным смыслом причинно-следственной зависимости между величинами А и Y (в одном случае X – вход, а Y – выход, а в другом - наоборот). Обобщенная модель с учетом величины F – описывает более сложную систему, из которой обе величины X и Y являются выходными, а па вход действуют скрытые факторы F.
Немаловажным при статистическом моделировании является использование априорных данных, когда еще в процессе решения могут быть установлены некоторые закономерности моделей и сужено их потенциальное количество.
Предположим, необходимо составить модель, с помощью которой за 24 ч можно численно определить плодородие определенного типа почвы с учетом ее температуры Т и влажности W. Ни пшеница, ни яблоня за 24 ч дать урожай не могут. Но для пробного сева можно использовать бактерии с коротким жизненным циклом, а в качестве количественного критерия интенсивности их жизнедеятельности пользоваться количеством Р выделенного СО 2 в единицу времени. Тогда математическая модель исследуемого процесса представляет собой выражение
где P 0 - численный показатель качества почвы.
Кажется, что у нас нет никаких данных о виде функции f(T, W) потому, что у инженера-системотехника нет нужных агрономических знаний. Но это не совсем так. Кто не знает, что при Т≈0°С вода замерзает и, следовательно, СO 2 выделяться не может, а при 80°С происходит пастеризация, т. е. большинство бактерий погибает. Априорных данных уже достаточно для утверждения, что искомая функция имеет квазипараболический характер, близка к нулю при Т=0 и 80°С и имеет экстремум внутри этого интервала температур. Аналогичные рассуждения относительно влажности приводят к фактофиксации максимума экстремума искомой функции при W=20% и приближении ее к нулю при W=0 и 40%. Таким образом, априори определен вид приближенной математической модели, а задачей эксперимента является лишь уточнение характера функции f(T, W) при Т=20 ... 30 и 50 ... 60°С, а также при W=10 ... 15 и 25 ... 30% и более точное установление координат экстремума (что уменьшает объем экспериментальных работ, т. е. объем статистических данных).
Наиболее широкое распространение при построении прогнозов развития в практике коммерческой деятельности получили экономико-статистические модели , которые описывают зависимость исследуемого экономического показателя от одного или нескольких факторов, оказывающих на него существенное влияние.
Закономерности в экономике могут выражаться в виде математических моделей связей и зависимостей экономических показателей. Такие зависимости и модели получают только путем обработки реальных статистических данных с учетом внутренних механизмов связи и случайных факторов. Наличие и качество информационного обеспечения, реальные возможности сбора и обработки первичной информации во многом определяют как сферу практического применения статистического моделирования в экономике, так и выбор различных видов прикладных моделей.
Строить экономико-статистические модели и оценивать их параметры, проверять гипотезы о свойствах экономических показателей и формах их связей помогает математическая статистика - теория обработки и анализа данных. Ее применение в экономике служит основой для экономического анализа и прогнозирования, что в конечном счете создает возможности для принятия обоснованных экономических решений.
Экономические данные обычно делят на два вида: перекрестные данные и временные ряды. Особенности их формирования впоследствии определяют выбор тех или иных методов обработки и анализа данных, построения моделей, отражающих связи и зависимости показателей.
Перекрестные данные - это данные по какому-либо экономическому показателю, полученные для разных однотипных объектов (фирм, регионов, отдельных видов товаров и др.). При этом либо все данные относятся к одному и тому же моменту времени, либо их временная принадлежность несущественна. Такие данные особенно ценны при изучении конкурентных преимуществ экономического объекта, сравнительной оценке его эффективности с целью определения реального положения на рынке, а также для выявления общей, характерной для всей совокупности отобранных объектов, зависимости какого-либо экономического показателя от действия заданных факторов в конкретный момент времени. Примером перекрестных данных может быть набор сведений (объем реализации, количество работников, уровень доходов и т.д.) о разных торговых предприятиях в один и тот же момент времени.
Временные ряды - это данные, характеризующие один и тот же объект, но в различные моменты времени, т.е. в качестве признака упорядочения данных в таких рядах берется время. Примером временных рядов могут быть ежеквартальные данные об объеме товарооборота, средней заработной плате, данные об инфляции, уровне доходов, затрат за последние несколько лет. Временной ряд, состоящий из n -уровней у 1 , y 2 , …, y n может быть записан в компактной форме: y t , t = 1, 2, ..., n , где t - порядковый номер наблюдения.
Основными требованиями, предъявляемыми к исходным данным, являются требования сопоставимости, достаточной представительности для выявления закономерности, однородности и устойчивости. Невыполнение одного из этих требований делает бессмысленным применение математического аппарата.
Сопоставимость данных достигается в результате одинакового подхода к наблюдениям на разных этапах формирования ряда динамики. Данные каждого ряда должны выражаться в одних и тех же единицах, иметь одинаковый шаг наблюдений, рассчитываться для одного и того же интервала времени, по одной и той же методике, охватывать одни и те же элементы, принадлежащие одной территории, относящейся к неизменной совокупности.
Представительность данных характеризуется их полнотой. Достаточное число наблюдений определяется в зависимости от цели проводимого исследования. Если целью является описательный статистический анализ, то в качестве изучаемого интервала времени можно выбрать любой, по своему усмотрению. Если же цель исследования - построение модели динамики, то число уровней исходного динамического ряда должно не меньше, чем в 3 раза превышать период упреждения прогноза и быть не менее 7. В случае использования квартальных или помесячных данных для исследования сезонности и прогнозирования сезонных процессов исходный временной ряд должен содержать квартальные либо помесячные данные не менее, чем за 4 года, даже если требуется прогноз на 1-2 квартала (месяца).
Однородность данных предполагает отсутствие нетипичных, аномальных наблюдений, а также изломов сложившихся тенденций. Аномальность приводит к смещению оценок и, следовательно, к искажению результатов анализа. Изломы тенденций свидетельствуют об изменении закономерностей протекания процесса.
Устойчивость данных отражает преобладание закономерности над случайностью в изменении уровней ряда. Свойство устойчивости легче всего проследить графически. На графиках устойчивых временных рядов даже визуально прослеживается закономерность, а на графиках неустойчивых рядов изменения последовательных уровней представляются хаотичными, и поэтому поиск закономерностей в формировании значений уровней таких рядов лишен смысла.
2 Основные инструменты анализа экономических данных
MS Excel предлагает широкий диапазон средств для изучения экономической информации. Множество встроенных статистических функций (СРЗНАЧ, МЕДИАНА, МОДА и др.) используют для проведения несложного анализа данных. Если возможностей встроенных функций недостаточно, то обращаются к пакету анализа, который содержит большой набор соответствующих инструментов и значительно расширяет аналитические возможности Excel. Его можно использовать для ранжирования данных, извлечения случайных или периодических выборок из набора данных, проведения корреляционного анализа, получения основных статистических характеристик для выборки и т.п.
В частности, пакет анализа MS Excel позволяет произвести Описательную статистику , содержащую информацию о центральной тенденции и изменчивости входных данных.
Инструмент Описательная статистика , имеющийся в пакете «Анализ данных» MS Excel, предназначен для оценки выборки экономических данных, когда есть необходимость проследить характер распределения и оценить меру разброса фактических величин вокруг среднего значения. Описательная статистика предлагает таблицу основных статистических характеристик для одного или нескольких множеств входных значений. Выходной диапазон этого инструмента содержит следующие статистические характеристики для каждой переменной из входного диапазона: среднее, стандартная ошибка, медиана, мода, стандартное отклонение, дисперсия, коэффициент эксцесса, коэффициент асимметрии, размах (интервал), максимальное значение, минимальное значение, сумма, число значений, k -e наибольшее и наименьшее значения (для любого заданного значения k ) и уровень значимости (надежности) для среднего.
Среднее значение (у ср ) является основной характеристикой центра распределения. Для него характерно то, что все отклонения от него (положительные и отрицательные) в сумме равняются нулю. Excel вычисляет среднее значение по средней арифметической, суммируя ряд данных с последующим делением результата на количество значений ряда.
Стандартная ошибка оценивает меру ошибки рассчитанного на основе сформированной выборки среднего значения и снижается при увеличении массива отобранных данных.
Стандартное отклонение и дисперсия выборки являются статистическими характеристиками изменчивости (разброса) множества измерений. Стандартное отклонение - это квадратный корень из дисперсии. Как правило, приблизительно 68 % значений случайной величины, имеющей нормальное распределение, находятся в пределах одного стандартного отклонения от среднего и около 95 % - в пределах двух. Большое стандартное отклонение указывает на то, что значения сильно разбросаны относительно среднего, а малое - на то, что значения сосредоточены около среднего.
Размах (интервал) есть разность между максимальным и минимальным значениями ряда данных, т.е. длина интервала, которому принадлежат все данные выборки. Чем больше эта длина, тем более рассеяна кривая распределения, тем больше колеблемость изучаемого признака.
Минимум характеризует наименьшее значение во входном диапазоне данных.
Максимум отражает наибольшее значение во входном диапазоне данных.
Мода (Мо ) определяет значение, которое чаще других встречается в массиве данных.
Медиана (Me ) - это значение, разделяющее заданное множество данных (выборку) на две равные части, т.е. половина чисел оказывается больше и половина - меньше медианы. Если количество данных четное, то значение медианы равно среднему из двух чисел, находящихся в середине множества.
Соотношение среднего значения, моды и медианы указывает на характер распределения изучаемого признака в совокупности, позволяет оценить его асимметрию. В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средним значением, тем более асимметричен ряд.
Оценку отклонения фактического распределения каждого набора входных данных (выборки) от нормального распределения проводят также с помощью коэффициентов асимметрии и эксцесса
. Для нормального распределения асимметрия и эксцесс равны нулю. При отклонении от нормального распределения асимметрия положительна, если «длинная» и более пологая часть кривой распределения расположена справа от точки на оси абсцисс, соответствующей моде. Для правосторонней асимметрии характерно неравенство Mo
Увеличение количества наблюдений и соответственно размера совокупности данных значительно повышает практическую ценность проводимого на основе Описательной статистики исследования. Поэтому широкое применение этот инструмент анализа находит при проведении экономических исследований территориального и отраслевого масштаба, когда требуются расчет и оценка статистических характеристик множества различных экономических показателей на основе больших массивов данных по каждому их них.
3 Применение корреляционного анализа для решения экономических задач
Любая экономическая политика заключается в регулировании определенных экономических параметров и поэтому должна основываться на знании того, как эти параметры влияют на другие составляющие экономической среды.
Связь одного из показателей с другими описывается с помощью функций одной у = f(x) или нескольких у = f(x 1 , х 2 , …, х n) переменных.
На исследуемый показатель, кроме явно учитываемых объясняющих признаков, влияет еще множество других факторов, существующих в действительности, но не учитываемых явно в модели. Большинство этих факторов - случайные, незначимые или не поддающиеся количественному выражению, но они приводят к вариации реальных данных, их несовпадению с величинами, рассчитанными по формуле связи переменной с объясняющими признаками. Это обусловливает стохастическую природу как экономических показателей, так и взаимосвязей между ними. Стохастические взаимосвязи экономических переменных можно описать с помощью так называемых корреляционных характеристик.
Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Аппарат корреляционного анализа объединяет специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о присутствии или отсутствии связи между переменными.
Основной целью корреляционного анализа является установление характера влияния факторной переменной на исследуемый показатель и определение тесноты их связи с тем, чтобы с достаточной степенью надежности строить модель развития исследуемого показателя.
Учитывая то обстоятельство, что на любой результирующий экономический показатель оказывает воздействие множество факторов, важно грамотно и обоснованно подойти к выбору наиболее значимых из них. От правильности сделанного выбора во многом будет зависеть и достоверность полученных на основе построенной модели прогнозов.
Предварительный отбор факторов для корреляционного анализа производится логически на основе содержательных экономических оценок. При этом все факторы, воздействующие на исследуемый показатель, подразделяются на два вида - формализуемые и неформализуемые. Формализуемые факторы допускают аналитический расчет с использованием экономико-математических методов по определенным алгоритмам с применением вычислительной техники или без нее. Именно такие факторы могут быть отобраны для корреляционного анализа. Неформализуемые факторы не поддаются количественному измерению и поэтому включить их в экономико-математическую модель не представляется возможным. К ним относятся политические, моральные, этические факторы, социально-психологические мотивы, привычки, традиции, опыт и др.
Поскольку корреляционная связь с достаточной выразительностью и полнотой проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим. В условиях нестабильности экономики построение длинных динамических рядов на основе годовых данных представляется нецелесообразным вследствие несопоставимости условий функционирования экономического объекта (в том числе и торгового предприятия). Поэтому число наблюдений можно увеличить за счет данных о динамике исследуемых показателей по кварталам и месяцам.
С технической точки зрения проведение корреляционного анализа сводится к расчету коэффициентов парной корреляции, значения которых помогут судить о характере и тесноте связи между исследуемым показателем и каждой отобранной факторной переменной.
Коэффициент парной корреляции используется в качестве меры, характеризующей степень линейной связи двух переменных. Значение коэффициента корреляции лежит в интервале от -1 (в случае строгой линейной отрицательной связи) до +1 (в случае строгой линейной положительной связи). Соответственно, положительное значение коэффициента корреляции свидетельствует о прямой связи между исследуемым и факторным показателем, а отрицательное - об обратной. Чем ближе значение коэффициента корреляции к 1, тем теснее связь. Качественно оценить тесноту связи позволяет специальная шкала значений коэффициентов корреляции, разработанная профессором Колумбийского университета США Чеддоком (таблица 3.1).
Таблица 3.1 - Оценка тесноты связи двух переменных на основе коэффициента корреляции