» » Одномерные статистические модели


Одномерные статистические модели

03.08.2016

Сущность и условия применения

Геологические исследования в большинстве случаев основаны на изучении свойств геологических образований путем замеров в отдельных точках непосредственно на месте их залегания или путем анализа образцов и проб, отобранных в отдельных участках. При этом выборочные наблюдения относятся к элементарно малым, пространственно разобщенным объемам недр (в искусственном или естественном обнажении), а выводы, полученные по ним, распространяются на весь исследуемый объем.
Изучая сложные природные объекты выборочными методами, геологи всегда учитывали возможность получения ошибочных результатов по ограниченному числу наблюдений. Поэтому первые попытки математического моделирования в геологии связаны с использованием математического аппарата теории вероятностей и математической статистики, который обеспечивает возможность получения наиболее надежных выводов по выборочным данным и позволяет оценить точность этих выводов.
В основе статистического моделирования лежат два понятия: о генеральной совокупности — множестве возможных значений определенного признака изучаемого объекта или явления и о выборке — совокупности наблюденных значений этого признака.
При использовании статистической модели геологические объекты рассматриваются как совокупности бесконечно большого числа элементарных участков, каждый из которых соответствует по размеру отдельной пробе или месту единичного замера изучаемого свойства. Такой подход вполне правомерен, поскольку размеры проб или сечения искусственных обнажений — скважин и горных выработок — обычно неизмеримо малы по сравнению с изучаемыми геологическими объектами.
При статистическом моделировании предполагается, что выборочная совокупность удовлетворяет требованиям массовости, однородности, случайности и независимости.
Условие массовости обусловлено тем, что статистические закономерности устанавливаются лишь в массовых явлениях, в связи с чем объем выборочной совокупности должен быть достаточно представительным. В настоящее время большим объемом статистических исследований установлено, что надежность статистических оценок резко снижается при уменьшении объема выборки в диапазоне от 50 до 30—20 значений, а при меньшем количестве наблюдений применять статистические методы в большинстве случаев нецелесообразно. При проведении геологических, геохимических и геофизических работ число наблюдений, как правило, велико и условие массовости выполняется. Однако, в процессе разведки месторождений полезных ископаемых, когда для каждого наблюдения обычно требуется проведение специальной горной выработки или бурение скважины, геологу часто приходится иметь дело с малыми выборками. Это вызывает определенные трудности, так как свойства многих статистических оценок в данных случаях изучены недостаточно. Поэтому в таких случаях следует пользоваться статистическими моделями, позволяющими вычислять числовые характеристики случайных величин по небольшому числу наблюдений.
Условие однородности заключается в том, что выборочная совокупность должна состоять из наблюдений, принадлежащих одному объекту и выполненных одинаковым способом, т.е. при постоянном размере проб и одинаковом методе анализа или измерения. Нарушения этого условия могут быть связаны с ошибками при определении границ изучаемой геологической совокупности или техническими и организационными сложностями проведения исследований.
Границы геологической совокупности задаются, исходя из поставленной задачи, до получения массовых результатов исследования, при этом предполагается, что объекты, входящие в геологическую совокупность, внутренне однородны. Это предположение подтверждается не всегда. Так, например, схожие по качественным признакам объекты могут различаться по количественным характеристикам. К тому же большинство реальных геологических образований имеет сложное внутренне строение, обусловленное зональностью и наличием неоднородности разного масштаба.
В связи с тем, что условие однородности в практике геологических исследований соблюдается далеко не всегда, применение статистических методов должно сопровождаться анализом возможных последствий за счет нарушения данного условия. Для этого следует учитывать характер решаемой задачи, а в ряде случаев использовать специальные методы для проверки гипотезы об однородности выборки.
Условие случайности предусматривает непредсказуемость результата единичного выборочного наблюдения. Сложность и изменчивость геологических объектов, как правило, исключают возможность точной оценки их свойств до проведения наблюдения. Поэтому элемент случайности присутствует во всех геологических исследованиях. Однако условие случайности строго выполняется лишь тогда, когда расположение мест отбора проб или проведения замеров изучаемого свойства вообще не будет каким-либо образом связано с величиной, характеризующей это свойство.
В практике геологоразведочных работ это обычно достигается за счет проведения наблюдений по равномерной сети, когда все места наблюдений намечают заранее до начала работ и в процессе их выполнения не корректируют. Вместе с тем при изучении геологических образований по естественным обнажениям это условие может нарушаться. Так, например, на территориях со слаборасчлененным рельефом естественные обнажения располагаются преимущественно в бортах речных долин, которые, в свою очередь, часто совпадают с разрывными нарушениями или выходами пород, наиболее легко поддающихся процессам эрозии. В то же время прочностные свойства пород связаны с их текстурными особенностями и минеральным составом. Поэтому статистическая обработка результатов петрографических исследований или испытание их физико-механических свойств по образцам, отобранным только из естественных обнажений, может дать искаженное представление о свойствах пород изученной территории в целом.
Условие случайности может нарушаться за счет субъективности при выполнении замеров или отборе проб. Если при отборе образцов из толщи гнейсов один исследователь будет отдавать предпочтение прослоям более светлой окраски, а другой — прослоям более темной окраски, то полученные ими выборки будут существенно отличаться по среднему минеральному составу как друг от друга, так и от истинного среднего состава изучаемой толщи.
В процессе проведения геологоразведочных работ часто возникает необходимость в сгущении сети наблюдений на наиболее интересных или перспективных участках. Свойства геологических объектов в пределах этих участков и на всей остальной изучаемой территории могут существенно отличаться. Поэтому при статистической обработке данных для соблюдения условия случайности результаты наблюдений по участку детализации должны быть выделены в самостоятельную выборочную совокупность.
Условие независимости предполагает, что результаты каждого наблюдения не зависят от результатов предыдущих и последующих наблюдений, а при проведении наблюдений на площади или в объеме результаты не зависят от координат пространства. Для большинства геологических процессов и образований это условие не соблюдается. В изменчивости свойств геологических образований в пространстве и параметров геологических процессов во времени обычно наблюдаются определенные закономерности.
В геологоразведочной практике одномерные статистические модели используются для решения двух типов задач: оценки средних параметров геологических объектов и статистической проверки гипотез. Так как геологу часто приходится сталкиваться с ситуацией, когда допущения математической статистики не могут быть приняты однозначно, применение статистических методов в геологии всегда должно базироваться на всестороннем анализе характера решаемой задачи, особенностей изучаемых объектов и методики получения информации об их свойствах.
Выборка, основные требования к ней и ее основные характеристики

Любая геологическая информация (результаты химического анализа, замеры физических свойств пород и руд и т.д.) представляет собой выборку из некоторой генеральной совокупности, характеризующей явление в целом. Основная задача исследователя, использующего статистические методы обработки информации, состоит в том, чтобы по свойствам исследуемого признака в выборке сделать (с определенной вероятностью) заключение о его свойствах в генеральной совокупности. Чтобы выборочная совокупность (выборка) могла служить решению указанной задачи, она должна удовлетворять определенным требованиям. Рассмотрим их.
1. Выборка должна быть представительной, т.е. необходимо, чтобы объекты выборки правильно отражали изучаемую совокупность. Представительность выборки обеспечивается случайным отбором объектов генеральной совокупности, т.е. таким отбором, при котором любой объект имеет равные шансы попасть в выборку.
2. Выборка должна быть достаточной по объему. Одним из наиболее простых способов определения объема выборки n при заданной точности р является вычисление его по формуле
Одномерные статистические модели

где t — значение t-критерия при принятом уровне значимости α; V — коэффициент вариации; р — допустимая относительная ошибка определения среднего (подробно об этих показателях будет сказано далее).
Если известно, что коэффициент вариации изучаемого признака равен 60 %, то при α = 0,05 и р = 20 % выборка должна состоять из n = (1,96в2 х 60в2):20в2 = 35 наблюдений. Если коэффициент вариации неизвестен, то его следует определить по небольшой выборке и затем уточнить объем выборочной совокупности, обеспечивающей необходимую точность.
В результате отбора получают n значений признака. Основой для изучения выборочной совокупности является ряд распределения — упорядоченная совокупность значений, принимаемых признаком, и соответствующие им частоты:
Одномерные статистические модели

где n — объем выборки.
Ряд распределения составляется следующим образом:
• из имеющихся значений признака X выбираются наименьшее и наибольшее и устанавливается размах распределения (варьирования)
Одномерные статистические модели

• определяется число классов группировки. Опыт показывает, что наиболее целесообразно К выбирать в пределах 8—15 (меньшее для небольшого объема данных). Для определения К может быть использована эмпирическая формула
Одномерные статистические модели

• находится длина интервала группировки (величина класса) по формуле Стреджера
Одномерные статистические модели

• устанавливаются границы классов: границы первого класса следует выбрать так, чтобы он содержал наименьшее значение изучаемой величины; последующие классы образуются добавлением величины С к большему значению предшествующего интервала (важно, чтобы первый и последний классы образуемого ряда были одинаковы по вероятности попадания в них крайних значений признака);
• данные «разносятся» по классам и подсчитываются числа их в каждом классе (частота). За оценку класса принимается среднее арифметическое значение его границ. Составление ряда распределения рассмотрим на примере следующих данных (результаты анализа 100 проб угля на серу, месторождение «Эльбрусское»):
Одномерные статистические модели

Минимальное содержание серы в угле равно 0,60 %, максимальное — 8,40 %. Размах 8,40 - 0,60 = 7,80 %. Число классов примем равным 9. Длина интервала группировки С = 7,80:9 = 01,00 %. Границы интервалов группировки равны 0,00—1,00; 1,00—2,00; 2,00—3,00 и т.д. Результаты разнесения исходных данных по классам будут выглядеть следующим образом (содержание 1,00; 2,00 и т.д., совпадающие с граничными значениями классов, относятся в класс меньших значений):
Одномерные статистические модели

При статистической обработке, наряду с основным рядом распределения, используются преобразованные ряды. Среди них наиболее часто применяют следующие:
• ряд, в котором вместо частот ni используются частости (wi = n1:n). Для рассматриваемого примера преобразованный ряд имеет вид:
Одномерные статистические модели

• ряд с накопленными частотами Ni, где Ni = n1 + n2 + .... + n — сумма частот от 1-й до i-й включительно. Для нашего примера ряд накопленных частот имеет вид:
Одномерные статистические модели

Иногда составляются ряды накопленных частностей, ряды, в которых вместо значений признака xi используют отклонения этих значений от среднего, и т.д.
Изучение рядов распределения ведут также с помощью их графического изображения: гистограмм; полигональных и кумулятивных кривых (рис. 7.1). При построении гистограммы по оси ординат откладывают отрезки, пропорциональные а по оси абсцисс — отрезки, пропорциональные возможным значениям случайной величины. При построении полигональной кривой по оси ординат — отрезки, пропорциональные wi, кумулятивной кривой — отрезки, пропорциональные накопленным частотам ni, а по оси абсцисс — отрезки, пропорциональные возможным значениям случайной величины.
Одномерные статистические модели

Графическое изображение ряда весьма наглядно, но не дает возможности исследовать распределение полностью. Наиболее удобным и полным является аналитический способ исследования ряда, состоящий в том, что устанавливаются числовые показатели (статистики), которые полностью характеризуют изучаемый ряд. Основными из них являются: среднее значение, дисперсия, среднеквадратическое отклонение, показатели асимметрии, эксцесса и некоторые другие связанные с ними показатели.
Среднее значение случайной величины — наиболее распространенная характеристика, которая определяется по формуле
Одномерные статистические модели

где X — среднее значение признака; Xi — значения признаков, составляющих совокупность; n — объем выборки.
Значения исследуемого признака Xi могут быть по-разному расположены относительно своего среднего значения. Так, например, два ряда чисел 14, 15, 16 и 2, 3, 40 имеют одинаковые средние значения, равные 15, но в первом случае числа «близко» расположены к среднему, а во втором значительно рассеяны относительно среднего значения.
Степень рассеяния относительно среднего значения характеризует выборочная дисперсия, вычисляемая по формуле
Одномерные статистические модели

Размерность дисперсии соответствует квадрату размерности случайной величины. Корень квадратный из дисперсии называют среднеквадратическим отклонением, или стандартом, и обозначают через
Одномерные статистические модели

Среднеквадратическое отклонение имеет ту же размерность, что и элементы исходного массива. Это не дает возможности сравнить между собой степень рассеяния (колеблемость) разнородных величин. Поэтому необходима мера колеблемости (изменчивости), не зависящая от единиц измерения изучаемых величин. Такой мерой изменчивости является коэффициент вариации, равный квадратическому отклонению, выраженному в процентах от среднего значения:
Одномерные статистические модели

Асимметрия представляет собой меру скошенности распределения в ту или иную сторону от среднего. Численное значение асимметрии определяется по формуле
Одномерные статистические модели

Асимметрия может быть правосторонней (положительной), левосторонней (отрицательной) и нулевой при симметричном распределении (рис. 7.2).
Эксцесс распределения случайных величин характеризует островершинность или крутость распределения. Численное значение эксцесса определяют по формуле
Одномерные статистические модели

Показатель эксцессов может быть положительным, когда для распределения характерна островершинность, нулевым — распределение соответствует нормальному, отрицательным — кривая распределения имеет сглаженную вершину (см. рис. 7.2). Пример расчета статистических параметров показан в табл. 7.1.
Одномерные статистические модели

Одномерные статистические модели