Двумерные и многомерные статистические модели



Сущность и условия применения

Моделирование геологических образований, процессов и явлений как сложных природных систем часто обусловливает необходимость совместного рассмотрения комплекса их свойств с целью выяснения общей структуры исследуемого объекта. Так, при изучении полезных ископаемых по керну одновременно определяют мощность залежи, содержание в ней полезных компонентов, породообразующих минералов, значения пористости или различные другие свойства вмещающих пород и угля.
Например, изменение сопротивляемости резанию углей в зависимости от содержания компонентов группы витринита аппроксимируется линейной моделью; изменение толщины пластического слоя в зависимости от содержания отощающих компонентов в углях различных стадий метаморфизма — обратной моделью; изменение теплоты сгорания компонентов группы витринита на различных стадиях метоморфизма углей — параболической моделью.
Например, для Черногорского каменноугольного месторождения длиннопламенных углей установлена прямая зависимость между элементым составом угля (С, Н, S) и его плотностью, и обратная — между содержанием скандия и плотностью угля.
Выявление и изучение взаимосвязей между значениями свойств геологических образований способствует более глубокому пониманию особенностей геологических процессов и установлению факторов, влияющих на эффективность методов исследования геологических и геолого-промышленных объектов. В ряде случаев оно позволяет получать количественные оценки некоторых свойств по значениям других, легко определяемых свойств. Так как изучаемые взаимосвязи имеют статистический характер и практически всегда отличаются от функциональных, для их изучения и описания используются дву- и многомерные статистические модели.
В двумерной статистической модели объект исследования рассматривается как двумерная статистическая совокупность, а ее основной характеристикой является двумерная функция распределения случайных величин X и Y. Между двумя случайными величинами проявляются стохастические (вероятностные) связи, когда заданному значению случайной величины X = х соответствует не какое-либо значение величины Y, а набор ее значений у1, у2, ..., уn, каждому из которых свойственна определенная вероятность р1,p2, ..., рn.
Любое геологическое явление может быть охарактеризовано множеством признаков, поддающихся наблюдению и измерению. Так, магматические горные породы сходного минерального и химического составов могут иметь некоторые петрохимические особенности, определяющие их специфическую рудоносность. Эти особенности не поддаются выявлению с первого взгляда, но могут быть установлены путем статистической обработки химических анализов пород. При решении подобных задач предусматривается совместное рассмотрение комплекса изучаемых признаков, т.е. создание многомерной статистической модели.
В качестве математической модели значений комплекса признаков рассматривается многомерная случайная величина, часто называемая случайным вектором. Многомерные модели подразумевают вероятность нормального статистического распределения рассматриваемых случайных величин или хотя бы возможность их нормализации. К многомерным моделям, используемым в геологии, относят многомерный корреляционный анализ, множественную регрессию, кластер-анализ данных, метод главных компонент и др. Многомерные статистические описания связей геологических переменных с последующими оценками степени их взаимозависимостей используются в геологической практике с целью идентификации (отождествления), дискриминации (разделения), классификации (группирования) изучаемых объектов или в поисках наиболее информативных комбинаций признаков для решения прогнозных задач.
Корреляционный анализ

Примерами корреляционных зависимостей в геологии могут служить связи между содержаниями изучаемого компонента и плотностью руды, между содержаниями определенных элементов в породе и ее радиоактивностью, между величиной давления бурового снаряда на забой и скоростью бурения и т.п.
Между случайной переменной X, принимающей значения х1, х2, ... , хn, и Y, принимающей значения у1, у2, ... ,уn, существует корреляционная зависимость, если каждому значению независимой переменной X соответствует некоторое распределение Y, причем с изменением хi закономерно изменяются математические ожидания уi этих распределений.
По тесноте различают связь сильную, среднюю и слабую, по характеру — прямую (с увеличением одного параметра увеличиваются значения второго) и обратную (с увеличением одного параметра другой уменьшается), по форме — линейную и нелинейную.
Корреляционные зависимости изучаются табличным, графическим и аналитическим методами.
При табличном изучении корреляционных связей зависимость между X и Y задается двумерной таблицей распределения или корреляционной решеткой. Таблица распределения составляется тем же способом, что и ряды распределения, но здесь следует разносить каждую пару данных одновременно по классам значений хi и уi. На основе данных таблицы распределения можно сделать вывод о характере зависимости между X и Y. Однако ясного ответа на вопрос о силе и форме связи таблица не дает.
Графическим изображением совокупности всех пар значений (хi и уi) является множество точек плоскости, образующих поле корреляции (рис. 7.3). Поле корреляции также не дает четкого представления о характере зависимости между X и Y. Более четко эта зависимость проявляется построением графика зависимости между значениями хi и переменной X или средними значениями и переменной У. Такой график дает наглядное представление о зависимости между X и Y и позволяет делать выводы о характере и форме зависимости (рис. 7.4),
Наиболее полный метод изучения корреляционных зависимостей — аналитический, состоящий в установлении числовых показателей меры и формы зависимости между X и Y.
Двумерные и многомерные статистические модели

Основными из них являются корреляционное отношение и коэффициент корреляции.
Корреляционным отношением η называется отношение меры рассеяния условных средних зависимостей переменной к мере рассеяния всех значений переменной, т.е. η = σ(уi) : σ(у), где у — значения, принимаемые зависимой переменной, a yi — условные средние, соответствующие значениям xi. По выборочным данным вычисляется выборочное корреляционное отношение
Двумерные и многомерные статистические модели

Значение η изменяется от 0 до 1. Равенство η = 0 является необходимым и достаточным условием отсутствия корреляционной зависимости. При η = 1 корреляционная связь переходит в функциональную.
Коэффициент корреляции вычисляется по формуле
Двумерные и многомерные статистические модели

Коэффициент корреляции изменяется от -1 до +1. При r ≥ 0 зависимость прямая, при r < 0 — обратная; r = 0 свидетельствует об отсутствии линейной связи, но еще не является полным доказательством независимости X и Y. При |r|=1 между X и Y устанавливается линейная функциональная зависимость вида у = ах + b. Доказано, что всегда η ≥ |r|. Равенство η = |r| имеет место, когда зависимость между X и Y линейная, т.е. это равенство может служить простейшим критерием линейности зависимости между X и Y. Более строгим критерием линейности связи является критерий t = k:sk, где k = η2 - r2 — мера криволинейности, а sk — ошибка определения величины к, вычисляемая по формуле sk = √k + k2(2-η2-r2):√n. Если tэмп<t, то связь может быть признана линейной. Критерий tэмп соответствует определенным значениям, которые устанавливают по критическим значениям корреляции для различных объемов выборки.
Множественная корреляция. Корреляция двух случайных величин X и Y является частным случаем более распространенных в окружающей нас действительности явлений множественной корреляции, когда изменение одной из переменных зависит от изменений множества других. При исследовании таких связей возникают две существенно отличные друг от друга задачи:
• определение тесноты связи между парами факторов, когда явление других исключено;
• определение тесноты линейной зависимости между одним из факторов (функцией) и всеми остальными (аргументами).
Показателем, характеризующим тесноту линейной связи между двумя признаками X и У, когда влияние других факторов исключено, является частный коэффициент корреляции. Для трех факторов X, Y, Z могут быть вычислены следующие коэффициенты корреляции:
• взаимодействие между х и у при фиксированном z —
Двумерные и многомерные статистические модели

• взаимодействие между х и z при фиксированном у —
Двумерные и многомерные статистические модели

• взаимодействие между у и z при фиксированном х —
Двумерные и многомерные статистические модели

Значимость частных коэффициентов корреляции определяется аналогично парным.
Регрессивный анализ

Коэффициент корреляции и корреляционное отношение позволяют установить характер и тесноту связи между случайными переменными. Однако не менее важным, а часто и необходимым для исследователя является математическое описание выявленной зависимости, позволяющее анализировать изучаемое явление. Для этого используют регрессионный анализ. Регрессионный анализ выполняется в три этапа: выбор формы зависимости (типа уравнения); вычисление коэффициентов выбранного уравнения; оценка достоверности полученного уравнения.
Рассмотрим прежде всего регрессию двух переменных: X и Y. Уравнением регрессии Y по X называется уравнение вида у = j(x), устанавливающее зависимость между значениями независимой X и условными средними зависимой переменной Y. По виду различают линейные и нелинейные уравнения связи. Решению вопроса о форме связи и выборе типа уравнения должны предшествовать тщательный анализ показателей тесноты и характера связи, графика эмпирических зависимостей и физической сущности изучаемого явления.
Линейная регрессия. Если коэффициент корреляции значим и близок к корреляционному отношению, а график эмпирической зависимости близок к прямой линии, то зависимость между X и Y — линейная и выражается уравнением
Двумерные и многомерные статистические модели

Из аналитической геометрии известно, что коэффициент при независимой переменной X есть тангенс угла наклона прямой к положительному направлению ОХ, т.е. a = tg φ. Этот коэффициент характеризует скорость изменения зависимой переменной у при изменении переменной х. Положение прямой при различных значениях φ показано на рис. 7.5. Коэффициент b — начальная ордината, определяет значение у при х = 0. Графически — это отрезок, отсекаемый прямой на оси OY.
Двумерные и многомерные статистические модели

Один из простых способов вычисления коэффициентов уравнения регрессии (не только линейной) — метод наименьших квадратов. Сущность метода состоит в том, что наилучшим считается то положение линии регрессии, при котором сумма квадратов отклонений эмпирических точек по ординатам от теоретических (расчетных) минимальна.
Значения а и b определяются из систем нормальных уравнений:
Двумерные и многомерные статистические модели

где суммирование ведется по всем значениям xi.
Двумерные и многомерные статистические модели

Нелинейная регрессия. Если r (коэффициент корреляции) и η (корреляционное отношение) существенно различаются, то корреляцию следует считать нелинейной, а линию регрессии — отличной от прямой. Подбор уравнения связи определяется видом эмпирической линии регрессии и анализом изучаемого явления. Выбор уравнений нелинейной регрессии весьма обширен (рис. 7.6). Приведем некоторые из них:
• полином второй, третьей и более высоких степеней —
у = ах2 + bх + с; у = ах3 + bx2 + сх + d и т.д.;
• гиперболические кривые —
у = а:х + b; у = 1 :(а + bх).
Коэффициенты уравнений регрессии вычисляются методом наименьших квадратов. Число нормальных уравнений равно числу определяемых параметров. Составляются они аналогично тому, как составлялись нормальные уравнения для прямой. Так, для многочлена 2-го порядка система нормальных уравнений будет иметь вид:
Двумерные и многомерные статистические модели

Уравнения гиперболического вида у = а/х + b (х ≠ 0) легко приводятся к линейному у = ах1 + b, где x1 = 1/х, и система нормальных уравнений имеет вид:
Двумерные и многомерные статистические модели

В ряде других случаев уравнение нелинейной регрессии удается привести к линейному виду (линеаризировать). Так, если уравнение у = abx прологарифмировать и обозначить Ig у = у, Iga = а1, Igb = b1, то оно приводится к виду у = a1 + b1x, т.е. линейному.
Множественная регрессия. Уравнение, устанавливающее зависимость между одним из признаков x1 (функцией) и несколькими другими x2, x3, ..., xm (аргументами), называется уравнением множественной регрессии. В общем случае его можно записать в виде
Двумерные и многомерные статистические модели

Различают линейную и нелинейную множественную регрессию. В случае линейной зависимости уравнение регрессии имеет вид:
Двумерные и многомерные статистические модели

Этому уравнению соответствует так называемая гиперплоскость, т.е. плоскость m-мерного пространства.
Для уравнения вида z = b1 + b2x2 + b3y, т.е. когда z есть функция двух независимых переменных, получают обычную плоскость в трехмерном пространстве, коэффициенты которой b1, b2, b3 могут быть вычислены тем же методом наименьших квадратов.
Уравнения линейной регрессии для двух независимых переменных (х, у) можно записать в виде
Двумерные и многомерные статистические модели

Пример. В результате статистической обработки данных анализа 100 проб получены следующие статистики для трех элементов:
Двумерные и многомерные статистические модели

Составить уравнение регрессии z по х и у.
Коэффициенты уравнения регрессии А и В равны:
Двумерные и многомерные статистические модели

Подставляя эти значения в уравнение (7.27), получим
Двумерные и многомерные статистические модели

Уравнение регрессии позволяет вычислить теоретические (вероятностные) значения зависимой переменной по заданным значениям независимых переменных в области их применения. В отдельных случаях, после тщательного анализа сущности изучаемого явления, допускается некоторая экстраполяция.
Оценка полученной зависимости. Для оценки достоверности получаемого уравнения можно пользоваться критерием разностного ряда. Пример расчета этого критерия для полученного ранее уравнения у = 7,4x + 0,14 показан ниже:
Двумерные и многомерные статистические модели