Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

ка, которая образована пересечением двух гистограмм, будет некорректно отнесена как к левому, так и к правому центру.

Граница классов может быть определена из выражения

[15; 66; 80]:

d (M w 2 M w 2) / (w 2 w 2),

1 2 1 2 2 2 1 1 2 2 1 1

где M1, M2 – математические ожидания каждого класса; w1, w2 – долевой (весовой) вклад каждого класса в общую совокупность данных; σ1, σ2 – стандартные отклонения классов.

По рис. 4.4 все объекты, находящиеся правее границы d1–2, можно отнести ко множеству A. Понятно, что в интервале «с–d» вероятность отнесения объекта больше к правому множеству, чем к левому. На этом участке правая гистограмма выше левой. Объекты, находящиеся в интервале a–b, будут отнесены в левое множество. Но наблюдения, которые находятся в области пере-

крытия двух гистограмм, в точке d(1–2), будут иметь одинаковую вероятность отнесения их к левому или правому подмножест-

вам. Теоретическая ошибка классификации может быть вычислена как сумма вероятностей неправильной классификации. На рис. 4.4 она отображена как пересекаемая площадь. С учётом свойства интегральной функции распределения случайной величины

F (z) P(x z)

величину ошибки можно выразить в процентах через интеграл Лапласа:

100 1 Ф (d1 2) M 1) / 1 Ф (d1 2) M 2) / 2 .

Эта ошибка показывает долю неверно классифицированных объектов и может быть выражена числом.

При определении коэффициентов функции (4.1) используются все наблюдения. Выделим из них подмножества А и В и определим для каждого средние значения:

– для множества A: X 1A и X 2 A ;

91

– множества В: X 1B и X 2B .

Это будут центроиды множеств, подставим эти значения в выражение (4.1), тогда:

– для множества A:

f

Ax a1

X

1A a2

X

2 A ;

(4.2)

– множества В:

f Bx a1 X 1B a2 X 2B .

Получим две линии DA ( f Ax ) и DB ( f Bx ) , параллельные

D0 (f(X)) и проходящие через центроиды множеств. Средняя линия, если соблюдены все условия, будет совпадать с D0. Её ещё можно вычислить из выражения

C 1/ 2 (( f1 Ax) ( f1Bx)) .

(4.3)

Величина С называется константой дискриминации. Если вычисленное по выражению (4.2) значение меньше D0, тогда наблюдение относится к левому (см. рис. 4.4) множеству, если больше, то к правому множеству.

4.7.Коэффициенты дискриминантной функции

Впредыдущем разделе мы получили коэффициенты дис-

криминантной функции а1 и а2, вычисленные с учётом ранее установленных условий. Первое условие предполагает, чтобы центроиды двух множеств находились как можно дальше друг от друга. Для двух множеств (классов) выполнение этого условия предполагает максимальную разность средних значения функций:

f

Ax

f

Bx max.

(4.4)

При вычислении коэффициентов а1 и а2 дискриминантной функции следует исходить из того, что для рассматриваемых множеств внутригрупповая дисперсия должна быть минималь-

92

ной, а межгрупповая дисперсия – максимальной. Эти требования обеспечивают наилучшую дискриминацию входных данных.

Тогда можно выражение (4.4) переписать в следующем виде:

fkt (x)

f

k (x) a1(x1kt

x

1k ) a2 (x2kt

x

2k ),

(4.5)

где k – номер множества; t – номер наблюдения в множестве. Обозначим fkt (x) как Ykt , тогда внутригрупповая вариа-

ция по одному множеству может определяться следующей суммой квадратов отклонений:

nk

(Ykt Y k )2 .

t 1

Для двух множеств это выражение запишем в следующем

виде:

2

nk

2

 

 

 

 

 

Ykt

 

Y

k ,

(4.6)

k 1

t 1

 

 

 

 

где p – количество переменных.

Перепишем последнее выражение в матричной форме:

2

nk

 

 

 

 

(Ykt

 

Y

k )2 A(X1/ X1 X 2/ X 2 ) A ,

(4.7)

k 1

t 1

 

 

 

 

где А – вектор дискриминантной функции; X1/ , X2/ – транспони-

рованные матрицы отклонений значений исходных переменных от их средних по множествам.

В общем случае необходимо определить q дискриминантных функций, равное количеству анализируемых классов. Для двух классов требуется вычисление двух дискриминантных функций f Ax и fBx . В дальнейшем, с использованием вычис-

ленных коэффициентов функций (4.1), можно провести классификацию любого произвольного наблюдения. Дискриминантная функция может иметь линейный или нелинейной характер. Вы-

93

бор вида этой функции будет зависеть от формы (геометрии) расположения объектов разделяемых классов в пространстве дискриминантных переменных. В дальнейшем будем рассматривать линейную дискриминантную функцию (ЛДФ).

Ранее отмечалось, что коэффициенты дискриминантной

функции ai определяются таким образом,

чтобы

f1(X ) и

f2 (X )

как можно больше отличались между собой.

 

 

 

 

Ковариационная матрица может быть определена из вы-

ражения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sk

 

 

 

 

 

 

1

 

 

 

 

(X1

X1 X 2

X 2 ).

(4.8)

 

 

((n1 n2

2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выражение (4.7), которое даёт оценку внутригрупповой

вариации, перепишем с учётом (4.8):

 

 

 

 

 

 

 

 

 

2 nk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

kt

 

 

Y k

 

2

 

 

A

 

1

 

2

 

 

 

 

S

k

A

 

 

 

 

 

Y

 

 

)

 

 

n

 

n

2

 

 

(4.9)

 

 

 

(

 

 

 

 

 

 

 

 

 

 

 

.

k 1 t 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Межгрупповая вариация может быть вычислена из выра-

жения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y1 Y 2

 

 

A

X 1

X 2 X 1 X

A.

(4.10)

 

 

2

Ранее отмечалось, что в процессе расчета коэффициентов дискриминантных функций используется статистический критерий, основанный на максимуме отношения межгрупповой вариации к внутригрупповой. Коэффициенты функций, разделяющих группы, могут быть найдены по методу дискриминантного анализа Фишера как элементы матрицы, обратной ковариационной матрице Sk. Такой подход соответствует общей вычислительной процедуре множественной линейной регрессии. Отношение межгрупповой вариации к внутригрупповой показывает коэффициент Фишера:

 

A

 

1

 

2

 

1

 

2 A

 

X

X

X

X

 

F

 

 

 

 

 

 

 

 

 

 

 

 

max .

(4.11)

A n

n

2

 

S

 

 

 

 

 

A

 

 

 

1

2

 

 

 

k

 

 

 

94

При вычислении коэффициентов ДФ aj следует исходить из того, что для рассматриваемых объектов в случае, когда внутригрупповая дисперсия минимальна, а межгрупповая максимальна, мы достигнем наилучшего разделения двух групп, в этих условиях и статистика F принимает максимальное значение.

В точке, где функция F достигает максимального значения, частные производные по aj будут равны нулю. Если их вычислить dF / daj и приравнять к нулю, можно получить выражение, из которого рассчитывается вектор коэффициентов дискриминантной функции (А):

1

(X1 X2 ) .

(4.12)

A Sk

Вычисленные значения коэффициентов A подставляют в формулу (4.1). В последующем для каждого объекта из двух

множеств вычисляют

дискриминантные

функции

f1(X ) и

f2 (X ) , затем находят

среднее значение

для каждой

группы

f k . После этих вычислений каждому i-му наблюдению, кото-

рое первоначально описывалось m-переменными, будет соответствовать одно значение дискриминантной функции. Таким образом снижается размерность признакового пространства.

4.8. Процедура дискриминантного анализа

4.8.1. Постановка задачи для прогнозирования газодинамических явлений

В процессе разработки калийных солей из имеющихся в окружающем массиве пустот в горные выработки иногда выделяются газы. Наибольшую опасность представляет выбросы в выработки метана и водорода, которые, смешиваясь с рудничным воздухом в определённой концентрации, могут взрываться. По многолетним наблюдениям общая газоносность пород по горючим газам (метану и водороду) колеблется от 0 до 1,5– 1,7 м33 горной массы. Опасные скопления газов приводят к возгоранию или даже взрывам. Особенно часто такие ситуации

95

встречаются в выработках рабочих зон газоносных пластов при отсутствии их проветривания. За пределами рабочих зон на поступающих и исходящих струях блоков, участков, пластов и в общерудничной струе горючие газы не обнаруживаются. К участкам, опасным по газовому режиму, в руднике применяются особые требования по безопасности, но они распространяются только на рабочие зоны и пласты, отнесенные к числу опасных по газу и газодинамическим явлениям [39; 65]. Перечень опасных рабочих зон устанавливается ежегодным приказом в зависимости от интенсивности газовыделений в выработках на основании регулярных замеров. Горные работы в опасных зонах должны проводиться с дополнительными мерами безопасности, в связи с чем требуется иметь методику прогнозирования таких зон на этапе планирования горных работ.

Методика прогноза зон, опасных по газодинамическим явлениям, предусматривает использование многомерного дискриминантного анализа геологических показателей. Решающие функции для проведения прогноза зон, опасных по ГДЯ, получены Горным институтом УФ РАН на основе проведения многомерного дискриминантного анализа [65].

Промышленный пласт АБ включает основной пласт А, выше которого залегает пласт Б. Статистический анализ данных по результатам геологической разведки сильвинитовых пластов выявил тесную связь между зафиксированными газодинамическими явлениями и геологическими показателями по сильвинитовому пласту Б. Методикой принимается вероятность появления ГДЯ в зафиксированных местах за единицу, а в местах, где +таких явлений не встречено, – за ноль. Тогда можно составить дискриминантную функцию, в которой вероятность появления ГДЯ была бы функцией от геологических показателей. Процедура прогноза опасных по ГДЯ участков заключалась бы в подстановке ожидаемых значений геологических показателей в точках наблюдений в функцию. В последующем, на основании рассчитанных значений вероятности функции, можно отнести точки наблюдения к зоне, опасной или неопасной по ГДЯ. В случае когда расчётное значение функции будет положитель-

96

ным, объект наблюдения относится к зоне, опасной по ГДЯ, а при отрицательном значении – к зоне, неопасной по ГДЯ. В качестве исходных могут служить данные по поверхностным скважинам детальной разведки, скважинам подземного разведочного бурения и по бороздовым пробам.

Вместе с тем пласты неоднородны, наблюдается разброс геологических параметров в пределах шахтного поля. Уравнение регрессии может оказаться и нелинейным. А если данные разделить на две части, опасные и неопасные по газопроявлениям, тогда для каждой части можно подобрать своё уравнение.

На основании рассчитанных значений дискриминантной функции делается вывод о принадлежности объекта наблюдения к зоне, опасной или неопасной по ГДЯ. Когда параметры в точке дают положительное значение дискриминантной функции, точка наблюдения относится к зоне, опасной по ГДЯ, а при отрицательном значении – к зоне, неопасной по ГДЯ.

Таким образом, в каждом объекте наблюдения вычисляется численное значение решающего правила (Fр), которое заносится на карту с заданными координатами. Интерполяцией между точками с полученными значениями определяется изолиния нулевого значения, она и является границей зон опасных (с положительным значением функции) или неопасных по ГДЯ (с отрицательным значением).

Статистический анализ данных по результатам геологической разведки сильвинитовых пластов в условиях шахтных полей ПАО «Уралкалий» выявил наиболее тесную связь между геологическими показателями в точках зафиксированных газодинамических явлений по сильвинитовому пласту Б, а также существенное различие геологических условий проявления ГДЯ на шахтных полях рудников.

Рассмотрим основные этапы проведения дискриминантного анализа в программном пакете Statistica на следующем примере.

По одному из рудников ВКМКС представлен план расположения скважин для пласта АБ (рис. 4.5).

97

Рис. 4.5. Положение скважин в шахтной системе координат

Исходными показателями послужили предварительно нормированные наблюдения (табл. 4.1).

Таблица 4.1

Нормированные наблюдения по руднику

В таблице используются следующие переменные: CHINK_NUMB – номер скважины;

POWER – мощность пласта АБ, м;

KCl – значение содержания хлористого калия в пласте Б, %;

HO –

значение содержания нерастворимого

остатка

в пласте Б, %;

 

 

 

 

MgCl2

значение

содержания

хлористого

магния

в пласте Б, %;

 

 

 

 

NaCl

значение

содержания

хлористого

натрия

в пласте Б, %;

 

 

 

 

98

 

 

 

 

 

CaSO4 – значение содержания сернокислого кальция в пласте Б, %;

X, Y – координаты скважины;

LOW_BORDER – высотная отметка почвы пласта АБ, м; Z – высотная отметка точки стояния бурового станка, м; KOD – признак наличия ГДЯ (W) или его отсутствия (N).

В каждой строке имеется признак наличия или отсутствия газопроявлений (столбец «kod»).

Задача состоит в том, чтобы на основе наблюдений за проявлениями ГДЯ и соответствующими геологическими показателями в этих же точках установить возможность прогнозирования газопроявлений.

4.8.2. Создание модели

Загрузим таблицу с исходными данными в программу Statistica и выберем модуль «Многомерные методы исследова-

ния» (Multivariate Exploratory Techniques) – «Дискриминантный анализ»4 (Discriminant Analysis) (рис. 4.6).

Рис. 4.6. Загрузка дискриминантного анализа

4 В меню имеется ещё один инструмент – «Общие модели дискриминантного анализа». Для него доступны категориальные независимые переменные, например, название полезного ископаемого (сильвинит, карналит, каменная соль или смешанные соли). Этот инструмент имеет функцию кросс-проверки результатов исследований.

99

После загрузки окна дискриминантного анализа требуется выбрать переменные (рис. 4.7).

Рис. 4.7. Выбор переменных для анализа

Вкачестве переменной с группирующими кодами (Grouping) назначим столбец с названием «kod» из таблицы с исходными данными, а в качестве кодов (Codes for ...) используем названия выборок – W и N. Группирующая переменная – это та, с помощью которой выборка делится на две части.

Вкачестве независимых (Independent) переменных выберем мощность пласта АБ и содержания компонентов в пласте Б.

Впервом диалоговом окне поставим флажок в окошко «Расширенные опции (пошаговый анализ)» – «Advanced options (stepwise analysis)». В следующем диалоговом окне «Описание модели» выберем стандартный метод проведения ДА (рис. 4.8).

Рис. 4.8. Выбор метода исследования

100

Соседние файлы в папке книги