Дронов С.В. Многомерный статистический анализ-1
.pdf13.4. Пример |
171 |
Приведем также вкратце результаты второго способа, использующего бинарную матрицу данных. Почему обработка этим методом приведена
не столь подробно, становится ясно при одном взгляде на матрицу Y , которая приведена на отдельной странице, ведь в ней 5 столбцов и 25
строчек! Матрицы |
Y1 |
è |
Y2 отделены в этой таблице двойной линией. При |
||||||
составлении |
|
||||||||
Y для простоты предполагалось, что в верхнюю левую клет- |
|||||||||
ку нашей таблицы сопряженности попали первые 5 из изученных нами |
|||||||||
фирм и т.п. В принципе, это конечно же могло быть не так, но всегда |
|||||||||
можно добиться этого апостериорной перенумерацией объектов. Можно |
|||||||||
вычислить |
|
|
0 |
0 |
14 |
5 |
3 |
6 |
1 |
|
Y tY = B |
11 |
0 |
5 |
3 |
3 |
C : |
||
|
5 5 10 |
0 |
0 |
||||||
|
|
|
B |
|
|
|
|
|
C |
|
|
|
B |
|
|
|
|
|
C |
|
|
|
B |
|
|
|
|
|
C |
|
|
|
B |
3 |
3 |
0 |
6 |
0 |
C |
|
|
|
B |
|
|
|
|
|
C |
|
|
|
@ |
|
|
|
|
|
A |
3 6 0 0 9
В этой матрице просматриваются два диагональных блока, по диагонали которых расположены суммы всех остальных элементов соответствующей строки и еще два блока, каждый из которых воспроизводит первона- чальную таблицу сопряженности. Оказывается, такой вид матрица Y tY будет иметь всегда. Она носит название матрицы Берта. Далее, строя
диагональную матрицу D, диагональные элементы которой совпадают с диагональными элементами матрицы Берта, вычислим
T (2) = |
1 |
D 1=2Y tY D 1=2 |
: |
|
2 |
||||
|
|
|
Получим |
0 0 050 |
0;050 0; 21 0; 16 0; 27 |
1 |
|
||||
|
B |
; |
|
0; 24 0; 18 |
0; 15 |
C |
|
|
T (2) = |
0; 24 |
0; 21 |
0; 50 |
0 |
0 |
; |
||
|
B |
|
|
|
|
|
C |
|
|
B |
0; 18 0; 16 |
0 |
0; 50 |
0 |
C |
|
|
|
B |
|
|
|
|
|
C |
|
|
B |
0; 15 |
0; 27 |
0 |
0 |
0; 50 |
C |
|
|
B |
|
|
|
|
|
C |
|
|
@ |
|
|
|
|
|
A |
|
после чего при помощи математического пакета Mathlab вычислим собственные числа и собственные векторы этой матрицы.
Получим 1 = 1; 2 = 0; 58; 3 = 0; 5; 4 = 0; 47; 5 = 0: При этом, как мы знаем, первое собственное число использовать не имеет смысла. Как было показано в предыдущем разделе, имеет смысл привлекать только собственные векторы, отвечающие собственным числам, не меньшим,
172 |
Глава 13. Оцифровка |
Таблица 13.1: Бинарная матрица в задаче о сопряженности доходности |
|||||||||||||
и размера фирм |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
|
|
|
|
|
|||||||
|
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
1 |
|
0 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
0 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
|
|
0 |
|
1 |
|
|
|
0 |
|
0 |
|
1 |
|
13.4. Пример |
173 |
÷åì 1=p = 0; 5 в нашем случае, поэтому используем второе и третье собственные числа. (Заметим в скобках, что для нашего случая среднее ненулевых собственных чисел, строго меньших единицы, равно 0,517,
так что можно было обойтись одномерной меткой, не используя |
3, ÷òî |
|||||||||||||||
вполне соответствует результатам анализа соответствий выше.) |
||||||||||||||||
Два собственных вектора, соответствующие |
2 è 3 и имеющие еди- |
|||||||||||||||
ничную длину, равны |
|
|
|
|
|
|
|
|
|
|
|
|||||
0 |
0; 47 |
1 |
|
|
|
|
0 |
|
0 |
1 |
|
|
||||
|
|
0; 53 |
C ; |
|
|
B |
|
0 |
C : |
|
||||||
|
~c2 = B 0; 34 |
~c3 = |
|
0; 68 |
|
|||||||||||
|
B |
0; 25 |
C |
|
|
B |
0; 73 |
C |
|
|||||||
|
B |
C |
|
|
B |
|
C |
|
||||||||
|
B |
0; 57 |
C |
|
|
B |
0:02 |
C |
|
|||||||
|
B |
C |
|
|
B |
|
C |
|
||||||||
|
B |
|
|
|
C |
|
|
B |
|
|
C |
|
||||
@ |
|
|
|
A |
|
|
@ |
A |
|
|||||||
Теперь мы можем выписать двумерные метки для всех 5 категорий: |
||||||||||||||||
Метки категорий объектов |
|
|
|
|||||||||||||
в задаче о сопряженности размеров и доходности |
|
|||||||||||||||
|
категория |
|
|
|
метка |
|
обозначение |
|
|
|||||||
|
убыточные |
0,53 |
|
|
|
0 |
|
|
ó |
|
|
|
||||
|
доходные |
|
-0,47 |
|
|
|
0 |
|
|
ä |
|
|
|
|||
|
малые |
|
0,34 |
|
|
-0,68 |
|
|
ì |
|
|
|
||||
|
средние |
|
0,25 |
|
|
-0,73 |
|
|
ñ |
|
|
|
||||
|
крупные |
|
0,57 |
|
|
-0,02 |
|
|
ê |
|
|
|
||||
Для определения меток объектов (повторений эксперимента) будем |
||||||||||||||||
пользоваться формулами |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~zj = |
|
|
1 |
|
Y ~cj; j = 2; 3; |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|||||||||
|
|
pq |
|
|
|
|
||||||||||
|
|
j |
|
|
|
|
которые дают 25 меток строк матрицы Y . К счастью, среди них много одинаковых, т.к. объекты, попавшие в одну клетку таблицы сопряженности, получают одинаковые метки. Эти метки приводятся в таблице.
Метки объектов (повторений эксперимента)
в задаче о сопряженности размеров и доходности
174 |
|
|
|
|
Глава 13. Оцифровка |
||
|
категория |
|
метка |
|
обозначение |
|
|
|
|
|
|
||||
|
малые убыточные |
|
0,58 |
-0,48 |
|
ìó |
|
|
средние убыточные |
|
0,50 |
-0,52 |
|
ñó |
|
|
крупные убыточные |
|
0,71 |
-0,01 |
|
êó |
|
|
малые доходные |
|
-0,07 |
-0,48 |
|
ìä |
|
|
средние доходные |
|
-0,15 |
-0,52 |
|
ñä |
|
|
крупные доходные |
|
0,06 |
-0,02 |
|
êä |
|
Соответствующие точки с приведенными обозначениями приведены на рисунке. Различия, полученные по отношению к методу анализа соответствий, легко объяснить тем, что во время того исследования мы использовали малоинформативное наибольшее собственное число, а второе (0,03) оказалось слишком малым, чтобы картинка оказалась похожей на правду ведь мы знаем, что стоило работать лишь с собственными числами, не меньшими 0,5. Итак, рисунок, полученный сейчас, следует признать более удовлетворительно описывающим реальную картину.
13.5Случай смешанных данных
Выше мы предполагали, что данные о всех объектах носят чисто ка- чественный, нечисловой характер. Но в практических задачах нередко можно встретить сочетание характеристик (см. пример с травматологи- ческим отделением больнице во вводной части главы, посвященной экспертным оценкам и прочим нечисловым данным). Поэтому здесь рассмотрен один из способов присвоения числовых меток категориям объектов, у которых некоторые из показателей числовые.
Предположим, что наши показатели пронумерованы так, что первые из них X(1); :::; X(q) качественные (нечисловые) показатели, причем X(i)
имеет m(i) категорий, i = 1; :::; q. Будем писать Xs(i) 2 (k), åñëè â s-м эксперименте показатель X(i) принял значение из своей k-й категории.
Остальные показатели X(q+1); :::; X(p) являются числовыми.
Данные наблюдений собраны в таблицу из n строк и p столбцов, в каждой строке стоят данные наблюдений, полученные в очередном экс-
перименте над всеми показателями. В первых q столбцах расположены условные обозначения категорий, в которые попал соответствующий этому столбцу признак при проведении эксперимента, его номер совпадает
с номером текущей строки, в следующих p q столбцах значения, принимаемые числовыми показателями. Задача состоит в замене условных
13.5. Случай смешанных данных |
175 |
обозначений категорий числовыми метками. Оказывается, для разных |
||
методов последующей обработки данных наилучшие возможные метки |
||
должны присваиваться по разному, но всегда они связаны с ковариаци- |
||
онной матрицей показателей. При этом всегда удобно предполагать, что |
||
присваиваемые метки имеют нормированный характер это упрощает |
||
записываемые формулы и гарантирует от присвоения разным категори- |
||
ям одинаковых меток. Поясним, что имеется ввиду. |
||
Пусть k-й категории i-го признака присвоена метка cki ; k = 1; :::; m(i), |
||
i = 1; :::; q: Условия нормировки имеют вид |
|
|
n |
1 n |
2 |
s=1 cri |
(s) = 0; n s=1 cri (s) |
= 1 |
X |
X |
|
при каждом i = 1; :::; q. Здесь r(s) есть номер категории, который принял i-й признак в s-м эксперименте, т.е. определяется соотношением
(r(s)).
Если после присвоения числовых меток мы хотим заняться исследованием зависимостей между показателями или сокращением размерностей, то нужно подбирать числовые метки, максимизирующие величину
p 1 p
K2 = X X 2(X(i); X(j)); i=1 j=i+1
Очевидно, что когда в выписанной сумме переменная суммирования i
становится больше q, коэффициенты корреляции перестают зависеть от присвоенных меток, поэтому речь может идти только о максимизации
q 1 |
q |
|
q |
p |
(X(i); X(j)): |
|
|
Q = |
2(X(i); X(j)) + |
|
|
2 |
|
||
Xi |
X |
|
X X |
|
|
||
=1 j=i+1 |
|
i=1 j=q+1 |
|
|
|||
Обозначим первую из двойных сумм через |
Q1 |
, а вторую через |
Q2. |
||||
Пусть |
|
|
|
|
|
||
~ci = (c1i ; :::; cmi |
(i))t вектор меток категорий i-го показателя, |
матрица F (i; j), имеющая m(i) строк и m(j) столбцов нормирован-
ная таблица сопряженности i-ãî è j-го показателя, т.е. на месте |
(k; s) |
|
ýòîé(j) |
матрицы располагается число экспериментов, в которых X(i) |
2 (k), |
X |
2 (s) одновременно, деленное на общее число экспериментов: |
|
Fk;s(i; j) = |
n(k; s) |
; k = 1; :::; m(i); s = 1; :::; m(j): |
||
n |
|
|||
|
|
176 |
|
|
|
|
|
|
|
|
|
Глава 13. Оцифровка |
||
Обозначим также через nki |
число тех экспериментов, в которых X(i) 2 |
|||||||||||
, |
|
|
|
и построим диагональные матрицы |
Di |
, ñ |
||||||
диагональными элементами |
|
|
|
|
|
|
|
|
||||
(k) k = 1; :::; m(i); i = 1; :::; q; |
|
|
|
|
|
|
|
|
||||
|
|
|
ni |
; :::; ni |
|
i = 1; :::; q . Вычислим при каж- |
||||||
|
|
|
1 |
|
|
m(i), |
|
|
|
|
|
|
дом наборе j = (q + 1); :::; p è k = 1; :::; m(i); i = 1; :::; q |
|
|
||||||||||
|
(j) |
|
|
1 |
|
|
|
(j) |
|
|
|
|
|
Xk |
(i) = |
|
|
|
|
Xs |
|
|
|||
|
ni |
(i) |
|
|
|
|||||||
|
|
|
|
|
k |
|
(k) |
|
|
|
||
|
|
|
|
|
s:XXs |
|
|
|
||||
|
|
|
|
|
|
|
|
2 |
|
|
|
|
среднее значение числового показателя X(j)
торых качественный показатель X(i) попал в свою k-ю категорию. Составим из рассчитанных средних величин вектор
(j) |
(j) |
(j) |
(i)): |
X |
(i) = (X1 |
(i); :::; Xm(i) |
Тогда
Q1
Q2
= |
q 1 |
q |
2 |
i=1 j=i+1 F (i; j)~cj ~ci |
; |
||
|
X X |
|
|
= |
q |
p |
|
i=1 j=q+1 Di~ci X(j)(i) 2 : |
|||
|
X X |
|
Вычисляя частные производные Q ïî ci |
|
|
|||||
для определения меток: |
|
|
k, получаем систему уравнений |
||||
q 1 q |
j |
j i |
q |
p |
(j) |
i (j) |
|
X X |
Xi |
X |
|||||
(F (i; j)~c )kF (i; j)~c ~c + |
(DiX (i))kDi~c X (i) = 0; |
||||||
i=1 j=i+1 |
=1 j=q+1 |
||||||
|
|
|
|
ãäå k пробегает номера всех категорий всех качественных признаков (их
общее количество равно m(1) + ::: + m(q)).
Выписанная система решается при помощи итеративных процедур. Подробности можно прочитать в [11, глава 12].
Наконец, коротко рассмотрим задачу оцифровки для задач дискриминации. Пусть обучающая выборка содержит (возможно многомерные)
данные о качественных признаках X и числовых признаках Y некоторого набора объектов, а также сведения о том, какому из имеющихся q
классов принадлежал этот объект. Обозначим через качественного признака.
Так же, как это было проделано в подпункте 13.1.2, вычислим для каждого из классов его центр M(s;~c) для качественного признака, а
13.5. Случай смешанных данных |
177 |
||
также средние значения |
|
|
|
|
Ys; s = 1; ::; ; q для числового признака. Будем |
||
предполагать, что и метки, и значения Y нормированы, а значит, "центр |
|||
центров"в терминологии 13.1.2 имеет нулевые координаты. |
|||
Для каждого класса вычислим оценку ковариационной матрицы |
|||
(s;~c) |
= cov(X; Y; s); s = 1; :::; q |
||
и средневзвешенную общую ковариационную матрицу |
|||
|
|
|
q |
|
|
(~c) = |
(s;~c)fs;:: |
|
|
|
=1 |
|
|
|
sX |
Тогда метки ~c можно искать исходя из максимизации критерия |
|||
Q(~c) = |
|
q |
(~c) M(s;~c); Ys k2f:;s: |
|
s=1 k 1 |
||
|
|
X |
|
178 Глава 13. Оцифровка
Рис. 13.1: Изображение категорий величины и доходности. Метод анализа соответствий.
6 |
|
* |
+ó |
|
ó |
+ñ,ì |
* |
* |
ñ |
ì |
|
|
|
- |
+ä |
* |
* |
|
ä |
|||
|
|||
+á |
á |
|
Рис. 13.2: Множественный анализ соответствий таблицы сопряженности в задаче о доходности и размере.
6
* |
|
|
|
* |
|
|
|
|
* |
|
ê |
* |
|
ä |
|
êä |
|
ó |
|
êó- |
|
ñä* |
|
có* |
|
||
|
* |
ìä |
* |
* |
ìó |
|
|
|
c |
|
|
|
|
|
|
* |
ì |
|
|
|
Глава 14
Многомерное шкалирование
В обработке данных, особенно в последние десятилетия, выделилось особое направление, которое правильнее всего было бы назвать анализом данных, понимая под этим скорее некоторый качественный процесс, чем определенные вычислительные процедуры. Выше мы уже сталкивались с проблемой анализа данных например, визуального в задачах классификации. Задачи подобного рода решались нами в предыдущей главе, когда для осознания близости определенных качественных, а не числовых объектов, мы ассоциировали эти объекты с некоторыми числами или векторами, сводя тем самым задачу к ранее решенной.
Многомерное шкалирование ориентировано в рамках этого подхода в основном на придание наглядной структуры данным, полученным в результате некоторого эксперимента, т.е. решает задачу, близкую к оцифровке качественных данных. Но здесь, в отличие от ранее рассмотренных методов, в качестве исходных данных рассматривается матрица близостей определенных объектов или категорий одного объекта. Близости эти задаются в некоторой условной шкале балльной относительно некоторого образца или порядковой, т.е. для изучаемых отношений "похожести"объектов задаются их ранги в порядке убывания этой "похожести". Затем при помощи определенных приемов эти близости переводятся в расстояния. Задача многомерного шкалирования считается успешно решенной, если удалось изобразить все данные точками в пространстве относительно небольшой размерности так, чтобы с точки зрения оцененных расстояний геометрическая структура экспериментальных данных подверглась бы минимальным возможным изменениям. Естественно, термин "геометрическая структура"нуждается в уточнении и может в принципе
179