Таблица контингенции


Другим показателем ассоциации является тетрахорический коэффициент rmem. Он также вычисляется при альтернативной группировке числового материала. Предпосылкой его применения является нормальное распределение генеральной совокупности. Тетрахорический коэффициент вычисляется по формуле:

clip_image002. (2.9)

Коэффициент rmem может принимать значения в границах -1?rmem?+1. Если распределение частот по границам четырехклеточной таблицы сильно неравномерно, то rmem становится ненадежным показателем связи.

Если вариацию качественного признака можно разбить не на две группы (как в случае дихотомического признака), а на несколько групп, то соответствующий числовой материал располагают в виде таблицы с несколькими строками и столбцами. Такая таблица называется таблицей контингенции, или m x n –таблицей.

Простое сравнение чисел в заполненных клетках таблицы не даст нам ответа на вопрос, существует ли связь между изучаемыми признаками. Но критерий c2 позволит сделать статистически обоснованный вывод о связи. Для этой цели по имеющимся данным построим таблицу с таким распределением статистической совокупности по ее клеткам, которое соответствовало бы отсутствию связи между обоими признаками. Путем сравнения фактических и теоретически ожидаемых значений можно установить, существует связь или нет. В первом случае наблюдается значительные отклонения между эмпирическими и теоретическими значениями, а во втором случае эмпирические и теоретические значения почти совпадают.

Итак,

clip_image004 , (2.10)

— относительная частота (вероятность) появления в i-й строке. Далее,

clip_image006 , (2.11)

— относительная частота (вероятность) появления значения в j-м столбце. Через N обозначено общее число единиц данной статистической совокупности. Относительная частота (вероятность) появления значений в i-й строке и j-м столбце выразится следующим образом:

clip_image008. (2.12)

Учитывая распределение сумм частот по строкам и столбцам, получим теоретически ожидаемое значение clip_image010.

clip_image012. (2.13)

Так как при вычислении относительных частот предполагалась независимость признаков, то clip_image014 являются теоретически ожидаемыми значениями в отдельных клетках таблицы. Эти значения имели бы место при отсутствии связи между признаками. Для проверки гипотезы о связи между признаками применяется критерий c2. Величина

clip_image016 (2.14)

имеет c2 – распределение с f = (v-1)(w-1) степенями свободы. Вид и силу связи изучают затем с помощью дополнительных исследований, привлекая к этому, например, коэффициент контингенции, который можно вычислить по формуле:

clip_image018 (2.15)

или

clip_image020 (2.16)

Здесь d – наименьшее из двух чисел v и w, то есть либо число строк, либо число столбцов. Значения С и К лежат в границах между 0 и 1. В связи с тем, что величина С зависит от числа строк и столбцов таблицы, обычно вычисляют исправленный коэффициент контингенции с поправкой Сmax. Значения Сmax с увеличением числа строк и столбцов таблицы приближается к +1. Для квадратной таблицы контингенции

clip_image022, (2.17)

где через w обозначено число строк или столбцов. Для m x n – таблицы приблизительное значение Сmax вычисляется как среднее из максимальных значений С соответствующих квадратных таблиц контингенции. Исправленные значения коэффициента находим по формуле

clip_image024. (2.18)

Особенно важно вводить поправку в коэффициент контингенции при малом числе строк и столбцов таблицы.

Наряду с рассмотренным линейным коэффициентом корреляции и модифицированным индексом Фехнера существует еще ряд мер тесноты связи, широко применяемых в тех случаях, когда признакам наблюдаемого явления не удается однозначно приписать те или иные абсолютные значения, и мы вынуждены довольствоваться их ранжированием. К таким мерам относится коэффициенты ранговой корреляции Спирмэна и Кэндела, подробное изложение свойств которых представлено в разделе 4.3.

Загрузка...