Другим показателем ассоциации является тетрахорический коэффициент rmem. Он также вычисляется при альтернативной группировке числового материала. Предпосылкой его применения является нормальное распределение генеральной совокупности. Тетрахорический коэффициент вычисляется по формуле:
Коэффициент rmem может принимать значения в границах -1?rmem?+1. Если распределение частот по границам четырехклеточной таблицы сильно неравномерно, то rmem становится ненадежным показателем связи.
Если вариацию качественного признака можно разбить не на две группы (как в случае дихотомического признака), а на несколько групп, то соответствующий числовой материал располагают в виде таблицы с несколькими строками и столбцами. Такая таблица называется таблицей контингенции, или m x n –таблицей.
Простое сравнение чисел в заполненных клетках таблицы не даст нам ответа на вопрос, существует ли связь между изучаемыми признаками. Но критерий c2 позволит сделать статистически обоснованный вывод о связи. Для этой цели по имеющимся данным построим таблицу с таким распределением статистической совокупности по ее клеткам, которое соответствовало бы отсутствию связи между обоими признаками. Путем сравнения фактических и теоретически ожидаемых значений можно установить, существует связь или нет. В первом случае наблюдается значительные отклонения между эмпирическими и теоретическими значениями, а во втором случае эмпирические и теоретические значения почти совпадают.
Итак,
— относительная частота (вероятность) появления в i-й строке. Далее,
— относительная частота (вероятность) появления значения в j-м столбце. Через N обозначено общее число единиц данной статистической совокупности. Относительная частота (вероятность) появления значений в i-й строке и j-м столбце выразится следующим образом:
Учитывая распределение сумм частот по строкам и столбцам, получим теоретически ожидаемое значение
.
Так как при вычислении относительных частот предполагалась независимость признаков, то
являются теоретически ожидаемыми значениями в отдельных клетках таблицы. Эти значения имели бы место при отсутствии связи между признаками. Для проверки гипотезы о связи между признаками применяется критерий c2. Величина
имеет c2 – распределение с f = (v-1)(w-1) степенями свободы. Вид и силу связи изучают затем с помощью дополнительных исследований, привлекая к этому, например, коэффициент контингенции, который можно вычислить по формуле:
или
Здесь d – наименьшее из двух чисел v и w, то есть либо число строк, либо число столбцов. Значения С и К лежат в границах между 0 и 1. В связи с тем, что величина С зависит от числа строк и столбцов таблицы, обычно вычисляют исправленный коэффициент контингенции с поправкой Сmax. Значения Сmax с увеличением числа строк и столбцов таблицы приближается к +1. Для квадратной таблицы контингенции
где через w обозначено число строк или столбцов. Для m x n – таблицы приблизительное значение Сmax вычисляется как среднее из максимальных значений С соответствующих квадратных таблиц контингенции. Исправленные значения коэффициента находим по формуле
Особенно важно вводить поправку в коэффициент контингенции при малом числе строк и столбцов таблицы.
Наряду с рассмотренным линейным коэффициентом корреляции и модифицированным индексом Фехнера существует еще ряд мер тесноты связи, широко применяемых в тех случаях, когда признакам наблюдаемого явления не удается однозначно приписать те или иные абсолютные значения, и мы вынуждены довольствоваться их ранжированием. К таким мерам относится коэффициенты ранговой корреляции Спирмэна и Кэндела, подробное изложение свойств которых представлено в разделе 4.3.
