Таблица сопряженности Contingency table

Таблица сопряженности — Contingency table

В статистике , А таблица сопряженности (также известная как кросс подведение или кросс — таблице ) представляет собой тип таблицы в матричном формате , который отображает (многомерное) распределение частот переменных. Они широко используются в опросных исследованиях, бизнес-аналитике, инженерных и научных исследованиях. Они дают основную картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица непредвиденных обстоятельств» впервые был использован Карлом Пирсоном в работе «О теории непредвиденных обстоятельств и их связи с ассоциацией и нормальной корреляцией», входящей в состав компании Drapers ‘. Биометрическая серия Research Memoirs I опубликовала в 1904 году.

Важнейшей проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если обнаружится некоторая условная независимость , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.

Сводная таблица является способом создания таблицы сопряженности с использованием программного обеспечения с электронными таблицами.

Содержание

Пример

Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств представлена ​​ниже.

Количество самцов, самок, правшей и левшей называется предельным итогом . Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) — это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила связи может быть измерена отношением шансов , а отношение шансов популяции оценивается отношением шансов выборки . Значение разности между двумя пропорциями могут быть оценены с различными статистическими тестов , включая хи-квадрат тест Пирсона , тем G -test , точный критерий Фишера , тест Boschloo в и тест Барнарда , при условии , что записи в таблице представляют собой лиц , случайно отобранные из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не независимы. Если нет непредвиденных обстоятельств, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена ​​в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Стандартное содержание таблицы непредвиденных обстоятельств

  • Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками заголовка или разрезами (а строки иногда называют заглушками ).
  • Тесты значимости. Как правило, либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая каким-то образом выделяется.
  • Сети или нетты, являющиеся промежуточными итогами.
  • Одно или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
  • Невзвешенные размеры выборки (количество).

Меры ассоциации

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.

Соотношение шансов

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B, или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Читайте также:  Зарплата зависит от результатов Чем оправдана жесткость спортивных тренеров в отношении к воспитанникам

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

Коэффициент Phi

Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, — это коэффициент phi (φ), определяемый формулой

где χ 2 вычисляется, как в критерии хи-квадрат Пирсона , а N — общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная связь или полная обратная связь), при условии, что она основана на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные ячейки пусты).

V Крамера и коэффициент непредвиденных обстоятельств C

Две альтернативы являются коэффициент сопряженности C , а V Крамера .

Формулы для коэффициентов C и V :

k — количество строк или количество столбцов, в зависимости от того, что меньше.

Недостатком C является то, что он не достигает максимального значения 1.0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий.

C можно настроить так, чтобы он достигал максимума 1.0, когда есть полная ассоциация в таблице любого количества строк и столбцов, путем деления C на где k — количество строк или столбцов, когда таблица квадратная, или где r — количество строк, а c — количество столбцов. k — 1 k <\ displaystyle <\ sqrt <\ frac >>> р — 1 р × c — 1 c 4 <\ displaystyle <\ sqrt [<\ scriptstyle 4>] <\ times >>>

Коэффициент тетрахорической корреляции

Другой вариант — коэффициент тетрахорической корреляции, но он применим только к таблицам 2 × 2. Полихорическая корреляция — это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, имеет нормальное распределение. Коэффициент обеспечивает «удобную меру корреляции [произведение-момент Пирсона], когда градуированные измерения сведены к двум категориям».

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона, вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Лямбда коэффициент

Коэффициент лямбда является мерой прочности ассоциации поперечных таблиц , когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности

Коэффициент неопределенности или U Тейла — еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как

Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации.

Источник

Анализ таблиц сопряженностей в ходе статистического анализа социологической информации

Таблица сопряженностей, или таблица факторов в статистике — это способ представления совместного распределения каких-то двух переменных для исследования взаимосвязи между этими переменными.

Вообще, таблица сопряженностей считается наиболее универсальным и удобным инструментом изучения определенных статистических отношений, так как такая таблица способна представлять переменные абсолютно в любом уровне измерения.

Стоит отметить, что таблицы сопряженностей довольно часто используются в процессе проверки гипотезы о наличии некой связи между двумя конкретными признаками с применением критерия Фишера или критерия Пирсона.

Все строки таблицы сопряженностей всегда соответствуют значениям одной какой-то переменной, а столбцы — значениям другой переменной. Так, количественные шкалы сначала должны быть сгруппированы в интервалы.

Помощь со студенческой работой на тему
Анализ таблиц сопряженностей в ходе статистического анализа социологической информации

Анализ таблиц сопряженностей

В структуре таблицы всегда есть подлежащее и сказуемое. Подлежащим является сам объект (список его структурных единиц или имеющихся групп), характеризующийся конкретными числовыми показателями. Подлежащее всегда располагается в строках самой таблицы. Обычно он находится в левой части таблицы.

Читайте также:  Традиционные средства форм контроля достоинства и недостатки

Сказуемое всегда представляется в виде неких числовых показателей, характеризующих объект и находящихся в столбцах таблицы.

Все таблицы сопряженностей разделяют на:

  • одномерные;
  • двумерные.

Все одномерные таблицы обычно строятся на основе группировки имеющихся сведений по одному конкретному признаку. Так, например, на вопрос «С какой попытки Вы поступили в институт?» примерно 500 студентов ответили определенным образом, который и отражается в такой таблице.

Таблицу можно анализировать с помощью подсчета процентов от общего числа респондентов, ответивших на этот вопрос. Они представлены в последнем столбце таблицы. Сформулированный нами вопрос называется альтернативным, в нем отвечающий может выбрать только один вариант ответа, подходящий ему.

Одномерная таблица, прежде всего, позволяет анализировать структуру населения. В нашем случае это позволяет увидеть и сравнить результаты ответов на наш вопрос.

Рисунок 1. Пример одномерной таблицы сопряженностей. Автор24 — интернет-биржа студенческих работ

Двумерные таблицы направлены на расширение аналитических способностей самого исследователя. Синонимами двумерных таблиц являются такие названия, как таблица сопряжения, таблица корреляции, таблица двумерного распределения, таблица комбинированных статистических данных.

Двумерные таблицы построены на основе группировки данных по двум признакам. Анализируя информацию, можно рассчитать процент как «вертикальных», так и «горизонтальных» признаков, а также общее количество респондентов.

Рисунок 2. Пример двумерной таблицы сопряженностей. Автор24 — интернет-биржа студенческих работ

Выбор метода представления сведений в виде процентного значения напрямую зависит от поставленных целей и задач осуществляемого исследования и определяется с помощью общей логики анализа полученных данных.

Именно на месте пересечения строки и столбца таблицы указывается частота появления соответствующих значений двух каких-то признаков. Сумма частот в ряду называется предельной частотой ряда; сумма частот на столбец является предельной частотой столбца. Сумма предельных частот равна размеру выборки; их распределение является одномерным распределением какой-то переменной, которая формирует строки или столбцы этой таблицы. Так, в таблице непредвиденных обстоятельств можно увидеть и абсолютную, и, что очень важно, относительную частоту, выраженную в дробях или процентах.

Относительную частоту всегда можно рассчитать по отношению к:

  • предельной частоте на линии;
  • предельной частоте в колонке;
  • размеру выборки.

Таблицы сопряжения используются не только для проверки гипотезы о взаимосвязи между двумя определенными признаками (статистическая взаимосвязь, критерий хи-квадрат), но и для того, чтобы измерить близость имеющейся взаимосвязи.

Таблицы сопряженности считаются главным способом отражения всех доступных социологических сведений. Такие таблицы применяются (рассчитываются и анализируются) практически в каждом эмпирическом исследовании. А ведь это не случайно. Различные средства, используемые при изучении статистических закономерностей (а именно, закономерности исследования и попытки найти социолога, которые основываются на изучении таблиц сопряженностей, предлагаются современной наукой. Такие закономерности обычно основаны на правилах математической статистики.

Стоит отметить, что объектом исследования таких закономерностей являются случайные величины, а предметом исследования — параметры распределения.

Абсолютно все закономерности, которые возможно найти, используя математическую статистику, фактически представляются в виде наборов определенных параметров распределений определенных случайных величин.

Таблицы сопряжения — это, строго говоря, выборочные представления одномерных и многомерных случайных величин (во всех выборочных исследованиях вместо понятия «случайная величина» применяется понятие «признак» или его различные синонимы — «значение», «характеристика», «переменная»).

Итак, опора на анализ таблиц сопряженностей, к которому призывает социолога здравый смысл, на самом деле оправдывается серьезным исследованием концепции статистической закономерности, которое проводилось в течение нескольких веков в сфере математической статистики.

Значимость анализа таблиц сопряженности давно признана учеными. В настоящее время существует огромное количество методов соответствующего плана. Но не все они активно вовлечены в нашу социологию (парадоксальным является тот факт, что среди мало и редко используемых в большой отечественной практике методов существуют довольно интересные алгоритмы, которые сформированы советскими и российскими исследователями).

Источник

Таблица сопряженности (Contingency table)

В статистике — метод представления многомерного частотного распределения двух признаков, предназначенный для исследования статистической связи между ними. Широко используется в областях, где требуется статистическая обработка результатов исследований и построение аналитических моделей, особенно в бизнес-аналитике. Впервые термин был введен Карлом Пирсоном в 1904 году.

Например, в представленной ниже таблице сопряженности показано распределение заемщиков, допустивших и не допустивших просрочку, по переменной «Пол».

Пол\Просрочка Допущена Не допущена Всего
Мужской 12 40 52
Женский 4 44 48
Всего 16 84 100

Таблицы сопряженности являются удобным средством изучения статистических зависимостей. Они часто используются для проверки гипотез о наличии связи между двумя признаками с использованием теста Фишера или критерия согласия Пирсона хи-квадрат.

По строкам таблицы сопряженности размещаются значения одного признака, а по столбцам — другого (если признаки числовые, то они должны быть предварительно преобразованы к интервальному представлению). На пересечении строки и столбца указывается частота совместного появления f i j соответствующих значений признаков x i и y j .

Сумма частот по строке f i называется маргинальной частотой строки, а по столбцу f j — маргинальной частотой столбца. Сумма маргинальных частот равна размеру выборки n , а их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

Источник



4. Анализ таблиц сопряженности

Таблицы сопряженности служат для описания связи двух и более номинальных переменных. Примерами номинальных переменных являются пол, местность, марка товара, вид транспорта, ответы “да” или “нет” и пр.

С помощью анализа таблиц сопряженности можно найти ответы, например, на следующие вопросы:

  1. Как много женщин среди приверженцев данной марки товара?
  2. Связана ли интенсивность потребления данного товара с изменением климатических условий?
  3. Связана ли частота потребления товара с уровнем дохода потребителя?

Для установления степени связи между переменными используется критерий независимости χ 2 (Хи—квадрат Пирсона). Чем больше значение χ 2 , тем больше зависимость между переменными. Значения χ 2 близкие к 0 свидетельствуют о независимости переменных.

Пошаговая инструкция

Шаг 1. Анализ — Описательные статистики — таблицы сопряженности

Шаг 2. В строке — сок, в столбце — пол

Шаг 3. Установить флажок Вывести кластеризованные столбиковые диаграммы

Шаг 4. Статистики — отметить ХИ—квадрат, Корреляции, Фи и Лямбда.

Шаг 5. Ячейки — отметить Частоты: наблюденные, ожидаемые; Остатки: нестандартизированные, стандартизированные, скорректированные; Проценты: по строке, по столбцу, по таблице.

Шаг 7. ОК.

Интерпретация результатов

пол респондента итого
мужчины женщины
предпочитаемый сок А Частота 13 14 27
Ожидаемая частота 15 11,9 27
% по категории переменной предпочитаемый сок 48,1% 51,9% 100,0%
% по категории переменной пол респондента 46,4% 63,6% 54,0%
% по таблице (слою) 26,0% 28,0% 54,0%
Остаток -2,1 -2,1
B Частота 15 8 23
Ожидаемая частота 12,9 10 23
% по категории переменной предпочитаемый сок 65,2% 34,2% 100,0%
% по категории переменной пол респондента 53,6% 36,4% 46,0%
% по таблице (слою) 30,0% 16,0% 46,0%
Остаток -2,1 -2,1
Итого Частота 28 22 50
Ожидаемая частота 28,0 22,0 50,0
% по категории переменной предпочитаемый сок 56,0% 44,0% 100,0%

Таблица 4.2 — Таблица сопряженности предпочитаемый сок * пол респондента

Значение ст.св. Асимпт. значимость (2-стор.) Точная значимость (2-стор.) Точная значимость (1-стор.)
Хи-квадрат Пирсона 1,469 a 1 ,226
Поправка на непрерывность b ,858 1 ,354
Отношение правдоподобия 1,480 1 ,224
Точный критерий Фишера ,264 ,177
Линейно-линейная связь 1,439 1 ,230
Кол-во валидных наблюдений b 50

Таблица 4.3 — Критерии хи—квадрат

a. В 0 (,0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 10,12.

b. Вычисляется только для таблицы 2×2.

Значение Асимпт.стдандартная ошибка a Прибл. T b Прибл. значимость
Номинальная по номинальной Лямбда Симметричная ,06 ,19 ,33 ,73
Зависимая предпочитаемый сок ,087 ,220 ,379 ,705
Зависимая пол респондента ,045 ,231 ,193 847
Тау Гудмена и Краскала Зависимая предпочитаемый сок ,029 ,048 ,230 c
Зависимая пол респондента ,029 ,048 ,230 c

Таблица 4.4 — Направленные меры

a. Не подразумевая истинность нулевой гипотезы.

Для предварительного анализа влияния пола на потребление сока рассмотрим величины скорректированного остатка, в нашем случае он не выходит за границы стандартизированного остатка, следовательно гипотеза о наличии связи не подтверждается

  • также показатель Хи—квадрат Пирсона (таблица 4.4) имеет малое значение 1,469, а значимость существенно превышает 0,05 (0,226), что также подтверждает отсутствие связи между полом и выбором сока.
  • коэффициенты Лямбда и Тау Гудмена и Краскала ( таблица 4.5) очень малы, что также говорит об отсутствии связи.
  • величины коэффициентов Фи и V Крамера (таблица 4.3) также говорят о низкой связи между переменными, а значимость 0,226 также подтверждает гипотезу об отсутствии связи.

Таблица 4.5 — Симметричные меры

a. Не подразумевая истинность нулевой гипотезы.

Рисунок 4.1 — График предпочитаемых напитков

Рисунок 4.1 — График предпочитаемых напитков

Таким образом, на основе проведенного анализа можно сделать вывод о том, что между полом респондента и соком, который он предпочитает нет зависимости.

Источник