USING CORRESPONDENCE ANALYSIS AND LOG-LINEAR MODELS TO INVESTIGATE THE FACTORS AFFECTING CARDIOVASCULAR DISEASE

Q. Sabir; Сабир К.; A. G. Kuchumov; Кучумов А. Г.; T. Nguyen-Quang; Нгуен-Кван Т.

doi:10.15593/RZhBiomeh/2023.1.07

USING CORRESPONDENCE ANALYSIS AND LOG-LINEAR MODELS TO INVESTIGATE THE FACTORS AFFECTING CARDIOVASCULAR DISEASE

Authors: Sabir Q.¹, Kuchumov A.G.², Nguyen-Quang T.³
Affiliations:
1. Minhaj University Lahore, Pakistan
2. Perm National Research Polytechnic University, Perm, Russia
3. Dalhousie University, Truro, Canada
Issue: Vol 27, No 1 (2023)
Pages: 74-86
Section: Articles
URL: https://ered.pstu.ru/index.php/rjb/article/view/4582
DOI: https://doi.org/10.15593/RZhBiomeh/2023.1.07
Cite item

Abstract
Full Text
About the authors
References
Statistics

Abstract

Cardiovascular disease is the main cause of mortality in the World. This issue has seriously alarmed governments of developed and developing countries both. Diseases related to the heart play a role as the highest risk for human health. There are many factors contributing to the development of these diseases including poor diet, sedentary lifestyle, high blood pressure and hypertension. In this paper, we present a study of the influence of different factors by the corre-spondence analysis and log-linear models to deal with prediction of cardiovascular disease development. A survey has been conducted amongst affected people of different age groups, gender, and various education levels. Based on this data, we could determine which group would be at the higher risk leading to the cardiovascular disease. It should be noted that all participants were suffering from cardiovascular disease either slightly or seriously. Our findings show that women are at higher risk than men being affected by cardiovascular disease. Moreo-ver, different factors such as smoking, high cholesterol level, physical inactivity and poor diet contribute significantly to the possibility for this disease. Via our analyses, we also can obtain a better comprehension of the data structure and better interpretation of the results by combining two approaches (correspondence analysis and log-linear models). Also, it is concluded that correspondence analysis allows us to find the strong correlations between involving variables. That could lead to the conception of prognostic and biomechanical models using the inter-correlations between variables and building a good structure of big data in the future

Keywords

correspondence analysis, log-linear analysis, cardiovascular disease, cholesterol, hypertension.

Full Text

Введение Контекст и текущая ситуация в мире, относящаяся к сердечно-сосудистым заболеваниям Сердечно-сосудистые заболевания являются основной причиной смерти во всем мире, унося ежегодно около 17,9 миллиона жизней как в развитых странах, так и в странах третьего мира [26, 28]. В частности, в России ишемическая болезнь сердца является подклассом сердечно-сосудистых заболеваний и одной из основных причин смерти людей. Среди общего показателя смертности в мире от всех болезней 20% мужчин и 12% женщин умирают от сердечно-сосудистых синдромов [29]. Статистические исследования показывают, что около трех миллионов человек страдают сердечными заболеваниями и два миллиона страдают стенокардией, которая является наиболее типичным симптомом ишемической болезни сердца. Обычно от этого недуга больше страдают мужчины, чем женщины. Однако вероятность развития симптомов сердечно-сосудистых заболеваний в пожилом возрасте у мужчин и женщин одинакова [13]. Сердечно-сосудистые заболевания становятся одной из основных причин смерти в развивающихся странах, таких как Индия, Шри-Ланка, Пакистан и многих других, включая Россию. Ишемическая болезнь сердца вместе с сердечным инсультом – самые серьезные убийцы в мире, уносящие более семнадцати миллионов жизней ежегодно. В частности, в Пакистане 30–40% всех смертей вызваны ишемической болезнью сердца, что составляет почти 200 000 человек в год. Ишемическая болезнь сердца в настоящее время является основной причиной смерти в Пакистане. Согласно последним данным Всемирной организации здравоохранения, опубликованным в апреле 2018 года, смертность от ишемической болезни сердца в Пакистане достигла 1 403 000 человек, или 29% от общего числа смертей [27], и стала основной причиной человеческих смертей в Пакистане. Многие исследования показали, что более 60% смертей были вызваны сердечными заболеваниями в развивающихся странах. Прогнозируется, что к 2030 году 23 миллиона человек могут ежегодно умирать от сердечно-сосудистых заболеваний [7]. Развивающиеся страны также сталкиваются с усилением ишемической болезни сердца / сердечно-сосудистых заболеваний из-за неправильного питания. Поэтому необходимо информировать людей о сердечных заболеваниях, чтобы снизить риски в этих странах. Женщины считаются потенциальными жертвами сердечно-сосудистых заболеваний в Пакистане, и ишемическая болезнь сердца поражает не только стареющий женский пол, как считалось ранее, но и женщин в возрасте от 30 до 40 лет [17, 18]. Математический анализ корреляции между сердечно-сосудистыми заболеваниями и различными факторами Недавно были опубликованы статьи, посвященные поиску математической корреляции между сердечно-сосудистыми заболеваниями и различными факторами. Li et al. [20] использовали категориальный анализ параметров [1] для изучения больших данных (включая артериальное давление, липиды крови, уровень глюкозы в крови, физическую активность, курение табака, употребление алкоголя, избыточный вес или ожирение, а также частоту потребления фруктов, овощей, зерна, бобовых и красного мяса) в рамках общенационального проекта скрининга населения, охватившего 152 сельских округа и 100 городских округов из 31 провинции Китая. Авторы обнаружили, что высокий риск сердечно-сосудистых заболеваний проявляется в регионах Северного Китая, жители которых сталкиваются с общими проблемами со здоровьем, такими как ожирение и высокое давление, а также потребление нездоровой неосновной пищи (низкое потребление фруктов и овощей или высокое потребление красного мяса). Жители южного Китая с более низким риском сердечно-сосудистых заболеваний, чем на Севере, имели наибольшее распространение нездоровой основной пищи (низкое потребление зерновых и бобовых), аномальный метаболизм (глюкоза и липиды) и низкую физическую активность. Аналогичное исследование, проведенное в восточной части Китая с использованием анализа лог-регрессии [31], показало, что около 30 показателей связанны с сердечно-сосудистыми заболеваниями, включая пол, возраст, семейный доход, курение, употребление алкоголя, ожирение, аномальный уровень холестерина, аномальный липопротеин низкой плотности, аномальный уровень глюкозы в крови натощак и т.д. Для построения модели прогнозирования этого заболевания использовались несколько математических методов, включая модель многомерной регрессии, алгоритма CART (Classification and Regression Trees), Байесовские сети, бэггинг, случайный лес (random forest) и т. д. Среди них, модель многовариантной регрессии использовалась в качестве тестовой модели для оценки производительности [4]. Результаты показали, что случайный лес превосходит другие методы и дает значительно лучшие результаты по сравнению с тестовой моделью. Более того, в модели прогнозирования сердечно-сосудистых заболеваний для трехлетней оценки риска вес переменной «возраст» достаточно велик, что не позволяет модели выделить долгосрочный риск в более молодых возрастных группах. Курение также можно рассматривать как один из основных факторов, влияющих на тяжесть сердечно-сосудистых заболеваний. Рандомизированные исследования подтверждают преимущества реабилитации на основе физических упражнений в отношении факторов риска сердечно-сосудистых заболеваний. Связь между кардиологической реабилитацией на основе физических упражнений и снижением факторов риска сердечно-сосудистых заболеваний у пациентов из Швеции через 1 год после инфаркта миокарда была изучена Sjölin et al. [22]. Было показано, что люди, которые очень активны, чаще сообщали о том, что бросают курить, и которые физически активны, достигли несколько большего снижения уровня триглицеридов за один год по сравнению с теми, кто не занимался упражнениями. Участники-мужчины набрали меньше веса, в то время как участники-женщины достигли лучшего контроля липидов по сравнению с не-участниками. Basu et al. [2] представили модель для количественного прогнозирования дифференциального воздействия различных мер борьбы против табака и фармакологической терапии на инфаркт миокарда и смертность от инсульта, стратифицированную по возрасту, полу и городскому / сельскому статусу с 2013 по 2022 год. Репрезентативные данные из Индии о множественных факторах риска, влияющих на инфаркт миокарда и смертность от инсульта, включая гипертонию, гиперлипидемию, диабет, ишемическую болезнь сердца и цереброваскулярные заболевания. Также были включены данные из Индии о курении сигарет, жевании табака и пассивном курении. Согласно результатам модели, ужесточение законодательства об ограничении курения и повышение налогообложения табака, вероятно, будут наиболее эффективной стратегией борьбы против курения (включая также краткие рекомендации по прекращению курения со стороны медицинских работников, кампании в средствах массовой информации и запрет рекламы) для снижения смертности от инфаркта миокарда и инсульта в течение следующего десятилетия. Предполагается, что введение ограничений в виде рекомендаций по прекращению употребления табака будут наименее эффективной стратегией на уровне населения. В сочетании друг с другом эти меры по борьбе против табака могут предотвратить 25% инфарктов миокарда и инсультов, если эффекты вмешательств будут дополнять друг друга. Несмотря на рост числа факторов риска сопутствующих сердечно-сосудистых заболеваний, таких как гиперлипидемия и гипертония, в странах с низким и средним уровнем дохода, борьба против табака, вероятно, останется высокоэффективной стратегией снижения смертности от сердечно-сосудистых заболеваний [29]. Цель Основная цель данной статьи – определить влияние образа жизни (например, качество продуктов питания, курение и т.д.) и пищевых привычек городских жителей Пакистана на риск ишемической болезни сердца с помощью статистического анализа набора данных, собранных у кардиологических пациентов в городе Фейсалабад (Пакистан). Для этого мы предлагаем два статистических подхода: «анализ соответствия» и «логарифмическая линейная модель» для проведения исследования, преследующего следующие цели: 1) изучение фактора риска ишемической болезни сердца; 2) количественная оценка наиболее вероятных факторов риска, связанных с ишемической болезнью сердца, с использованием множественных корреляционных и лог-линейных моделей; 3) оценка степени зависимости от различных факторов сердечного риска ишемической болезни сердца. Методология Базовая концепция и использующиеся факторы Выборка Комбинированный анализ категориальных данных (с использованием анализа множественных соответствий и лог-линейной модели) был использован для оценки данных обследования кардиологических пациентов в Институте кардиологии Фейсалабада (Фейсалабад, Пакистан) [15]. В выборке участвовали люди, страдающие сердечно-сосудистыми заболеваниями и / или проблемами, связанными с сердечно-сосудистыми заболеваниями, чтобы можно было легко судить об их привычках и сделать результаты более точными. Выборка была отобрана с учетом погрешности (доверительный интервал) на уровне +/- 3%, уровень достоверности 95%, вариабельность (стандартное отклонение) составила 0,5. Таким образом, размер выборки был определен по приведенной ниже формуле (1) согласно [5]: (1) где N – размер выборки; значение Z составляет 1,96; σ составляет 0,5, а e = 0,03 – погрешность. Значение Z взято из таблицы z-распределения. Для качественных исследований требуется минимальный размер выборки не менее 12 для достижения насыщения данными [6, 9, 12]. Используя уравнение (1), мы получили N = 1067. Данный размер выборки был сочтен достаточным для качественного анализа и масштаба этого исследования. Опрос Для опроса участников исследования была составлена анкета из 31 различных вопросов, выявляющих различные факторы потенциально влияющие на развитие ишемической болезни сердца (возраст, пол, уровень образования, вес, рост, процедура реваскуляризации, анамнез сердечных заболеваний, анамнез диабета, курение, режимы физических упражнений, условия проживания, бессонница, аппетит, стресс и депрессия, питание). Затем данный опрос прошли отобранные респонденты, которые были исследованы на предмет их образа жизни в области питания и медицинских факторов риска, включая развитие коронарных синдромов. Респонденты были выбраны в разных возрастных и гендерных группах. Лог-линейный анализ Лог-линейный анализ – это независимая процедура для учета распределения наблюдений в перекрестной таблице категориальных переменных. Это разновидность многофакторного частотного анализа [8]. В некоторой литературе лог-линейный анализ был назван многофакторным частотным анализом. Согласно [11], этот метод используется для измерения силы ассоциации между набором переменных без концептуального различия между переменной ответа и набором объясняющих переменных. Анализ соответствий Анализ множественных соответствий стал популярным из-за его гибкости при сопоставлении с любыми категориальными или некатегориальными данными [14, 16]. Что касается категориальных данных, предполагается, что нет распределения и гипотетической модели при условии декомпозиции структуры данных. Многие исследователи пытались объединить многомерные и категориальные методы и найти различия между анализом соответствий и модельным подходом. Они пришли к выводу, что при определенных условиях комбинированные методы (многомерные и категориальные) мало чем отличаются [11]. Нулевую гипотезу статистической значимости можно записать как: . (2) Концепция Подход в данной статье заключается в том, чтобы, во-первых, применить анализ множественных соответствий для выбора условий с высоким уровнем взаимодействия, чтобы уменьшить количество взаимодействий. Во-вторых, к параметрам с высоким уровнем взаимодействия применяется лог-линейная модель. Данная процедура позволяет упростить вычислительный процесс за счет сокращения количества переменных. На рис. 1 представлена концептуальная схема процесса классификации и корреляции факторов для ишемической болезни сердца. Можно заметить, что эти параметры взаимосвязаны друг с другом и зависят друг от друга. Анализ множественных соответствий сыграл роль процесса отбора, чтобы сделать окончательную модель более простой и точной [1]. Три группы факторов включают: 1) Неизменяемый биологический фактор риска (возраст, семейный анамнез, диабет); 2) Факторы риска, адаптируемые к лечению (гипертония и холестерин) 3) Факторы риска, поддающиеся изменению образа жизни (курение, режимы и качество питания, среда проживания и сидячий образ жизни). Выбор модели для исследования Как правило, в качестве руководства для этого процесса могут использоваться либо теоретические, либо эмпирические данные. Если априорной гипотезы не существует, можно использовать два подхода: • начинать с «полной» модели, то есть модели, имеющей «достаточное количество» данных (наблюдений), а затем удалять интерактивные члены более высокого порядка, пока не будет достигнуто соответствие данных. Этот процесс должен быть основан на вероятностных стандартах, предложенных исследователем; • начинать с простой модели и затем добавлять более сложные интерактивные члены, пока не будет получено приемлемое соответствие данных. Также, необходимо гарантировать, что дополнительные условия не будут существенно изменять или изменять концепцию, гипотезу или процесс создания окончательной модели. Иерархический подход к лог-линейному моделированию Следующее уравнение представляет многомерную таблицу сопряженности 2 × 2 с тремя переменными (каждая с двумя уровнями (см. табл. 2 (Приложение))), используется для демонстрации иерархического подхода: (3) Иерархия моделей может существовать всякий раз, когда сложная многомерная связь, присутствующая в данных, требует учета менее сложных взаимосвязей. Например, в приведенном выше уравнении (3), согласно [8], при наличии трехстороннего взаимодействия (ABC) уравнение для модели также должно включать все двусторонние эффекты (AB, AC, BC), а также переменные (A, B, C) и среднее значение (μ). Другими словами, менее сложные модели вложены в модель взаимодействия более высокого порядка (ABC), то есть более сложную модель. Следует отметить, что такой способ обозначения (буквы в скобках) используется для описания сценариев модели, что означает, что каждый набор букв в скобках указывает параметр эффекта высшего порядка, включенный в модель, и иерархию. Набор букв в скобках также показывает, что обязательно присутствуют связи более низкого порядка [19]. Степень соответствия и критерий хи-квадрат Для наибольшей эффективности процедура подгонки должна обеспечивать (i) хорошие параметры; (ii) оценку ошибок по этим параметрам и (iii) статистическую меру согласия (критерий согласия). Критерий хи-квадрат определяется следующим образом: если каждая точка данных (xi, yi) имеет собственное известное стандартное отклонение σi, так что оценка максимального правдоподобия параметров модели получается путем минимизации приведенной ниже величины: (4) Это критерий хи-квадрат для моделей, линейных относительно а. Однако оказывается, что распределение вероятностей для различных значений χ2 при его минимуме может быть получено аналитически и, следовательно, является распределением хи-квадрат для (N–m) степеней свободы. Практическое правило состоит в том, что «типичное» значение χ2 для «умеренно» хорошего соответствия составляет χ2 ≈ ν. Точнее, это утверждение, что статистика χ2 имеет среднее значение ν и стандартное отклонение , и, асимптотически при больших ν становится нормально распределенным. В некоторых случаях неопределенности, связанные с набором измерений, заранее неизвестны, и соображения, связанные с подгонкой χ2, используются для получения значения для σ [3]. Если предположить, что все измерения имеют одинаковое стандартное отклонение, σi = σ, то можно сначала присвоить произвольную константу σ всем точкам, затем подгоняя параметры модели, минимизируя χ2, и, наконец, пересчитав σ: (5) Очевидно, что такой подход исключает независимую оценку степени соответствия; факт, который иногда упускают из виду его приверженцы. Однако, когда ошибка измерения неизвестна, этот подход позволяет назначать точкам границы погрешностей. Если, взять производную уравнения (4) по параметрам ak, получим уравнение для погрешности при минимуме χ2. (6) Были использованы методы обработки данных, и поэтому количество данных было сокращено перед проведением логарифмического линейного моделирования, поэтому разница в степенях свободы оправдана [24]. Итоговый выбор модели В данном разделе представлена наилучшая выбранная иерархическая модель. Выбранная модель должна учитывать все важные взаимодействия между переменными. После применения анализа множественных соответствий был выполнен лог-линейный анализ для получения наилучших результатов. В модель включены слагаемые, отвечающие за влияние как отдельных факторов так и их многосторонних взаимодействий: (7) где верхние индексы обозначают: g = пол, a = возраст, s = курение, c = уровень холестерина, o = ожирение, d = гипертония, h = инфаркт миокарда; и их комбинации можно понимать как «scod = курение + уровень холестерина + ожирение + гипертония», индекс «gascodh» означает комбинацию всех факторов. Перед выполнением нашего анализа в соответствии с ранее описанной методологией мы должны проверить надежность анкеты с помощью метода альфы Кронбаха, который предлагается в качестве оценки надежности [22]. В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста / анкеты меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1. Данный метод необходимо использовать для формирования масштабируемых параметров и проверки их согласованности и надежности. На практике считается, если значение альфы Кронбаха составляет от 0,6 до 0,9, то данные опроса или теста считаются отличными [16]. Процесс проверки проводился по двум измерениям (см. таблицы 2 и 3 (Приложение)), где альфа Кронбаха составляла от 0,6 до 0,8, следовательно, данные надежны. Затем был проведен анализ соответствий на первом этапе без каких-либо изменений в данных. Столбцы, содержащие только нулевые значения или «Неприменимо» (N/A), были исключены. Столбцы, которые приводили бы к незначительным результатам, также были удалены. Причина всех этих исключений заключалась в том, чтобы удалить все шумы из данных, чтобы можно было получить наилучшие результаты.Результаты и обсуждение В таблицах 1 а и 2 а (см. Приложение) представлены корреляции между преобразованными переменными. С помощью анализа соответствия были выбраны высококоррелированные переменные (возраст, курение, пол, уровень холестерина, ожирение, гипертензия и инфаркт миокарда). Визуализация результатов представлена на рис. 2. На рис. 3 серия двойных горизонтальных гистограмм сравнивает две серии данных: количество мужчин и женщин, показывающих разные факторы риска ишемической болезни сердца между полами. Оранжевые столбцы представляют количество мужчин по сравнению с синими столбцами для количества женщин с фактором риска и хорошо видно, что женщины подвержены более высокому риску развития болезни [17]. Следующим шагом является выполнение лог-линейного анализа данных и выбор наиболее подходящей модели. Был выполнен многократный тест лог-линейного анализа по семи переменным (возраст, курение, ожирение, уровень холестерина, пол, гипертонию и инфаркт миокарда). В таблицах 3 и 4 (см. Приложение) используется хи-квадрат отношения правдоподобия G2, чтобы увидеть, является ли модель статистически значимой. Для членов первого и более высокого порядка значимость получилась G2 = 3016,868 и 2756,597, соответственно. Аналогично, G2 = 40,783 и 35,417 отображают значимость членов четвертого и пятого порядков. Поскольку в таблице всего пять факторов, то G2 = 5,366 представляет значимость пятистороннего взаимодействия. Можно сделать вывод, что интерпретация уровня значимости должна производиться с учетом размера выборки; чрезвычайно малые значения этой статистики указывают на то, что модель не соответствует данным. Наблюдая за уровнями значимости (P-значение) в таблице 4, можно заметить, что максимальный порядок значим. Также можно показать, что разница между таблицами 2 и 3 (см. Приложение) (для оценки гипотезы о влиянии данного фактора) одновременно равна нулю. Поскольку хи-квадрат Пирсона не может быть дифференцирован таким образом, показаны только тесты хи-квадрат отношения правдоподобия (G2). Эти тесты показывают значимость всех тестов в указанном порядке. Они подтверждают вывод, сделанный из таблицы 3 (см. Приложение), что 3-сторонние и 4-сторонние члены не значимы, в отличие от двусторонних и односторонних взаимодействий между факторами. Таким образом, делается вывод о рассмотрении членов второго порядка как наивысших, учет которых необходим в окончательной модели. В лог-линейном анализе изменение значения статистики хи-квадрат отношения правдоподобия, при добавлении или удалении слагаемых из модели, является индикатором их вклада. В таблице 6 (см. Приложение) представлены результаты тестов частичной ассоциации до третьего порядка. Параметр хи-квадрат – это разница между статистикой отношения правдоподобия двух моделей. Достоверность этой процедуры зависит от того, что отношение правдоподобия более сложной модели не имеет значения. В таблице 3 частичный критерий хи-квадрат проверяет, является ли односторонний член значимым или учитывает все члены одного порядка. Следовательно, когда оба критерия (отношение правдоподобия и критерий Пирсона) значимы, можно справедливо утверждать, что факторы данного порядка необходимы. Согласно результатам теста частичного хи-квадрат, было замечено, что курение, гипертония и сердечный приступ являются очень значимыми, и они представляют собой связь между всеми определенными переменными для развития ишемической болезни сердца. Из модели можно определить, что ишемическая болезнь сердца диагностируется у пациентов, страдающих гипертонией в сочетании с постоянным курением, и гипертония остается основной причиной сердечного приступа. Анализ соответствия определяет иерархическую модель, как описано в уравнении (4) выше. Данный анализ основан на статистике хи-квадрат Пирсона. Соответствующие полученные результаты представлены в таблице 6, демонстрирующие хорошее соответствие с данными для обоих методов: статистики хи-квадрат Пирсона и ее альтернативы – статистического критерия отношения правдоподобия хи-квадрат. На рис. 4 показано графически различие между результатами двух методов (т.н. скорректированные остатки). Данные выглядят нормально распределенными, поскольку точки хорошо ложатся на диагональ. В модели с хорошей аппроксимацией остатки будут нормально распределены, причем большинство остатков близки к нулю. Скорректированные невязки (ось Ox) и ожидаемые Рис. 4. График вероятности скорректированных остатков значения (ось Oy) должны образовывать приблизительно угол 45°, что и показано на рис. 4.3 Заключение В этом исследовании был представлен объединенный подход двух статистических методов, включая анализ множественных соответствий и лог-линейный ана лиз. Как анализ множественных соответствий, так и лог-линейный анализ оказались наиболее подходящей моделью при одновременном использовании, что доказано графическим представлением данных. Используя анализ множественных соответствий [24], можно сократить количество интерактивных терминов и хорошо отобразить наши данные, что было бы полезно на этапе лог-линейного анализа. Лог-линейный анализ можно использовать для анализа взаимосвязи между двумя категориальными переменными (табл. 5 в Приложении). Они чаще используются для оценки многомерных таблиц, которые вклю чают три или более переменных. Все переменные, исследуемые лог-линейным анализом, рассматриваются как «переменные отклика». Другими словами, не делается различия между независимыми и зависимыми переменными. Следовательно, лог-линейный анализ только демонстрирует связь между переменными. В лог-линейном анализе, если мы переходим к взаимодействиям более высокого порядка, ожидаемые частоты ячеек должны быть больше единицы. При невыполнении этого требования частота ошибок типа I (ложное срабатывание, т.е. когда мы отклоняем истинную гипотезу) обычно не увеличивается. Если имеется значительный член взаимодействия, нет необходимости рассматривать члены более низкого порядка. Однако интерпретация терминов более высокого порядка необходима, чтобы избежать ошибки, возникающей из-за возможности зависимого кодирования и введения в заблуждение терминов более низкого порядка. Члены высшего порядка в лог-линейных моделях соответствуют так называемой минимальной достаточной статистике, которая является маргинальной. В этом случае термин высшего порядка представляет собой трехстороннюю ассоциацию, и у нас есть ассоциация трех случайных величин и так далее. Вот некоторые ключевые выводы нашей работы: • Ишемическая болезнь сердца часто ошибочно воспринимается как мужской пол, но наше исследование показало, что женщины подвергаются более высокому риску стать потенциальными жертвами, чем мужчины. • Судя по медицинской литературе, чем мы старше, тем уже наши кровеносные сосуды становятся более жесткими, более суженными и менее эластичными. Все эти факторы могут привести к гипертонии. Следовательно, пожилые женщины более подвержены ишемической болезни сердца. • В соответствии со всеми вышеупомянутыми факторами, гипертония была худшим последствием из всех. Гипертония по-разному влияет на сердце пациента. Например, это может вызвать гипертрофию желудочков, повлиять на координацию между правой и левой стороной сердца. Гипертония также является самым смертельным последствием ишемической болезни сердца. • Отсутствие физической активности также является значительным фактором ишемической болезни сердца. Можно сделать вывод, что анализ множественных соответствий в данном случае показал высокую эффективность при анализе данных, поскольку ассоциация между переменными достаточно устойчивая. Мы надеемся, что наш подход будет полезен не только для Пакистана, но также для Канады или России, или любой другой страны в мире, поскольку эта болезнь становится всемирной проблемой в условиях глобализации. Мы также планируем взять образцы у обеих групп: пациентов с ишемической болезнью сердца и людей, у которых есть лишь некоторые незначительные симптомы ишемической болезни сердца, а затем сравнить результаты и более точно подтвердить наши выводы. Приложение Таблица 1а Влияние привычек питания на возраст Таблица 1б Корреляции преобразованных переменных, связанных с типом питания и ожирением Таблица 2a Влияние всех переменных по отношению к возрасту Таблица 2б Корреляции трансформированных величин в зависимости от возраста Таблица 3 Множественный тест между диагностированными заболеваниями у респондентов со всеми переменными Таблица 4 Множественный тест между диагностированными заболеваниями у респондентов с ограниченным набором переменных Таблица 5 Согласование переменных для выбора модели Таблица 6 Частично ассоциированные переменные Продолжение таблицы 6 Окончание таблицы 6

About the authors

Q. Sabir

Minhaj University Lahore, Pakistan

A. G. Kuchumov

Perm National Research Polytechnic University, Perm, Russia

T. Nguyen-Quang

Dalhousie University, Truro, Canada

References

Agresti A. Categorical data analysis. New Jersey: John Wiley & Sons Inc., 2002, 699 p.
Basu S., Glantz S., Bitton A., Millett C. The effect of tobacco control measures during a period of rising cardiovascular disease risk in India: a mathematical model of myocardial infarction and stroke // PLoS Med. – 2013. – Vol. 10. – doi: 10.1371/journal.pmed.1001480.
Bevington P.R., Robinson D.K. Data reduction and error analysis for the physical sciences. New York: McGraw-Hill, 2003, 336 p.
Bishop Y.M., Fienberg S.E., Holland P.W. Discrete multivariate analysis. New York: Springer, 2007, 530 p.
Bonett D.G. Sample size requirements for testing and estimating coefficient alpha // Journal of Educational and Behavioral Statistics. – 2002. – Vol. 27, No. 4 – P. 335–340.
Braun V., Clarke V. (Mis)conceptualising themes, thematic analysis, and other problems with Fugard and Potts’ sample-size tool for thematic analysis // Int. J. Soc. Res. Methodol. – 2016. – Vol. 19(6). – P. 739–743.
Celermajer D.S., Chow C.K., Marijon E., Anstey N.M., Woo K.S. Cardiovascular disease in the developing world: prevalences, patterns, and the potential of early disease detection // Journal of the American College of Cardiology. – 2012. – Vol. 60, No. 14. – P. 1207–1216.
Christensen R. Log-linear models and logistic regression. New York: Springer, 1997, 454 p.
Fugard A.J., Potts H.W. Supporting thinking on sample sizes for thematic analyses: a quantitative tool // Int. J. Soc. Res. Methodol. – 2015. – Vol. 18(6). – P. 669–684.
Greenacre M., Blasius J. Multiple correspondence analysis and related methods. Oxford: CRC press, 608 p.
Goodman L.A. Some useful extensions of the usual correspondence analysis approach and the usual log-linear models approach in the analysis of contingency tables // The International Statistical Review. – 1986. – Vol. 54. – P. 243–309.
Guest G., Bunce A., Johnson L. How many interviews are enough? An experiment with data saturation and variability // Field Methods. – 2006. – Vol. 18(1). – P. 59–82.
Habib D. Coronary artery disease in women // Pakistan Heart Journal. – 2011. – Vol. 44, No. 1-2. – P. 18–26.
Hwang H., Hec H., Dillon R., Takane, Y. An extension of multiple correspondence analysis for identifying heterogeneous subgroups of respondents // Psychometrika. – 2016. – Vol. 71, No. 1. – P. 161–171.
Jan R., Ahmad F., Qureshi M.S., Shah I., Zeb S., Hafizullah M. Frequency of risk factors for cardiovascular disease amongst people working in secretariat // Pakistan Heart Journal. – 2012. – Vol. 45, No. 4. – P. 53–59.
Jobson J. Applied multivariate data analysis: categorical and multivariate methods. New York: Springer, 1992, 616 p.
Keteepe-Arachi T., Sharma S. Cardiovascular disease in women: understanding symptoms and risk factors // European Cardiology Reviews. – 2017. – Vol. 1. – P. 10–13.
Khan M.A., Hassan M.U., Hafizullah M. Coronary artery disease, is it more frequently effecting younger age group and women // Pakistan Heart Journal. – 2006. – Vol. 39, No. 2. – P. 17–21.
Kleinbaum D.G., Kupper L.L., Muller K.E., Nizam A. Applied analysis and multivariate methods. Belmont: Duxbury Press, 2008, 893 p.
Li X., Wu C., Lu J., Chen B., Li Y., Yang Y. Cardiovascular risk factors in China: a nationwide population-based cohort study // Lancet Public Health. – 2020. – Vol. 5. – P. 672–681.
Roth G.A., Mensah, G.A., Johnson C.O., Addolorato G., Ammirati E., Baddour L. M. Global Burden of Cardiovascular Diseases Writing Group. Global burden of cardiovascular diseases and risk factors, 1990–2019: update from the GBD 2019 study // Journal of the American College of Cardiology. – 2020. – Vol. 76(25). – P. 2982–3021.
Sjölin I., Bäck M., Nilsson L., Schiopu A., Leosdottir M. Association between attending exercise-based cardiac rehabilitation and cardiovascular risk factors at one-year post myocardial infarction // PLoS One. – 2020. – Vol. 15. – P. 1–15.
Tavakol M., Dennick, R. Making sense of Cronbach's alpha // International Journal of Medical Education. – 2011. – Vol. 53, No. 2. – P. 53–55.
Van Der Heijden P.G.M., de Falguerolles A., de Leeuw J. A combined approach to contingency table analysis using correspondence analysis and log-linear analysis // Applied Statistics. – 1989. – Vol. 38, No. 2. – P. 249–292.
von Mises R. Mathematical theory of probability and statistics. New York: Academic Press, 1964, 708 p.
www.who.int/cardiovascular_diseases/publications/atlas_cardiovascular disease/en/.
www.who.int/nmh/countries/pak_en.pdf (2018)
www.who.int/cardiovascular_diseases/about_cardiovascular disease/en/.
www.who.int/data/gho/data/themes/mortality-and-global-health-estimates
www.world-heart-federation.org/cardiovascular-health/cardiovascular-disease-risk-factors/family-history/
Yang L., Wu H., Jin X., Zheng P., Hu S., Xu X. Study of cardiovascular disease prediction model based on random forest in eastern China // Scientific Reports. – 2020. – Vol. 10. – P. 1–8.

Statistics

Views

Abstract - 49

PDF (Russian) - 15

Refbacks

There are currently no refbacks.

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Russian Journal of Biomechanics

USING CORRESPONDENCE ANALYSIS AND LOG-LINEAR MODELS TO INVESTIGATE THE FACTORS AFFECTING CARDIOVASCULAR DISEASE

Abstract

Keywords

Full Text

About the authors

Q. Sabir

A. G. Kuchumov

T. Nguyen-Quang

References

Statistics

Views

Refbacks

This website uses cookies