2 مروری کوتاه بر همبستگی ها

  • 2022-10-16

سه همبستگی که ما استفاده خواهیم کرد برخی از رایج ترین ها هستند (اگرچه کندال کمتر است).

2.1 همبستگی پیرسون:

  • همبستگی گشتاور محصول پیرسون یکی از همبستگیهای پرکاربرد در دادهها است. این اندازه گیری قدرت و جهت یک رابطه خطی بین دو متغیر است. این به چهار فرض کلیدی متکی است (بیشتر این موارد در زیر گرفته شده است https://statistics. laerd. com/spss-tutorials/pearsons-product-moment-correlation-using-spss-statistics. php).

2.1.1 فرض 1:

  • داده های شما فاصله یا نسبت است. این نوع داده های پیوسته برای چگونگی ارتباط مقادیر در متغیرها مهم هستند و بنابراین کدگذاری متغیر ترتیبی یا طبقه ای کار نمی کند.

2.1.2 نیمه فرض 2:

  • همانطور که در بالا گفته شد, پیرسون تنها با داده های خطی کار می کند. این بدان معناست که دو عامل همبسته شما باید یک خط را تقریبی کنند و نه یک شکل منحنی یا سهموی. اینطور نیست که شما نمیتوانید از پیرسون استفاده کنید تا ببینید رابطه خطی در دادهها وجود دارد یا خیر.

2.1.3 فرض 3:

  • پرت در داده های خود را واقعا می تواند پرتاب کردن یک همبستگی پیرسون. اطلاعات بیشتر در اینجا: http://www. purplemath. com/modules/boxwhisk3. htm

2.1.4 فرض 4:

  • داده هایی که تجزیه و تحلیل می کنید باید به طور معمول توزیع شوند. این را می توان در چند راه انجام (چولگی, کورتوز) اما همچنین می تواند به شیوه ای سریع و کثیف از طریق هیستوگرام انجام شود.

2.2 همبستگی اسپیرمن

  • نکته خوب در مورد همبستگی اسپیرمن این است که تقریبا به همه فرضیات مشابه همبستگی پیرسون متکی است اما به عادی بودن متکی نیست و داده های شما نیز می توانند ترتیبی باشند. این یک تست غیر پارامتری است. بیشتر در مورد همبستگی اسپیرمن در اینجا, http://www. statstutor. ac. uk/resources/uploaded/spearmans. pdf, و در پارامتریک در مقابل غیر پارامتری اینجا, http://www. oxfordmathcenter. com/drupal7/node/246.

2.3 همبستگی کندال

  • همبستگی کندال از نظر غیر پارامتری مشابه همبستگی اسپیرمن است. این را می توان با داده های ترتیبی یا پیوسته استفاده کرد. این یک وابستگی بین دو متغیر است. بحث همبستگی در مقابل وابستگی را می توان در اینجا یافت و مقایسه هر سه این همبستگی ها را می توان یافت here, https://www. quora. com/Probability-statistics-What-is-the-difference-between-dependence-and-correlation-What-is-the-physical-difference, http://www. statisticssolutions. com/correlation-pearson-kendall-spearman/.

3 تنظیم مجموعه داده

  • حال بیایید یک مجموعه داده را شبیه سازی کنیم تا نگاهی بیندازیم که چگونه نتایج این انواع مختلف همبستگی ممکن است تحت تاثیر پارامترهای مختلف داده ها قرار گیرد. ابتدا باید چند بسته را نصب کنیم.
  • حالا باید یک دیتاست ایجاد کنیم. بیایید از سناریوی یک کلاس کامل از کودکان مدرسه ای در سراسر مناطق استفاده کنیم که در ابتدای ترم تست انگلیسی می دهند (تست.1) و پایان (تست.2). بیایید مجموعه داده را در ارتباط قرار دهیم .7 (پیرسون). راه حل ایجاد داده ها از این طریق را می توان در: https://stackoverflow. com/questions/28416897/r-create-dataset-with-specific-correlation-in-r

- اکنون می توانیم داده های خود را به صورت پراکنده بررسی کنیم و همچنین یک خط روند خطی را متناسب کنیم تا اطمینان حاصل کنیم که همبسته به نظر می رسد و همچنین خط روند خطی خوب به نظر می رسد.

4 مقایسه همبستگی ها

در حال حاضر ما می خواهیم برای بررسی سه مقایسه دو به دو مختلف ما و مقایسه ارزش های خود را.

ما می توانید ببینید پیرسون و اسپیرمن تقریبا یکسان هستند, اما کندال بسیار متفاوت است. این به این دلیل است که کندال تست قدرت وابستگی است (یعنی یکی را می توان به عنوان تابعی خطی از دیگری نوشت) در حالی که پیرسون و اسپیرمن تقریبا از نظر ارتباط داده های توزیع شده به طور معمول معادل هستند. همه این همبستگی ها در نتیجه خود درست هستند, این درست است که پیرسون/اسپیرمن در حال نگاه کردن به داده ها در یک راه, و کندال در یکی دیگر از.

یک وضعیت بهتر برای اسپیرمن یا کندال (اما نه برای پیرسون) زمانی که داده ترتیبی است, در این است که رتبه بندی. بنابراین اجازه دهید تست 1 نمرات تبدیل به نمرات رتبه چگونه به خوبی هر یک از همکلاسی نسبت به یکدیگر بود.

-و حالا بیایید دوباره همبستگی ها را با تست 1 داده رتبه بندی شده و تست 2 داده خام بررسی کنیم:

در اینجا دوباره ما می توانید ببینید که پیرسون و اسپیرمن بسیار شبیه هستند, هر چند پیرسون کمی تغییر کرده است. این احتمالا به دلیل دانه دانه بودن یکی از منابع داده است که به جای اعداد اعشاری متعددی که قبلا داشته اند به اعداد صحیح کامل تغییر می کند. با این حال, ما می بینیم که اسپیرمن و کندال دقیقا همان, به عنوان به عنوان وابسته به دانه دانه از اعداد صحیح نیست.

بیایید نمره دوم را نیز به یک رتبه تبدیل کنیم تا ببینیم چگونه به نظر می رسد:

در حال حاضر ما می توانید ببینید که پیرسون دقیقا منطبق اسپیرمن, همانطور که انتظار می رود از اعداد صحیح در حال حاضر طیف در سراسر انجمن.

در حالی که این داده ها از لحاظ فنی ترتیبی, چه ما واقعا انجام داده ام یک تحول از نمرات خام به رتبه اعداد صحیح است. ما باید انتظار داشته باشیم که اینها تقریبا مشابه (یا دقیقا مشابه) نمرات خام باشند زیرا ذاتا به هم مرتبط هستند. یک روش متفاوت برای افشای بهتر تفاوت بین این همبستگی ها ممکن است ایجاد یک توزیع غیر نرمال باشد که می تواند مشکلاتی را برای همبستگی پیرسون ایجاد کند.

بیایید یک توزیع یکنواخت از (فرضی, به عنوان این احتمال وجود دارد به طور معمول در زندگی واقعی توزیع) نمرات ریاضی کودکان به طور متوسط در طول سال.

و در حال حاضر اجازه دهید در همبستگی ما نگاه, با تست اصلی ما 2. این همبستگی ها بسیار متفاوت از همبستگی های قبلی ما خواهد بود.

در حالی که در واقعیت ممکن است اینگونه نباشد که توانایی ریاضی و توانایی انگلیسی (یا به طور کلی زبان) در دنیای فرضی ما بسیار نامربوط هستند. اگرچه ممکن است پیرسون و اسپیرمن به یکدیگر نزدیک باشند اما اسپیرمن در این مورد قابل اعتماد است زیرا داده ها به طور معمول توزیع نمی شوند. باز هم می توانید همبستگی پیرسون را بر روی داده های غیر عادی انجام دهید اما به اندازه یک تست غیر پارامتری که عادی نیست قابل انعطاف نیست. از سوی دیگر می توانیم ببینیم که این داده ها به صورت خطی به یکدیگر وابسته نیستند زیرا همبستگی کندال نیز بسیار کم است.

در حال حاضر اجازه می دهد تا رتبه سفارش تست 1, تبدیل به داده های ترتیبی, و ببینید چه اتفاقی می افتد

در حال حاضر ما می توانید ببینید که همبستگی باقی مانده اند اساسا همان, شبیه به زمانی که ما این کار را با داده ها به طور معمول توزیع. دوباره, اسپیرمن (برای رابطه) و کندال (برای وابستگی) در حال رفتن به قابل اعتماد تر در اینجا از پیرسون.

توجه داشته باشید که این داده ها (زیرا به تعداد زیادی اعشار رسیده است) هیچ ارتباطی ندارند. وقتی داده هایی دارید که در کل اعداد صحیح اصلی هستند, تابع رتبه بسیار مهمتر است که بدانید چگونه روابط را مدیریت می کند.

بیایید به سرعت در چگونه همه چیز ممکن است تغییر اگر کسانی که نمرات ریاضی یکنواخت قبل از رتبه بندی گرد شد نگاه

ما در حال حاضر می توانید ببینید که نمرات ریاضی رتبه بندی شده است که بر کل مبتدیان بستگی دارد ممکن است این مقادیر همبستگی را تغییر دهید, اما اجازه دهید به بررسی.

این تغییرات چشمگیر نیست, اما در بسته رتبه, وجود دارد 6 راه های مختلف برای رسیدگی به ارزش کراوات. اگر ما این را به مثلا "متوسط" از "اول"تغییر دهیم

باز هم می بینیم که این تغییرات چشمگیر نیستند اما نشان می دهد که حتی تصمیمات کوچک در مورد نحوه مدیریت داده ها می تواند نتایج شما را تحت تاثیر قرار دهد حتی زمانی که اساس داده های شما یکسان است و همبستگی که استفاده می کنید یکسان است. در مطالعات دیگر, این تا حد زیادی ممکن است تاثیر تفسیر خود را از داده های خود را.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.