آمار و مدل سازی
مقدمه
آمار علم و عمل توسعه دانش انسانی از طریق استفاده از دادههای تجربی است. آمار بر نظریهی آمار مبتنی است که شاخهای از ریاضیات کاربردی است. در نظریهی آمار، اتفاقات تصادفی و عدم قطعیت توسط نظریه احتمال مدل میشوند. عمل آماری، شامل برنامهریزی، جمعبندی، و تفسیر مشاهدات غیر قطعی است. از آنجا که هدف آمار این است که از دادههای موجود «بهترین» اطلاعات را تولید کند، بعضی مؤلفین آمار را شاخهای از نظریهی تصمیمگیری به شمار میآورند.
تاریخچه
سرآغاز اولیه آمار را باید در شمارش های آماری حوالی آغاز قرن اول میلادی یافت. اما ،تنها در قرن هجدهم بود که این علم ، با به کار رفتن در توصیف جنبه هایی که شرایط یک وضعیت را مشخص میکردند ، به عنوان رشته ای علمی و مستقل شروع به مطرح شدن کرد.
مفهوم از کلمه لاتینی ،به معنی شرط ، استخراج شده است. مدت های مدید ، این علم ، محدود به کار در این حوزه بود ، و تنها در دهه های اخیر از این انحصاری جدا شدو ، و به کمک نظریه احتمال ،شروع به بررسی روش های تحلیل داده های آماری و اثبات فرض های آماری کرد.
روش های این آمار ریاضی با آشکار کردن قوانین جدید ، به ابزاری موثر در علوم طبیعی و تکنولوژی تبدیل شد.
ريشه و تعريف آمار
در كتاب ريشههاي لغت انگليسي آكسفورد(The Oxford English etymology dictionary) آمار به صورت زير تعريف ميگردد:
كلمه آمار مشتق از واژه لاتينيstatus است و يكي از معاني آن State يا دولت است و در آغاز براي بيان واقعيتهاي يك جامعه يا يك كشور در علوم سياسي به كار گرفته شد(قرن18ميلادي).
كلمه آمار داراي معاني بسياري است و در قالب يك اسم عام، عبارت از مجموعهاي از دادههاي عددي مانند آمار بيكاران، حوادث، بيمهشدگان، درآمدها، هزينهها و... است. امروزه بسياري از مردم همچنان آمار را تنها به عنوان مجموعهاي گيجكننده از اعداد و ارقام و جداولي ميدانند كه بيانكننده وضعيتهاي گوناگون جمعيتي، اقتصادي، سياسي و... هستند. علم آمار در يكي،دو قرن گذشته، چنان تحول شگرفي پيدا كرده است كه به عنوان مهمترين ابزار استدلالي مبتني بر دادهها معرفي ميشود. پيشرفتهاي بهدستآمده در علم آمار باعث تأييد و تثبيت بسياري از نظريههاي علوم ديگر شده كه اين نكته، خود به توسعه ساير علوم انجاميده است. همچنين نمايشهاي عددي صرف به صورت جنبهاي فرعي از علم آمار درآمده است و تعداد بسيار محدودي از كارشناسان حرفهاي آمار به فعاليتهاي معمولي جدولبندي و رسم نمودارها اشتغال دارند. امروزه آمارشناسان از روشهاي مختلف آماري براي استنتاج بر اساس مجموعهاي از دادههاي گردآوريشده و استخراج اطلاعات از آنها به صورت جداول، نمودارها، خلاصهسازيها و تحليلهاي تخصصي بهره ميگيرند.
آمار به عنوان يك اسم عام را ميتوان به صورت زير تعريف كرد: «آمار ابزاري براي خلاصهسازي وقايعي است كه تحت تأثير دلايل متنوعي رخ داده و به صورت عددي در سطح قابل قبولي از خطا بيان ميشوند. دادههاي اين وقايع به روشي نظاممند و با هدفي مشخص و ازپيشتعيينشده گردآوري شده و در جداول و نمودارها با يكديگر در ارتباط قرار داده ميشوند».
تعريف قبل، تمامي ويژگيهاي آمار را در قالب صفات زير بيان ميكند:
1 - خلاصهاي از وقايع
2 - تحت تأثير چند علت
3 - توصيفشده به صورت عددي
4 - برآوردشده با سطح قابل قبولي از خطا
5 - گردآوريشده به روشي نظاممند
6 - گردآوريشده براي هدفي مشخص
7 - مرتبشده در ارتباط با يكديگر در جداول و نمودارها
آمار در قالب يك اسم خاص، به عنوان شاخهاي از علم رياضيات است كه هدف آن توسعه روشهايي براي استنتاج براساس مجموعهاي از دادههاي گردآوريشده و استخراج اطلاعات از آنها به صورت جداول، نمودارها، خلاصهسازيها و تحليلهاي تخصصي است. روشهاي متنوع بهكارگرفتهشده در اين علم روشهاي آماري (statistical methods) و كساني كه اين روشها را به كار ميبرند، آمارشناس ناميده ميشوند.
در تعريف مدرن، علم آمار عبارت از «گردآوري، توصيف، تجزيه و تحليل و تفسير دادههاي كمي و كيفي» است. روشهاري آماري، مخصوصا هنگامي كه تغييرپذيري در اندازهها يا دادهها مشاهده ميشود(در پديدههاي طبيعي و موجود در زندگي بشر) مفيد بوده و به كار گرفته ميشوند. شايد بتوان مهمترين وجه تمايز آمار و رياضيات را در اين نكته دانست كه در رياضيات، يك عدد(به عنوان مثال 100) تنها يك عدد است كه ميتوان با آن محاسبات رياضي انجام داد، اما در آمار اين عدد هويت مييابد؛ به اين مفهوم كه 100 در جايي عددي بزرگ و مهم است، ولي همين عدد در جايي ديگر مقداري ناچيز به شمار ميرود. نكته ديگري كه بايد به آن توجه كرد، اين است كه در علم رياضي صحبت از قطعيت است( اينكه همواره دو به علاوه دو برابر چهار ميشود) اما در علم آمار بحث بر سر عدم قطعيتهاست، يعني در علم آمار، دو به علاوه دو لزوما برابر چهار نيست و در اين علم آن را با درصدي از اطمينان، برابر چهار ميدانند.
در تعريف مدرن، چهار مرحله زير در علم آمار بيان ميشود:
1 - گردآوري دادهها
2 - توصيف دادهها
3 - تحليل دادهها
4 - تفسیر داده ها
شاید بتوان مرحله پنجمی را نیز برای این علم در نظر گرفت. این مرحله می تواند به عنوان سازماندهی داده ها بیان شود.
تکنیک و هدف آمار
با تمام تعاریف و زوایای مختلف موجود برای علم آمار، هدف این علم چیست؟ می توان بیان کرد که: «هدف علم آمار توسعه و به کارگیری روش هایی برای استخراج اطلاعات مفید از داده ها و تجربیات است.» به علاوه، به دلیل نقش اساسی این علم در تحلیل داده ها، لزوم به کارگیری داده های موثق و قابل اعتماد در این علم از اهمیت بالایی برخوردار است. پس یکی دیگر از اهداف این علم تعیین روش های گردآوری مفیدی برای داده ها است. این روش های گردآوری در قالب روش های ثبتی، بررسی های نمونه ای، طراحی آزمایش ها و... طرح می شوند.
روش های بررسی داده ها به دو روش آمار توصیفی (Descriptive Statistics) و آمار تحلیلی یا استنباطی (Inferential Statistics) انجام می شود. آمار توصیفی به بررسی های اکتشافی، نمایشی و خلاصه سازی داده ها می پردازد، بدون این که بر روی داده ها هیچ گونه مدلی را برازش دهد. این روش توصیف داده ها اولین گام در تحلیل داده هاست. در این مرحله به دلیل این که هیچ گونه مدلی برای داده ها فرض نشده است، هیچ گونه آزمون فرض یا برآورد قابل آزمونی نمی تواند به کار گرفته شود. اگرچه نباید این نکته را از نظر دور داشت که این مرحله در تحلیل های آماری از اهمیت خاصی برخوردار است، چرا که می تواند آشکارکننده خصوصیات بسیار جالب و مهم داده ها باشد. آمار استنباطی گام بعدی تحلیل داده ها است و هدف آن، شناسایی مدل مناسبی برای داده هاست. پس از برازش مدل به داده ها، هدف برآورد بهینه پارامترهای مدل است. در نهایت اعتبار مدل با انجام آزمون های مناسبی برای برآوردهای به دست آمده و فرضیات مدل مورد بررسی قرار می گیرد. در این مرحله نتایج به دست آمده از یک نمونه خاص را می توان به جامعه تعمیم داد.
چه زمانی از آمار استفاده می شود؟
* به منظور توصیف داده ها به شکلی محدود و خلاصه: روش های آماری در کلاسه بندی، گروه بندی و جدول بندی کردن داده های خام اولیه به منظور پردازش ها یا جدول بندی های بیشتر به کار می روند.
* به منظور سادگی در بیان داده های حجیم و پیچیده: برای رسیدن به این منظور داده ها به صورت جداول، نمودارها، گراف ها و... نمایش داده می شوند و یا با استفاده از شاخص های تمرکز و پراکندگی بیان می گردند.
* برای مقایسه دو یا چند مجموعه از داده ها: جداول، اندازه میانگین و پراکندگی ها در مقایسه مجموعه های مختلفی از داده ها به کار می روند.
* به منظور تصمیم گیری و برنامه ریزی: از آمارها می توان برای تصمیم گیری و شکل دادن سیاست های کاری بهره گرفت. به عنوان مثال بر اساس آمارها می توانند برای پیش بینی تقاضای بازار به کار گرفته شوند.
* برای اندازه گیری شدت و اندازه پدیده ها: امکان شمارش جمعیت یک کشور و رشد آن، رشد صنعتی، کشاورزی، سطح تحصیلات و... با استفاده از آمار به دست می آید.
برخی از مفاهیم در آمار
اندازهگيري: تخصيص معيار عددي به يك صفت را «اندازهگيري» ميگويند. اندازهگيري اولين قدم براي رسيدن به اطلاعات عددي ميباشد.
مدلسازي: بيان مسئله به زبان رياضي را مدلسازي رياضي ميگويند.
خطاي اندازهگيري :خطای اندازهگيري لزوماً از واحد اندازهگيري كمتر است و از رابطة زير به دست ميآيد.
مدار اندازهگيري شده – مقدار واقعي = خطاي اندازهگيري
خطاي اندازهگيري ممكن است مثبت يا منفي شود اما هيچگاه صفر نميشود.
جامعه آماري : مجموعهاي از افراد يا اشياء است كه دربارة اعضاي آن ميخواهيم موضوع يا موضوعاتي را مطالعه كنيم.
اندازه جامعه: تعداد اعضاي جامعه را اندازه جامعه ميگويند.
سرشماري : اگر تمام افراد جامعه را مورد مطالعه قرار دهيم ميگوييم سرشماري كردهايم.
نمونه : زيرمجموعهاي از جامعة آماري كه بيانكنندة ويژگيهاي اصلي جامعه باشد را نمونه ميگويند. درواقع عمل نمونهگيري مهمترين بخش آمار است.
اندازه نمونه : تعداد اعضاي نمونه را اندازه نمونه ميگويند.
نمونه تصادفي ساده : نمونه تصادفي ساده، زيرمجموعهاي از جامعة آماري است كه دو ويژگي زير را بايد داشته باشد:
الف : هر يك از اعضا امكان حضور در آن را داشته باشند.
ب : قبل از انتخاب نمونه نتوانيم با اطمينان در مورد حضور يا عدم حضور عدهاي در نمونه قضاوت كنيم.
روشهاي جمعآوري دادهها: روشهاي جمعآوري دادهها عبارتند از:
الف(پرسشنامه :شفاهي – كتبي
ب( از طريق مشاهده و ثبت وقايع
ج ( استفاده از دادههاي از پيش تهيه شده
د ( از طريق آزمايش
موارد زير را به خاطر داشته باشيد:
صفت : به كميت يا كيفيتي كه متعلق به عناصر جامعه آماري است، صفت گفته ميشود.
صفت ثابت )مشخصه): صفتي است كه بين همه عناصر جامعه آماري مشترك است. مانند جامعه ايرانيان كه صفت مشخصة آن"ايراني بودن" است.
صفت متغير (صفت آماري) : صفتي است كه از فردي به فرد ديگر در بين عناصر جامعه آماري ميتواند تغيير كند، مانند قد يا وزن.
فرد جامعه: هر يك از اعضاء جامعه آماري را فرد (عنصر) جامعه آماري ميگويند.
متغيرهاي تصادفي: موضوع يا موضوعاتي كه روي يك جامعه يا نمونه مورد مطالعه قرار ميگيرند "متغير تصادفي" ناميده ميشود.
- متغيرهاي كمي : متغيرهايي هستند كه قابل اندازهگيري باشند (بتوان به آنها عدد نسبت داد). مانند قد يا وزن كه به دو دستة پيوسته و گسسته دستهبندي ميشوند.
الف( متغير كمي پيوسته: متغيري است كه از راه اندازهگيري به دست ميآيد مانند قد، وزن، هوش و...
ب( متغير كمي گسسته: متغيري است كه از راه شمارش به دست ميآيد مانند تعداد دندانهاي فاسد و سياه يك كودك شش ساله.
متغيرهاي كيفي: متغيرهايي هستند كه قابل اندازهگيري نميباشند ) نميتوان به آنها عدد نسبت داد)مانند: گروههاي خوني كه به دو دستة كيفي ترتيبي و كيفي اسمي دستهبندي ميشوند.
الف) متغيرهاي كيفي ترتيبي: متغيرهايي هستند كه در آنها نوعي ترتيب طبيعي وجود دارد مانند: حروف الفباي فارسي.
ب) متغير كيفي اسمي: متغير كيفياي كه ترتيبي نباشد، متغير كيفي اسمي ميباشد، مانند: رنگ چشم افراد
جامعه و نمونه
جامعه یک بررسی آماری دارای مشاهده ها یا آزمایش هایی تحت شرایطی یکسان ، به عنوان عنصرهای خود است. هر یک از این عنصرها را میتوان نسبت به مشخصه های متفاوتی بررسی کرد ، که می توانند به عنوان متغیرهای تصادفی XوY .... در نظر گرفته شوند.
اگر مشخصه تحت بررسی X ، دارای تابع توزیع F در جامعه مربوط باشد ، آنگاه گفته می شود که جامعه مورد بحث دارای توزیع F نسبت به مشخصه X است. در بررسی های آماری همواره زیر مجموعه ای متناهی از عناصر جامعه مورد تحقیق قرار می گیرد.این زیر مجموعه به نمونه موسوم است ، و n، تعداد عناصر موجود در آن ، اندازه نمونه نامیده می شود. به عنوان مثال اگر وزن پسر بچه های ده ساله متغیر تصادفی x باشد ، در این صورت تمام پسر بچه های به این سن یک جامعه تشکیل می دهند . اندازه های وزن پسربچه های در شماری از مکان ها یک نمونه می سازند ، و هر پسر بچه عنصری از جامعه مزبور است . وزن مورد بحث مشخصه ای از عنصر های مزبور به شمار می رود ، و سایر مشخصه ها ، به عنوان مثال ، بلندی قد و اندازه سینه اند.
طرح آزمایش
در بررسی یک مسئله با روش های آماری ، باید نقشه آزمایش کشیده شود که شامل روش جمع آوری داده ها،اندازه نمونه مورد نظر و روش حل آن مسئله است. در این مورد هر چه نقشه آزمایش دقیق تر باشد ، نتایج به دست آمده از روش های آماری بهتر خواهند بود . بخصوص ، باید اطمینان حاصل شود که هیچ یک از اندازه گیری هایی که برای نتایج مورد نظر دارای اهمیت اند از قلم نیفتند یا ناقص نباشند . اما در این مورد همچنین می توان ، تنها به همان اندازه که می شود با بخش ناچیزی از هزینه ها به دست آورد قناعت و از دستاوردی با یک رشته آزمون بسیار پرخرج اجتناب کرد.
در این رابطه ، نکات زیر از اهمیت برخوردارند:
· مواد یا اطلاعات بررسی شده باید همگن باشند ؛ یعنی ،روش آزمون ،در دوره بررسی ، باید یکسان باقی بماند. در وسایل یا شرایط تولید نباید تغییری داده شود ، و ابزارهای اندازه گیری با دقت های متفاوت نباید به کار روند.
· بایدتا آنجا که امکان دارد خطاهای منظم یا عوامل موثر کنار گذاشته شوند . به عنوان مثال ، اگر مایل باشیم دو ماده را با هم مقایسه کنیم ، باید هر دو را در یک دستگاه تهیه کرده باشیم ، چه در غیر این صورت تفاوت دستگاه ها در نتایج بررسی وارد می شود ، و در کشاورزی ، در آزمون کودهای متفاوت ، باید زمین را ،به خاطر یکسان کردن تاثیر نوع خاک و موقعیت آن ، به باریکه های موازی تقسیم کرد.
باید نظارتی در نظر گرفته شود. در این مورد، یا برای مشخصه تحت بررسی مقادیر استانداردی موجودند ،که می توانند با نتایج آزمون مقایسه شوند ، یا آزمونهای نظارتی باید انجام گیرند . به عنوان مثال ، در آزمایش مربوط به کودها ، باید تاثیر یک کود از تفاوت بین گیاهانی که که با آن یا بدون آن ،تحت شرایط محیطی یکسان ،رشد کرده اند ، ارزیابی شود.
انتخاب نمونه باید تصادفی یا نماینده ای باشد . انتخاب تصادفی انتخابی است که در آن هر عنصر برای اینکه عضو آن نمونه باشد یا نباشد ، از احتمال یکسان برخوردار است. به عنوان مثال ، در یک محموله پیچ ، نمونه مورد آزمون نباید تماماَ از یک مکان انتخاب شود ،بلکه باید روی کل محموله توزیع شده باشد ، و در اندازه گیری ضخامت سیم ها نقاط اندازه گیری شده باید به طور تصادفی روی تمام طول سیم توزیع شده باشد.
انتخاب تصادفی عناصر را می توان به کمک جداول اعداد تصادفی انجام داد ، و انتخاب نماینده ای نمونه را می توان زمانی انجام داد که ماده تحت بررسی را بتوان به گونه ای یکتا به اجزایی تقسیم کرد . به عنوان مثال ، امکان پذیر است که یک محموله پیچ را به چنان طریقی تقسیم کنیم که هر جزء مزبور ، به تصادف انتخاب کرد ، ودر این صورت کل آنها نمونه مورد نظر را تشکیل می دهند. به این طریق تصویری از محموله ، بر مبنای مقیاسی کاهش یافته به دست می آید.
با توجه به اندازه نمونه مورد آزمون ، البته باید به بررسی مورد بزرگ تر و استنتاج بهتر ، درباره جامعه ای که از آن می توان ساخت ، پرداخت ،اما از طرف دیگر ، اندازه مزبور ، به دلایل زمانی و تلاش به کار رفته ، معمولاَ کوچک در نظر گرفته می شود، بنابر این باید انحرافی تصادفی از نتایج را نیز به حساب بیاوریم. هنگامی که ، با روش های آماری ، استنتاجاتی درباره جامعه ای به دست می آوریم باید اندازه نمونه مورد آزمون را نیز در نظر بگیریم.
از این گفته ها میتوان به اهمیت تحصیل در رشته آمار و نیاز جامعه به فارغ التحصیلان این رشته پی برد.
محدوديتهاي آمار
آمار راجع به پارامترهاي جامعه است و بر اساس اندازههاي بهدست آمده از يك فرد جامعه بحث نميكند. به دليل اينكه آمار بر اساس آمارهاي خلاصه شدهاي از وقايع بحث ميكند، در مطالعاتي كه تنها بر روي يك عضو جامعه انجام ميشوند، كاربردي ندارد. به عنوان مثال، حق بيمه پرداخت شده كارگري در يك شركت خاص در يك زمان مشخص نميتواند به عنوان مأخذ آماري قلمداد شود. حال آنكه اگر حق بيمههاي پرداخت شده از تمامي كارگران شركت در يك زمان و يا زمانهاي متوالي گردآوري شود بهعنوان منبعي براي پردازشهاي آماري بهشمار خواهد رفت. همچنين نمره يك دانشجو در درس آمار، نميتواند به عنوان شاخصي براي نمره آمار كلاس محسوب شود (در حقيقت ميتواند، ولي شاخص خوبي نيست) در صورتي كه متوسط نمره تمامي افراد كلاس آمار ميتواند به عنوان يك شاخص آماري بسيار خوب و مناسب براي نمره آمار كلاس در نظر گرفته شود.
* سازههاي ذهني كيفي مانند اخلاق، هوش و استعداد، زيبايي و غيره تنها در صورتي كه كمي شوند ميتوانند به عنوان آمارهايي براي پردازشهاي آماري بهكار گرفته شوند.
* نتايج آماري در يك قالب كلي صحيح هستند: نتيجهگيريهاي بهدست آمده بر اساس محاسبات آماري، براي تكتك افراد صادق نيستند. اين نتايج تنها تحت شرايط خاصي صحيح ميباشند.
* روشهاي آماري بر اساس عدم قطعيت بنيان گذارده شدهاند. از اين رو اين روشهاي آماري تنها زماني كه به دقت رياضيات نيازي نيست و يا دستيابي به اين دقت امكانپذير نيست، بهكار ميروند.
پس از مطالعه و شناخت مفهوم آمار و علم آمار، مسايل مورد توجه در علم آمار و همچنين نقاط ضعف آن در ادامه به معرفي آمارشناسان و مسايلي كه معمولاً به حل آنها ميپردازند و حيطههاي كاربردي آمار در ساير علوم پرداخته ميشود.
آمار توصیفی
هنگامی که تودهای از اطلاعات کمی برای تحقیق گرد آوری میشود، ابتدا سازمان بندی و خلاصه کردن آنها به طریقی که به صورت معنی داری قابل درک و ارتباط باشند، ضروری است. روشهای آمار توصیفی (Descriptive Statistics) به همین منظور بکار برده میشوند. غالبا مفیدترین و در عین حال اولین قدم در سازمان دادهها مرتب کردن دادهها بر اساس یک ملاک منطقی است و سپس استخراج شاخصهای مرکزی و پراکندگی و در صورت لزوم محاسبه همبستگی میان دو دسته اطلاعات و استفاده از تحلیلهای پیشرفته تر نظیر رگراسیون (Regression) و پیش بینی (Prediction) میباشد.
در یک جمعبندی با استفاده مناسب از روشهای آمار توصیفی میتوان دقیقا ویژگیهای یک دسته از اطلاعات را بیان کرد. آمار توصیفی همیشه برای تعیین و بیان ویژگیهای اطلاعات پژوهشها بکار برده میشوند.
روشهای آمار توصیفی
تشکیل جدول توزیع فراوانی
توزیع فراوانی عبارت است از سازمان دادن دادهها یا مشاهدات به صورت طبقات همراه با فراوانی هر طبقه. برای تشکیل یک جدول توزیع فراوانی باید دامنه تغییرات ، تعداد طبقات و حجم طبقات توسط فرمولهای مربوطه محاسبه شده و سپس اقدام به نوشتن جدول توزیع در دو ستون) X ستون طبقات) و) F فراوانی طبقات) شود. پس از این مرحله در صورت تمایل یا لزوم پژوهشگر میتواند شاخصهای دیگری نظیر فراوانی تراکمی ، فراوانی تراکمی درصدی را محاسبه نماید. تشکیل جدول توزیع فراوانی یک روش اقتصادی و در عین حال آسان برای نمایش انبوهی از دادههای نامنظم است. اما در طبقه بندی کردن ، برخی از اطلاعات به علت خطای گروه بندی از دست میروند که در محاسبه شاخصهای آماری نیز منعکس میشود. ولی مقدار آن ناچیز بوده و اشکال عمدهای ایفا نمیکند.
ترسیم نمودار
یکی از نقاط ضعف نمایش دادهها به صورت جدول فراوانی عدم درک سریع اطلاعات جدول است. نمودارها ابزار مناسبی برای نمایش تصویری اطلاعات هستند. انواع مختلفی از نمودار وجود دارد که از جمله میتوان به نمودار هیستوگرام ، نمودار ستونی ، نمودار چند ضلعی تراکمی ، نمودار دایرهای ، نمودار سریهای زمانی و …اشاره کرد.
محاسبه شاخصهای مرکزی
در محاسبات آماری لازم است که ویژگیها و موقعیت کلی دادهها تعیین شود. برای این منظور شاخصهای مرکزی محاسبه میشوند. شاخصهای مرکزی در سه نوع نما (Mode) ، میانه (Median) و میانگین (Mean) هستند که هر یک کاربرد خاص خود را دارا میباشند. در تحقیقاتی که مقیاس اندازه گیری دادهها حداقل فاصلهای است میانگین بهترین شاخص است. ولی در تحقیقاتی که مقیاس اندازه گیری دادهها رتبهای یا اسمی است، میانه یا نما مورد استفاده قرار میگیرند.
محاسبه شاخصهای پراکندگی
شاخصهای پراکندگی برخلاف شاخصهای مرکزی هستند. آنها میزان پراکندگی یا تغییراتی را که در بین دادههای یک توزیع (نتایج تحقیق) وجود دارد، نشان میدهند. دامنه تغییرات ، انحراف چارکی (Quartile Deviation) ، واریانس (Variance) و انحراف استاندارد (Standard Deviation) شاخصهایی هستند که به همین منظور در تحقیقات مورد استفاده قرار میگیرند. پس از محاسبه شاخصهای مرکزی و پراکندگی میتوان نمرههای استاندارد را محاسبه و منحنی طبیعی (Z) را ترسیم کرد.
محاسبه همبستگی
تحقیقاتی وجود دارد که پژوهشگر میخواهد رابطه بین دو متغیر را تعیین کند و به همین منظور از روشهای همبستگی (Correlation) استفاده میکند. در محاسبه همبستگی ، نوع مقیاس اندازه گیری دخالت دارد و بطور کلی به دو دسته پارامتری و ناپارامتری تقسیم میشوند.
- محاسبه همبستگی برای تحقیقات پارامتری : چنانچه دو متغیر در مقیاسهای فاصله یا نسبی اندازه گیری شده باشند، میتوان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. ولی اگر در تمام مفروضات ضریب همبستگی پیرسون صادق نباشد، نمیتوان از آنها استفاده کرد و به جای آن میتوان از روشهای دیگری مانند ضریب همبستگی دو رشتهای ( ) ، دورشتهای ( ) و یا ضریب تتراکوریک ( ) استفاده کرد.
- محاسبه همبستگی برای تحقیقات ناپارامتری : در تحقیقاتی که در سطح مقیاسهای اسمی و رتبهای انجام میگیرد، باید از روشهای دیگری برای محاسبه همبستگی بین دو متغیر استفاده کرد. برخی از این روشها عبارتند از : ضریب همبستگی فی (φ) ضریب کریمر (C) ، ضریب کپا (K) و ضریب لامبدا ، در تحقیقات اسمی و ضریب همبستگی اسپرمن ( ) ، ضریب کندال و آماده گاما (G) برای تحقیقات ترتیبی.
رگراسیون و پیش بینی
رگراسیون (Regression) روشی برای مطالعه سهم یک یا چند متغیر مستقل در پیش بینی متغیر وابسته است. از تحلیل رگراسیون هم در تحقیقات توصیفی (غیر آزمایشی) و هم در تحقیقات آزمایشی میتوان استفاده کرد. با توجه به نوع تحقیق و متغیرهای آن روش متنوعی برای تحلیل رگراسیون وجود دارد که برخی از آنها عبارتند از : رگراسیون خطی (با سه راهبرد همزمان ، گام به گام ، سلسله مراتبی) ، رگراسیون انحنایی ، رگراسیون لوجیستیک و تحلیل کواریانس.
تحلیل دادههای ماتریس کواریانس
از جمله تحلیلهای همبستگی ، تحلیل ماتریس کواریانس یا ماتریس همبستگی است. دو نوع از معروفترین این تحلیلها عبارتند از : مدل تحلیل عاملی برای پی بردن به متغیرهای زیر بنایی یک پدیده در دو دسته اکتشافی و تاییدی و مدل معادلات ساختاری برای بررسی روابط علی بین متغیرها.
مثالی از درس آمار و مدل سازی
برای مثال فرض کنید می خواهیم وزن بچه های یک مورد 500 نفری را بررسی کنیم ولی برای سهولت در کار می خواهیم فقط 10 دانش آموز را به تصادف انتخاب کنیم. برای این کار 10 عدد تصادفی انتخاب کرده و در عدد 500 ضرب می کنیم مثلاً فرض کنید عدد تصادفی حاصل 235/0 باشد.
یعنی دوازدهمین نفر شخص منتخب است.
به سادگی می توان گفت که متغیر تصادفی موضوع مورد مطالعه است.
مثلاً در بررسی وزن دانش آموزان یک کلاس متغیر تصادفی وزن است.
متغیر تصادفی:
1. کمی : قابل اندازه گیری یا شمارشی ( مانند وزن و تعداد)
الف- کمی پیوسته: قابل اندازه گیری (مانند وزن)
ب- کمی گسسته: قابل شمارش (مانند تعداد)
1. کیفی: قابل شمارش و اندازه گیری نیست( مانند گروه خونی و رنگ)
الف- کیفی ترتیبی: متغیر تصادفی خروجی مرتب دارد ( مانند مراحل سنی)
ب- کیفی اسمی: متغیر تصادفی خروجی مرتب ندارد ( مانند رنگ خودروها)
دقت کنید سطح سواد ( بی سواد- کم سواد- باسواد- تحصیلکرده) و مراحل سنی ( نوزاد- کودک- نوجوان- جوان- میانسال- پیر) کیفی ترتیبی محسوب می شوند.
دقت کنید که سن متغیر تصادفی کمی پیوسته است ولی مراحل سنی متغیر تصادفی کیفی ترتیبی است.
در این مرحله می خواهیم داده های گردآوری شده را دسته بندی کرده سپس در قالب جداول و نمودارهایی مناسب آنها را ارائه کنیم.
1. دسته بندی داده ها:
الف- دامنه تغییرات : حداکثر و حداقل داده ها را مشخص می کنیم. دامنه تغییرات داده ها که آن را با R نمایش می دهیم برابر است با تفاضل این دو مقدار:
ب- دسته ها: ابتدا تعداد دسته ها را مشخص می کنیم. (معمولاً تعداد دسته ها برابر پنج است) سپس دسته ها را مشخص می کنیم.
( که در این رابطه C = طول هر دسته و n = تعداد دسته ها است)
مثلاً اگر بخواهیم نمرات دانش آموزان یک کلاس در درس آمار را دسته بندی کنیم داریم:
ج- نشان دسته: نشان یا مرکز دسته برابر است با وسط هر دسته مثلاً اگر ابتدای دسته i ام ai و انتهای این دسته ai+1 باشد نشان یا مرکز دسته برابر است با:
بعد از این که تعداد و حدود دستهد ها را مشخص کرده نوبت به رسم جدول فراوانی می رسد.
فرض کنید نمرات دانش آموزان یک کلاس در درس آمار بصورت:
باشد . در این صورت جدول زیر تعداد نمرات هر دسته را نشان می دهد:
نکته : فراوانی تجمعی صعودی است و فراوانی تجمعی دسته اول برابر فراوانی آن دسته و فراوانی تجمعی دسته آخر برابر است با تعداد کل داده ها.
نمودارها:
برای ارائه بهتر داده ها می خواهیم نمودار آن ها را رسم کنیم. در اینجا انواع نمودار را بررسی می کنیم:
1. نمودار میله ای: برای محور افقی مرکز دسته را مشخص می کنیم و بر ارتفاع فراوانی روی آن میله ای رسم می کنیم.
2.نمودار مستطیلی (هیستوگرام) : روی محور افقی حدود دسته ها را مشخص کرده بر ارتفاع فراوانی مستطیلی رسم می کنیم.
3. چند بر فراوانی: روی محور افقی مرکز دسته ها و در امتداد محور قائم فراوانی مطلق دسته متناظر را مشخص می کنیم. سپس دو دسته با فروانی صفر بر ابتدا و انتهای نمودار اضافه می کنیم و نقاط حاصل را بر هم وصل می کنیم. به این ترتیب مساحت زیر چند بر فراوانی برابر مساحت نمودار مستطیلی خواهد بود.
4. نمودار تجمعی: این نمودار منحصراً برای فراوانی تجمعی بکار می رود. روی محور افقی حدود دسته ها را مشخص کرده به ارتفاع فراوانی دسته مستطیلی رسم می کنیم. این نمودارها صوری هستند.
البته می توان نمودار تجمعی را به صورت میله ای یا چند بر فراوانی نیز رسم کرد.
5. نمودار دایره ای : دایره را بر قطاعهایی تقسیم می کنیم که زاویه هر قطاع متناسب با فراوانی هر دسته است.
نمودار تجمعی جدول قبل:
6. نمودار ساقه و برگ :
در واقع نمودار ساقه و برگ یک نحوه وارد کردن اطلاعات است. به جدول زیر دقت کنید:
در بعضی جداول خط جدا کننده ساقه و برگ وجود ندارد و بجای آن از کلید استفاده می شود. به جدول زیر دقت کنید:
این کلید نشان می دهد که ساقه یک رقمی و برگ یک رقمی است. مثلاً اگر کلید به صورت 232=2 23 بود می فهمیدیم که ساقه دو رقمی و برگ یک رقمی است و نحوه خواندن کاملاً تغییر می کرد.
کاربرد آمار در سایر علوم
آمار کاربردهای گوناگونی دارد و روزبه روز هم بر کاربردهای آن افزوده می شود. برخی از علومی که آمار به صورت تخصصی در آنها نقش بازی می کند، عبارتند از:
* علوم بیمه: تعیین نرخ های مرگ ومیر، طراحی طرح های بازنشستگی، اندازه گیری اثرات برنامه های مربوط به کنترل و پیشگیری از مخاطرات، تناسب و توازن منابع و مصارف و یا تعیین نرخ حق بیمه های مختلف و غیره.
* کشاورزی: توسعه گونه های جدید و مقاوم تری از غلات، افزایش تولید شیر و تخم مرغ، ارزیابی اثرات و خطرات بالقوه سموم آفت های گیاهی و حشره کش ها و غیره.
* زیست شناسی: مطالعه سیر تکامل، مدل بندی رشد، بررسی اثرات متقابل گونه های مختلف و محیط اطرافشان و غیره.
* علوم رایانه: ارزیابی الگوریتم ها بر اساس مدل های تصادفی، ارزیابی سیستم های صف در مصارف کامپیوتری (به خصوص در خدمات مربوط به خطوط دیتا در انتقال اطلاعات و شبکه های کامپیوتری)، استخراج اطلاعات از مجموعه داده های بزرگ و غیره.
* حسابداری و تجارت: برآورد حجم خرده فروشی، طراحی سیستم های کنترل مالی، تولید روش های محاسباتی و حسابداری و غیره.
* اقتصاد: اندازه گیری و محاسبه شاخص های مختلف مانند تورم، حجم تجارت، حجم نیروی کار فعال، نیروی کار بالقوه، استانداردهای زندگی، برآوردهای کوتاه و بلندمدت از شاخص های اقتصادی و غیره.
* مهندسی: بهبود کیفیت محصولات و آزمون عملکرد آنها، برآورد اعتماد و سیستم ها و اجزای آنها، طراحی الگوریتم هایی به منظور تشخیص و شناسایی خودکار و غیره.
* مالی: مدل بندی و مدیریت مخاطرات مالی، ارزش گذاری و...
* جنگلداری و منابع آبزیان: برآورد جمعیت گونه های مختلف حیوانات و ماهی ها، مدیریت و تخصیص منابع طبیعی و غیره.
* پزشکی و سلامت: بررسی، تولید و توسعه داروهای جدید، ارزیابی و بهبود برنامه های پیشگیری و درمان سرطان ها، تعیین عوامل ژنتیکی بیماری ها و سرطان ها، ارزیابی عوامل خطر محیطی برای بیماری های مختلف و غیره.
* حقوق: ارزیابی شواهد و بررسی مدارک.
* مدیریت: نیازسنجی های گوناگون در زمینه نیروی کار، آموزش، امکانات و تجهیزات، ارزیابی بهره وری، ارزیابی بازارهای مختلف، ارزیابی رضایت کارکنان، مشتریان و غیره.
* روان شناسی: اندازه گیری توانایی های آموزش، هوش و ویژگی های شخصیتی، مطالعه رفتارهای نرمال و غیر نرمال و غیره.
* کنترل کیفیت: ارزیابی کیفیت با استفاده از نمونه گیری، کنترل فرآیندها، طراحی آزمایش ها در توسعه محصولات و غیره.
* جامعه شناسی: آزمون نظریه های مختلف درباره سیستم های اجتماعی، طراحی و انجام بررسی های نمونه ای به منظور مطالعه عادت و رفتار اجتماعی، توصیف و تفسیر تفاوت های بین فرهنگ ها و غیره.
منابع
در این تحقیق از جستجوی در اینترنت، تحلیل در مطالب یافت شده و در نهایت تدوین و تنظیم مطالب استفاده شده است.