چاپ و نشر کتاب علمی- آموزشی- فرهنگی- کودک و نوجوان

چاپ و نشر کتاب علمی- آموزشی- فرهنگی- کودک و نوجوان

انتشارو چاپ کتاب با کمترین هزینه
چاپ و نشر کتاب علمی- آموزشی- فرهنگی- کودک و نوجوان

چاپ و نشر کتاب علمی- آموزشی- فرهنگی- کودک و نوجوان

انتشارو چاپ کتاب با کمترین هزینه

مفاهیم اساسی در آمار

    

آمار در دو شاخه آمار توصیفی و احتمالات و آمار استنباطی بحث و بررسی می شود. احتمالات و تئوریهای احتمال اساسا از دایره بحث ما خارج است. همچنین آمار توصیفی مانند فراوانی، میانگین، واریانس و نیز مفروض در نظر گرفته شده اند.

۱- آمار استنباطی و آمار توصیفی

در یک پژوهش جهت بررسی و توصیف ویژگیهای عمومی پاسخ دهندگان از روش های موجود در آمار توصیفی مانند جداول توزیع فراوانی، در صد فراوانی، درصد فراوانی تجمعی و میانگین استفاده میگردد. بنابراین هدف آمار توصیفی یا descriptive محاسبه پارامترهای جامعه با استفاده از سرشماری تمامی عناصر جامعه است.

در آمار استنباطی یا inferential پژوهشگر با استفاده مقادیر نمونه آماره ها را محاسبه کرده و سپس با کمک تخمین و یا آزمون فرض آماری، آماره ها را به پارامترهای جامعه تعمیم می دهد.برای تجزیه و تحلیل داده ها و آزمون فرضیه های پژوهش از روش های آمار استنباطی استفاده می شود.

پارامتر شاخص بدست آمده از جامعه آماری با استفاده از سرشماری است و شاخص بدست آمده از یک نمونه n تائی از جامعه آماره نامیده می شود. برای مثال میانگین جامعه یا µ یک پارامتر مهم جامعه است. چون میانگین جامعه همیشه در دسترس نیست به همین خاطر از میانگین نمونه یا که آماره برآورد کننده پارامتر µ است در بسیاری موارد استفاده می شود.

۲- آزمون آماری و تخمین آماری

در یک مقاله پژوهشی یا یک پایان نامه باید سوال پژوهش یا فرضیه پژوهش مطرح شود. اگر تحقیق از نوع سوالی و صرفا حاوی پرسش درباره پارامتر باشد، برای پاسخ به سوالات از تخمین آماری استفاده می شود و اگر حاوی فرضیه ها بوده و از مرحله سوال گذر کرده باشد، آزمون فرضیه ها و فنون آماری آن به کار می رود.

هر نوع تخمین یا آزمون فرض آماری با تعیین صحیح آماره پژوهش شروع می شود. سپس باید توزیع آماره مشخص شود. براساس توزیع آماره آزمون با استفاده از داده های بدست آمده از نمونه محاسبه شده آماره آزمون محاسبه می شود. سپس مقدار بحرانی با توجه به سطح خطا و نوع توزیع از جداول مندرج در پیوست های کتاب آماری محاسبه می شود. در نهایت با مقایسه آماره محاسبه شده و مقدار بحرانی سوال یا فرضیه تحقیق بررسی و نتایج تحلیل می شود. در ادامه این بحث موشکافی می شود.

۳- آزمون های آماری پارامتریک و ناپارامتریک

آمار پارامتریک مستلزم پیش فرضهائی در مورد جامعه ای که از آن نمونه گیری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پارامترک فرض می شود که توزیع جامعه نرمال است اما آمار ناپارامتریک مستلزم هیچگونه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات علوم انسانی که با مقیاس های کیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک استفاده می کنند.

فنون آمار پارامتریک شدیداً تحت تاثیر مقیاس سنجش متغیرها و توزیع آماری جامعه است. اگر متغیرها از نوع اسمی و ترتیبی بوده حتما از روشهای ناپارامتریک استفاده می شود. اگر متغیرها از نوع فاصله ای و نسبی باشند در صورتیکه فرض شود توزیع آماری جامعه نرمال یا بهنجار است از روشهای پارامتریک استفاده می شود در غیراینصورت از روشهای ناپارامتریک استفاده می شود.

۳- خلاصه آزمونهای پارامتریک

آزمون t تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود. در بیشتر پژوهش هائی که با مقیاس لیکرت انجام می شوند جهت بررسی فرضیه های پژوهش و تحلیل سوالات تخصصی مربوط به آنها از این آزمون استفاده می شود.

آزمون t وابسته : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود. برای مثال اختلاف میانگین رضایت کارکنان یک سازمان قبل و بعد از تغییر مدیریت یا زمانی که نمرات یک کلاس با پیش آزمون و پس آزمون سنجش می شود.

آزمون t دو نمونه مستقل: جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t برای دو نمونه مستقل فرض می شود واریانس دو جامعه برابر است. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t ولچ: این آزمون نیز مانند آزمون t دو نمونه جهت مقایسه میانگین دو جامعه استفاده می شود. در آزمون t ولچ فرض می شود واریانس دو جامعه برابر نیست. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس جنسیت در خصوص هر یک از فرضیه های پژوهش استفاده میشود.

آزمون t هتلینگ : برای مقایسه چند میانگین از دو جامعه استفاده می شود. یعنی دو جامعه براساس میانگین چندین صفت مقایسه شوند.

تحلیل واریانس (ANOVA): از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. برای نمونه جهت بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس سن یا تحصیلات در خصوص هر یک از فرضیه های پژوهش استفاده می شود.

تحلیل واریانس چندعاملی (MANOVA): از این آزمون به منظور بررسی اختلاف چند میانگین از چند جامعه آماری استفاده می شود.

تحلیل کوواریانس چندعاملی (MANCOVA): چنانچه در MANOVA بخواهیم اثر یک یا چند متغیر کمکی را حذف کنیم استفاده می شود.

۵-  خلاصه آزمونهای ناپارامتریک

آزمون علامت تک نمونه : برای آزمون فرض پیرامون میانگین یک جامعه استفاده می شود.

آزمون علامت زوجی : برای آزمون فرض پیرامون دو میانگین از یک جامعه استفاده می شود.

ویلکاکسون : همان آزمون علامت زوجی است که در آن اختلاف نسبی تفاوت از میانگین لحاظ می شود.

من-ویتنی: به آزمون U نیز موسوم است و جهت مقایسه میانگین دو جامعه استفاده می شود.

کروسکال-والیس: از این آزمون به منظور بررسی اختلاف میانگین چند جامعه آماری استفاده می شود. به آزمون H نیز موسوم است و تعمیم آزمون U مان-ویتنی می باشد. آزمون کروسکال-والیس معادل روش پارامتریک آنالیز واریانس تک عاملی است.

فریدمن: این آزمون معادل روش پارامتریک آنالیز واریانس دو عاملی است که در آن k تیمار به صورت تصادفی به n بلوک تخصیص داده شده اند.

کولموگروف-اسمیرنف : نوعی آزمون نیکوئی برازش برای مقایسه یک توزیع نظری با توزیع مشاهده شده است.

آزمون تقارن توزیع : در این آزمون شکل توزیع مورد سوال قرار می گیرد. فرض بدیل آن است که توزیع متقارن نیست.

آزمون میانه : جهت مقایسه میانه دو جامعه استفاده می شود و برای k جامعه نیز قابل تعمیم است.

مک نمار : برای بررسی مشاهدات زوجی درباره متغیرهای دو ارزشی استفاده می شود.

آزمون Q کوکران: تعمیم آزمون مک نمار در k نمونه وابسته است.

ضریب همبستگی اسپیرمن: برای محاسبه همبستگی دو مجموعه داده که به صورت ترتیبی قرار دارند استفاده می شود.

منبع: http://spss-amar.vcp.ir


 

کدام آزمون آماری برای تحقیق ما مناسب است؟

کاشانی ۱۱:۰۷ ق.ظ ۰

شاخه های مختلف علوم برای تجزیه و تحلیل داده ها از روش های مختلفی مانند روش های ذیل استفاده می نمایند:

الف) روش تحلیل محتوا

ب) روش تحلیل آماری

ج) روش تحلیل ریاضی

د) روش اقتصاد سنجی

ه) روش ارزشیابی اقتصادی

و)

تمرکز این نوشتار بر روش های تجزیه و تحلیل سیستمهای اقتصادی اجتماعی و بویژه روش های تحلیل آماری می باشد.

آمار علم طبقه بندی اطلاعات، علم تصمیم گیری های علمی و منطقی، علم برنامه ریزی های دقیق و علم توصیف و بیان آن چیزی است که از مشاهدات می توان فهمید.

هدف ما آموزش درس آمار نیست زیرا اینگونه مطالب تخصصی را میتوان در مراجع مختلف یافت، هدف اصلی ما ارائه یک روش دستیابی سریع به بهترین روش آماری می باشد.

یکی از مشکلات عمومی در تحقبقات میدانی انتخاب روش تحلیل آماری مناسب و یا به عبارتی انتخاب آزمون آماری مناسب برای بررسی سوالات یا فرضیات تحقیق می باشد.

در آزمون های آماری هدف تعیین این موضوع است که آیا داده های نمونه شواهد کافی برای رد یک حدس یا فرضیه را دارند یا خیر؟

انتخاب نادرست آزمون آماری موجب خدشه دار شدن نتایج تحقیق می شود.

دکتر غلامرضا جندقی استاد یار دانشگاه تهران در مقاله ای کاربرد انواع آزمون های آماری را با توجه به نوع داده ها و وبژگی های نمونه آماری و نوع تحلیل نشان داده است که در این بخش به نکات کلیدی آن اشاره می شود:

قبل از انتخاب یک آزمون آماری بایستی به سوالات زیر پاسخ داد:

۱- چه تعداد متغیر مورد بررسی قرار می گیرد؟

۲- چند گروه مفایسه می شوند؟

۳- آیا توزیع ویژگی مورد بررسی در جامعه نرمال است؟

۴- آیا گروه های مورد بررسی مستقل هستند؟

۵- سوال یا فرضیه تحقیق چیست؟

۶- آیا داده ها پیوسته، رتبه ای و یا مقوله ای Categorical هستند؟

قبل از ادامه این مبحث لازم است مفهوم چند واژه آماری را یاد آور شوم که زیاد وقت گیر نیست.

۱- جامعه آماری: به مجموعه کاملی از افراد یا اشیاء یا اجزاء که حداقل در یک صفت مورد علاقه مشترک باشند ،گفته می شود.

۲- نمونه آماری: نمونه بخشی از یک جامعة آماری تحت بررسی است که با روشی که از پیش تعیین شده است انتخاب می‌شود، به قسمی که می‌توان از این بخش، استنباطهایی دربارة کل جامعه بدست آورد.

۳- پارامتر و آماره: پارامتر یک ویژگی جامعه است در حالی که آماره یک ویژگی نمونه است. برای مثال میانگین جامعه یک پارامتر است. حال اگر از جامعه نمونه‌گیری کنیم و میانگین نمونه را بدست آوریم، این میانگین یک آماره است.

۴- برآورد و آزمون فرض: برآوردیابی و آزمون فرض دو روشی هستند که برای استنباط درمورد پارامترهای مجهول دو جمعیت به کار می روند.

۵- متغیر: ویژگی یا خاصیت یک فرد، شئ و یا موقعیت است که شامل یک سری از مقادیر با دسته بندیهای متناسب است. قد، وزن، گروه خونی و جنس نمونه هایی از متغیر هستند. انواع متغیر می تواند کمی و کیفی باشد.

۶- داده های کمی مانند قد، وزن یا سن درجه بندی می شوند و به همین دلیل قابل اندازه گیری می باشند. داده های کمی نیز خود به دو دسته دیگر تقسیم می شوند:

الف: داده های فاصله ای (Interval data)

ب: داده های نسبتی (Ratio data)

7- داده های فاصله ای: به عنوان مثال داده هایی که متغیر IQ (ضریب هوشی) را در پنج نفر توصیف می کنند عبارتند از: ۸۰، ۱۱۰، ۷۵، ۹۷ و ۱۱۷، چون این داده ها عدد هستند پس داده های ما کمی اند اما می دانیم که  IQ نمی تواند صفر باشد و صفر در اینجا فقط مبنایی است تا سایر مقادیر  IQ در فاصله ای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.

۸- داده های نسبتی: داده های نسبتی داده هایی هستند که با عدد نوشته می شوند اما صفر آنها واقعی است. اکثریت داده های کمی این گونه اند و حقیقتاً دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حسب سانتی متر را توصیف می کنند عبارتند از: ۲۰، ۱۵، ۳۵، ۸ و ۲۳، چون این داده ها عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعاً وجود دارد این داده نسبتی تلقی می شوند.

۹- داده های کیفی مانند جنس، گروه خونی یا ملیت فقط دارای نوع هستند و قابل بیان با استفاده از واحد خاصی نیستند. داده های کیفی خود به دو دسته دیگر تقسیم می شوند:

الف: داده های اسمی  (Nominal data)

ب: داده های رتبه ای  (Ordinal data)

10- داده های رتبه ای Ordinal: مانند کیفیت درسی یک دانش آموز (ضعیف، متوسط و قوی) و یا رتبه بندی هتل ها ( یک ستاره، دو ستاره و )

۱۱- داده های اسمی (nominal ) که مربوط به متغیر یا خواص کیفی مانند جنس یا گروه خونی است و بیانگر عضویت در یک گروها category  خاص می باشد. (داده مقوله ای)

۱۲- متغیر تصادفی گسسته و پیوسته: به عنوان مثال تعداد تصادفات جاده‌ای در روز یک متغیر تصادفی گسسته است ولی انتخاب یک نقطه‌ به تصادف روی دایره‌ای به مرکز مبدأ مختصات و شعاع ۳ یک متغیر تصادفی پیوسته است.

۱۳- گروه: یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و یا دو و یا بیشتر مورد بررسی قرار گیرد. نکته ۱: دو گروه می تواند وابسته و یا مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از وقوع یک عامل سنجیده شود. مثلا میزان رضایت شغلی کارکنان قبل و بعد از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها در یک گروه با گروه دیگر همسان شود.

۱۴- جامعه نرمال: جامعه ای است که از توزیع نرمال تبعیت می کند.

۱۵- توزیع نرمال: یکی از مهمترین توزیع ها در نظریه احتمال است. و کاربردهای بسیاری در علوم دارد.

فرمول این توزیع بر حسب دو پارامتر امید ریاضی و واریانس بیان می شود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عمودی متقارن می باشد، نیمی از مساحت زیر منحنی بالای مقدار متوسط و نیمه دیگر در پایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختصات نزدیک می شویم احتمال وقوع بیشتر می شود.

سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنقدر زیاد است که دانشمندان اغلب برای مدل کردن متغیرهای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنند. به عنوان  مثال در یک امتحان درسی نمرات دانش آموزان اغلب اطراف میانگین بیشتر می باشد و هر چه به سمت نمرات بالا یا پایین پیش برویم تعداد افرادی که این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با یک توزیع نرمال مدل کرد.

اگر یک توزیع نرمال باشد مطابق قضیه چی بی شف ۲۶٫۶۸ % مشاهدات در فاصله میانگین، مثبت و منفی یک انحراف معیار قرار دارد. و  ۴۴٫۹۵ % مشاهدات در فاصله میانگین، مثبت و منفی دو انحراف معیار قرار دارد. و ۷۳٫۹۹ % مشاهدات در فاصله میانگین، مثبت و منفی سه انحراف معیار قرار دارد.

نکته ۱: واضح است که داده های رتبه ای دارای توزیع نرمال نمی باشند.

نکته ۲: وقتی داده ها کمی هستند و تعداد نمونه نیز کم است تشخیص نرمال بودن داده ها توسط آزمون کولموگروف اسمیرنف مشکل خواهد شد.

 ۱۶- آزمون پارامتریک: آزمون های پارامتریک، آزمون های هستند که توان آماری بالا و قدرت پرداختن به داده  های جمع آوری شده در طرح  های پیچیده را دارند. در این آزمون ها داده ها توزیع نرمال دارند. (مانند آزمون تی).

۱۷- آزمون های غیرپارامتری: آزمون هائی می باشند که داده ها توزیع غیر نرمال داشته و در مقایسه با آزمون های پارامتری از توان تشخیصی کمتری برخوردارند.  (مانند آزمون من ویتنی و آزمون کروسکال و والیس)

نکته۳: اگر جامعه نرمال باشد از آزمون های پارامتریک و چنانچه غیر نرمال باشد از آزمون های غیر پارامتری استفاده می نمائیم.

نکته ۴: اگر نمونه بزرگ باشد، طبق قضیه حد مرکزی جتی اگر جامعه نرمال نباشد می توان از آزمون های پارامتریک استفاده نمود.

حال به کمک جدول زیر براحتی می توانید یکی از ۲۴ آزمون مورد نظر خود را انتخاب کنید:

هدف

داده کمی و دارای توزیع نرمال

داده رتبه ای و یا داده کمی غیر نرمال

داده های کیفی اسمی
Categorical

توصیف یک گروه

آزمون میانگین و انحراف معیار

آزمون میانه

آزمون نسبت

مقایسه یک گروه با یک مقدار فرضی

آزمون یک نمونه ای

آزمون ویلکاکسون

آزمون خی دو یا آزمون دو جمله ای

مقابسه دو گروه مستقل

آزمون برای نمونه های مستقل

آزمون من ویتنی

آزمون دقیق فیشر ( آزمون خی دو برای نمونه های بزرگ)

مقایسه دو گروه وابسته

آزمون زوجی

آزمون کروسکال

آزمون مک نار

مقایسه سه گروه یا بیشتر (مستقل)

آزمون آنالیز واریانس یک راهه

آزمون والیس

آزمون خی دو

مقایسه سه گروه یا بیشتر (وابسته)

آزمون آنالیز واریانس با اندازه های مکرر

آزمون فریدمن

آزمون کوکران

اندازه همبستگی بین دو متغیر

آزمون ضریب همبستگی پیرسون

آزمون ضریب همبستگی اسپرمن

آزمون ضریب توافق

پیش بینی یک متغیر بر اساس یک یا چند متغیر

آزمون رگرسیون ساده یا غیر خطی

آزمون رگرسیون نا پارامتریک

آزمون رگرسیون لجستیک

در رویکردی دیگر بر مبنای تعداد متغیر، تعداد گروه و نرمال بودن جامعه نیز می توان به الگوریتم آزمون آماری مورد نظر دست یافت:

یک متغیر:

انتخاب آزمون آماری برای یک متغیر

یک متغیر در یک گروه

یک متغیر در دو گروه

یک متغیر در سه گروه یا بیشتر

متغیر نرمال

آزمون میانگین و انحراف معیار

آزمون تی

آزمون آنالیز واریانس ANOVA

متغیر غیر نرمال

آزمون نسبت (دو جمله ای)

آزمون خی -دو

آزمون ناپارامتریک

دو متغیر

انتخاب آزمون آماری برای دو متغیر

هر دو متغیر پیوسته هستند

یک متغیر پیوسته و دیگری گسسته است

هر دو متغیر مقوله ای هستند


آزمون همبستگی

آزمون آنالیز واریانس ANOVA

آزمون خی دو

سه متغیر و بیشتر:

انتخاب آزمون آماری برای سه متغیر و بیشتر

یک گروه

دو گروه و بیشتر


آنالیز کواریانس

تحلیل ممیزی


آنالیز واریانس با اندازه های مکرر

آنالیز واریانس چند متغیره


تحلیل عاملی

و

رگرسیون چند گانه


قابل ذکر است قبل از ورود به الگوریتم انتخاب آزمون آماری بهتر است به سوالات زیر پاسخ دهیم:

۱- آیا اختلافی بین میانگین (نسبت) یک ویژگی در دو یا چند گروه وجود دارد؟

۲- آیا دو متغیر ارتباط دارند؟

۳- چگونه می توان یک متغیر را با استفاده از متغیر های دیگر پیش بینی کرد؟

۴- چه چیزی می توان با استفاده از نمونه در مورد جامعه گفت؟

پس از انتخاب آزمون آماری مناسب حال می توان با هر یک از آزمون ها به صورت تخصصی برخورد کرد:

آزمون کی دو (خی دو یا مربع کای) 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای اسمی به کار می‌رود. این آزمون تنها راه حل موجود برای آزمون همقوارگی در مورد متغیرهای مقیاس اسمی با بیش از دو مقوله است، بنابراین کاربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حساس است.

آزمون  z  -  آزمون خطای استاندارد میانگین

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و یکسان نبودن (Goodness of fit) میانگین نمونه ای و میانگین جامعه به کار می رود. این آزمون مواقعی به کار می رود که می خواهیم بدانیم آیا میانگین برآورد شده نمونه ای با میانگین جامعه جور می آید یا نه.  اگر این تفاوت کم باشد، این تفاوت معلول تغییر پذیری نمونه ای شناخته می شود، ولی اگر زیاد باشد نتیجه گرفته می شود که برآورد نمونه ای با پارامتر جامعه یکسان (همقواره) نیست.  این آزمون پارامتری است یعنی استفاده از آن مشروط به آن است که دو پارامتر جامعه که میانگین و انحراف معیار معلوم باشند. همچنین برای آزمون متغیرهای پیوسته (مقیاس فاصله ای) کاربرد دارد. تعداد نمونه بزرگتر  و یا مساوی ۳۰  باشد و نیز توزیع متغیر در جامعه نرمال باشد.

آزمون استیودنت t

این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونه ای با میانگین جامعه در حالتی به کار می رود که انحراف معیار جامعه مجهول باشد. چون توزیع t  در مورد نمونه های کوچک (کمتر از ۳۰) با استفاده از درجات آزادی تعدیل می‌شود، می‌توان از این آزمون برای نمونه های بسیار کوچک استفاده نمود. همچنین این آزمون مواقعی که خطای استاندارد جامعه نامعلوم و خطای استاندارد نمونه معلوم باشد، کاربرد دارد.

برای به کاربردن این آزمون، متغیر مورد مطالعه باید در مقیاس فاصله ای باشد، شکل توزیع آن نرمال و تعداد نمونه کمتر از ۳۰ باشد.

آزمون t در حالتهای زیر کاربرد دارد:

- مقایسه یک عدد فرضی با میانگین جامعه نمونه

- مقایسه میانگین دو جامعه

- مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده

- مقایسه دو نسبت از دو جامعه

آزمون F

این آزمون تعمیم یافته آزمون t است و برای ارزیابی یکسان بودن یا یکسان نبودن دو جامعه و یا چند جامعه به کار برده می‌شود. در این آزمون واریانس کل جامعه به عوامل اولیه آن تجزیه می‌شود. به همین دلیل به آن آزمون آنالیز واریانس (ANOVA) نیز می‌گویند.

وقتی بخواهیم بجای دو جامعه، همقوارگی چند جامعه را تواما با هم مقایسه نماییم از این آزمون استفاده می‌شود، چون مقایسه میانگین های چند جامعه با آزمون t  بسیار مشکل است.  مقایسه میانگین ها و همقوارگی چند جامعه بوسیله این آزمون (F   یا ANOVA) راحت تر از آزمون t  امکان پذیر است.

آزمون کوکران 

آزمون کوکران تعمیم یافته آزمون مک نمار است. این آزمون برای مقایسه بیش از دو گروه که وابسته باشند و مقیاس آنها اسمی یا رتبه ای باشند به کار می‌رود و همچون آزمون مک نمار، جوابها باید دوتایی باشند.

برای آزمون تغییرات یک نمونه در زمان ها و یا موقعیت های مختلف (مثل آراء رای دهندگان قبل از انتخابات در زمانهای مختلف) به کار می‌رود. مقیاس می‌تواند اسمی یا رتبه ای باشد. به جای چند سوال می‌توان یک سوال را در موقعیت های مختلف ارزیابی نمود. همه افراد باید به همه سوالات پاسخ گفته باشند. چون پاسخ ها دو جوابی است، در بعضی از انواع تحقیقات ممکن است اطلاعات بدست آمده از دست برود و بهتر است از رتبه بندی استفاده کرد که در این صورت «آزمون ویلکاکسون» بهتر جوابگو خواهد بود.

در صورت کوچک بودن نمونه ها آزمون کوکران مناسب نیست و بهتر است از «آزمون فرید من» استفاده شود.

آزمون فریدمن 

این آزمون برای مقایسه چند گروه از نظر میانگین رتبه های آنهاست و معلوم می‌کند که آیا این گروه ها می‌توانند از یک جامعه باشند یا نه؟

مقیاس در این آزمون باید حداقل رتبه ای باشد. این آزمون متناظر غیر پارامتری آزمون F است و معمولا در مقیاس های رتبه ای به جای F به کار می‌رود و جانشین آن می‌شود (چون در F باید همگنی واریانس ها وجود داشته باشد که در مقیاسهای رتبه ای کمتر رعایت می‌شود).

آزمون فریدمن برای تجریه واریانس دو طرفه (برای داده های غیر پارامتری) از طریق رتبه بندی به کار می‌رود و نیز برای مقایسه میانگین رتبه بندی گروه های مختلف. تعداد افراد در نمونه ها باید یکسان باشند که این از معایب این آزمون است. نمونه ها باید همگی جور شده باشند.

آزمون کالماگورف- اسمیرانف 

این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای رتبه ای در دو نمونه (مستقل و یا غیر مستقل) و یا همقوارگی توزیع یک نمونه با توزیعی که برای جامعه فرض شده است، به کار می‌رود (اسمیرانف یک نمونه ای). این آزمون در مواردی به کار می‌رود که متغیرها رتبه ای باشند و توزیع متغیر رتبه ای را در جامعه بتوان مشخص نمود. این آزمون از طریق مقایسه توزیع فراوانی های نسبی مشاهده شده در نمونه  با توزیع فراوانی های نسبی جامعه  انجام می‌گیرد. این آزمون ناپارامتری است و بدون توزیع است اما باید توزیع متغیر در جامعه برای هر یک از رتبه های مقیاس رتبه ای در جامعه بطور نسبی در نظر گرفته شود که آنرا نسبت مورد انتظار می نامند.

آزمون کالماگورف- اسمیرانف دو نمونه ای Two- Sample Kalmogorov- Smiranov Test

این آزمون در مواقعی به کار می‌رود که دو نمونه داشته باشیم (با شرایط مربوط به این آزمون که قبلا گفته شد) و بخواهیم همقوارگی بین آن دو نمونه را با هم مقایسه کنیم.

آزمون کروسکال- والیس

این آزمون متناظر غیر پارامتری آزمون F  است و همچون آزمون F ، موقعی به کار برده می‌شود که تعداد گروه ها بیش از ۲ باشد. مقیاس اندازه گیری در کروسکال والیس حداقل باید ترتیبی باشد.

این آزمون برای مقایسه میانگین های بیش از ۲ نمونه رتبه ای (و یا فاصله ای) بکار می‌رود. فرضیات در این آزمون بدون جهت است یعنی فقط تفاوت را نشان می‌دهد و جهت بزرگتر یا کوچکتر بودن گروه ها را از نظر میانگین هایشان نشان نمی دهد. کارایی این آزمون ۹۵ درصد آزمون F است.

آزمون مک نمار

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته بر حسب  متغیر دو جوابی استفاده می‌شود. متغیرها می‌توانند دارای مقیاس های اسمی و یا رتبه ای باشند. این آزمون در طرح های ماقبل و مابعد می‌تواند مورد استفاده قرار گیرد (یک نمونه در دو موقعیت مختلف). این آزمون مخصوصا برای سنجش میزان تاثیر عملکرد تدابیر به کار می‌رود.

ویژگی ها: اگر متغیرها اسمی باشند، این آزمون بی بدیل است اما اگر رتبه ای باشد می‌توان از آزمون t نیز استفاده کرد (در صورت وجود شرایط آزمون t) ، و یا آزمون ویلکاکسون استفاده نمود. از عیوب این آزمون این است که جهت و اندازه تغییرات را محاسبه نمی‌کند و فقط وجود تغییرات را در نمونه ها در نظر می‌گیرد.

آزمون میانه

این آزمون همتای ناپارامتری آزمون های t – Z – F  است و وقتی دو یا چند گروه از میان دو یا چند جامعه مستقل با توزیع های یکسان انتخاب شده اند به کار برده می‌شود. در این آزمون مقیاس اندازه گیری ترتیبی است و بین داده ها نباید همرتبه وجود داشته باشد. این آزمون، هم برای گروه های مستقل و هم وابسته کاربرد دارد و لزومی ندارد که حتما حجم گروه های نمونه با یکدیگر برابر باشند.

آزمون تک نمونه ای دورها 

این آزمون مواقعی به کار می‌رود که توالی مقادیر متغیرها را بخواهیم آزمون نماییم که آیا تصادفی بوده و یا نه. در واقع آزمون کی دو و یا آزمون های دیگر که در آنها توالی متغیرها بی اهمیت است، در این آزمون مهم و اصل انگاشته می‌شود. به عبارت دیگر، برای اینکه بتوانیم در یک نمونه که در آن رویدادهای مختلف از طرف فرد و یا واحد آماری رخ داده است، آزمون نماییم که آیا این رویدادها تصادفی است یا نه، به کار برده می‌شود. هیچ آزمون دیگری همچون این آزمون نمی تواند توالی را مورد نظر قرار دهد. بنابراین برای این منظور منحصر به فرد می‌باشد.

آزمون علامت

این آزمون از انواع آزمونهای غیر پارامتری است و هنگامی به کار برده می‌شود که نمونه های جفت، مورد نظر باشد (مثل زن و شوهر و یا خانه های فرد و زوج و . . . ). زیرا در این آزمون یافته‌ها به صورت جفت جفت بررسی می‌شوند و اندازه مقادیر در آن بی اثر است و فقط علامت مثبت و منفی و یا در واقع جهت پاسخ ها و یا بیشتر و کمتر بودن پاسخ های جفت‌های گروه مورد تحقیق (نمونه آماری) در نظر گرفته می‌شود.

هنگامی که ارزشیابی متغیر مورد مطالعه با روشهای عادی قابل اندازه گیری نباشد و قضاوت در مورد نمونه های آماری (که به صورت جفت ها هستند) فقط با علامت بیشتر (+) و کمتر (-) مورد نظر باشد ، از این آزمون می‌توان استفاده کرد. شکل توزیع می‌تواند نرمال و یا غیر نرمال باشد و یا از یک جامعه و یا دو جامعه باشند (مستقل و یا وابسته). توزیع باید پیوسته باشد. این آزمون فقط تفاوت های زوجها را مورد بررسی قرار می‌دهد و در صورت مساوی بودن نظرات هر زوج (مشابه بودن) آنها را از آزمون حذف می‌کند. چون مقادیر در این آزمون نقشی ندارند، شدت و ضعف و اندازه بیشتر یا کمتر بودن نظرات پاسخگویان (جفت ها) در این آزمون بی اثر است و در واقع نقص این آزمون حساب می‌شود.

آزمون تی هتلینگ (T)

آزمون T هتلینگ تعمیم یافته t استیودنت است. در آزمون t یک نمونه ای، میانگین یک صفت از یک نمونه، با یک عدد فرضی که میانگین آن صفت از جامعه فرض می‌شد، مورد مقایسه قرار می‌گرفت، اما در T  هتلینگ K متغیر (صفت) از آن جامعه (نمونه های جامعه) با k  عدد فرضی، مورد مقایسه قرار می‌گیرند. در واقع این آزمون از نوع آزمونهای چند متغیره است که همقوارگی (Goodness of fit) را بین صفت های مختلف از جامعه بدست می‌دهد. در T  هتلینگ دو نمونه ای نیز همچون T استیودنت دو نمونه ای، مقایسه دو نمونه است اما در این آزمون K صفت از یک جامعه (نمونه) با K صفت از جامعه دیگر (نمونه دیگر) مورد مقایسه قرار می‌گیرد.

آزمون مان وایتنی U  

هر گاه دو نمونه مستقل از جامعه ای مفروض باشد و متغیرهای آنها به صورت ترتیبی باشند، از این آزمون استفاده می‌شود. این آزمون مشابه t استیودنت با دو نمونه مستقل است و آزمون ناپارامتری آن محسوب می‌شود.

منبع: http://isigroup.ir/tag

هرگاه شرایط استفاده از آزمونهای پارامتری در متغیرها موجود نباشد، یعنی متغیرها پیوسته و نرمال نباشند از این آزمون استفاده می‌شود. دو نمونه باید مستقل بوده و هر دو کوچکتر از ۱۰ مورد باشند. در صورت بزرگتر بودن از ۱۰ مورد باید از آماره های ‌‌Z  استفاده کرد (در محاسبات کامپیوتری، تبدیل به Z  به طور خودکار انجام می‌شود). در این آزمون شکل توزیع، پیش فرضی ندارد یعنی می‌تواند نرمال و یا غیر نرمال باشد.

آزمون ویلکاکسون  

این آزمون از آزمونهای ناپارامتری است که برای ارزیابی همانندی دو نمونه وابسته با مقیاس رتبه ای به کار می‌رود. همچون آزمون مک نمار، این آزمون نیز مناسب طرح های ماقبل و مابعد است (یک نمونه در دو موقعیت مختلف)، و یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت میان رتبه ها را در نظر می‌گیرد بنابراین متغیرها می‌توانند دارای جوابهای متفاوت و یا فاصله ای باشند. این آزمون متناظر با آزمون t دو نمونه ای وابسته است و در صورت وجود نداشتن شرایط آزمون t جانشین خوبی برای آن است. نمونه های به کار برده شده در این آزمون باید نسبت به سایر صفت هایشان جور شده (جفت شده) باشند.

آزمون لون Levene

آزمون لون همگنی واریانس ها را در نمونه های متفاوت بررسی می نماید. به عبارتی فرض تساوی متغیر وابسته را برای گروه هائی که توسط عامل رسته ای تعیین شده اند، آزمون می کند و نسبت به اکثر آزمونها کمتر به فرض نرمال بودن وابسته بوده و در واقع به انحراف نرمال مقاوم است.

این آزمون در نظر می گیرد که واریانس جمعیت آماری در نمونه های مختلف برابر است. فرض صفر همگن بودن واریانس ها می باشد یعنی واریانس جمعیت ها با هم برابر است و اگر مقدار P-VALUE در اماره لون کمتر از ۰٫۰۵ باشد تفاوت بدست آمده در واریانس نمونه بعید است که بر اساس روش نمونه گیری تصادفی رخ داده باشد. بنابراین فرض صفر که برابری واریانس ها می باشد رد می شود و به این نتیجه می رسیم که که بین واریانس ها در نمونه تفاوت وجود دارد.

 منبع: http://isigroup.ir


 

کاربرد آمار در داده کاوی

کاشانی ۹:۱۵ ب.ظ ۲

همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرد. علم امروز نسبت به دیروز جدیدتر است. روشهای جدید علمی در پی کشف محدودیت های روشهای قدیمی ایجاد می شود و از آنجایی که روشهای آماری جزء روشهای قدیمی Data mining محسوب می شوند، از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند. داشتن فرض اولیه در مورد داده ها، یکی از این موارد است. در اینجا به تشریح بیشتر تفاوت های بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.

تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی، ارزشیابی خوب و داده های دقیق (تمیز) (clean data) خوب عمل می کنند، همچنین این موارد در جاهای یکسان برای انواع یکسانی از مسایل (پیش گویی، کلاس بندی و کشف) استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ما آنچنان که علاقه مند بکاربردن روشهای داده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد. اول اینکه روشهای کلاسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند، این روشها با اطلاعات کمتر بهتر می توانند کار کنند و همچنین اینکه برای داده ها وسیع کابرد دارند.

در جایی دیگر اینگونه بیان شده که داده های جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند، از قبیل اینکه مشخصه ها باید مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرضها می تواند مشکلات بزرگی ایجاد کند. زمانی که یک کاربر (تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند.

در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین  (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.

به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.

بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.

روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise  وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف  noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.

در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت به دیگر روشهای Data mining ارائه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.

مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است. هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

تفاوتهای کلی روشهای آماری و دیگر روشهای Data mining  در جدول اریه شده است :

روشهای آماری

دیگر روشهای Data mining

داشتن فرض اولیه

بدون فرض اولیه

تنها برای داده های  عددی کاربرد دارند

در انواع مختلفی از داده ها کاربرد دارند نه فقط داده های عددی

در محدوده کوچکی از داده ها

در محدوده وسیع تری از داده ها

حذفnoise ها ، داده های نامشخص ووفیلتر کردن dirty data

Data mining به دادهای درست clean data بستگی دارند

روشهای رگرسیون و استفاده از معادلات

استفاده از شبکه عصبی

استفاده از چارتهای دو بعدی و سه بعدی

استفاده ازData visualization

استفاده از روابط ریاضی

استفاده از روشهای یادگیری ماشین و هوش مصنوعی

در  descriptive statisticalوcluster   analysis  کاربرد دارد.

در یادگیری غیر نظارتی کاربرد بیشتر دارد

همچنین می توان گفت که در DM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.

تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.

با ارایه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمار وDM  می پردازیم .

کاربردهای روشهای آماری

Data  mining   معمولا  وظایف یا به  عبارت بهتر استراتژهای  زیر را  در  داده ها بکار  می برد :

 - توضیح و تفسیر (description)

- تخمینestimation)  )

- پیش بینیprediction)  )

- کلاس بندیclassification) )

- خوشه سازی  (clustering)

- وابسته سازی وایجاد رابطه (association)

در جدول زیر  استراتژی ها  و روشهای هر استراتژی مشخص شده است :

روشها

استراتژیها

تحلیل  داده ها

توضیح  وتفسیر

تحلیل های آماری

تخمین

تحلیل های آماری

پیش بینی

الگوریتم نزدیک ترین همسایه

کلاس بندی

درخت  تصمیم

کلاس بندی

شبکه های عصبی

کلاس بندی

خوشه سازی  k-mean

خوشه سازی

شبکه های kohonen

خوشه سازی

وابسته سازی  و ایجاد رابطه

رابطه سازی

البته باید  گفت که روشهای data mining  تنها  به یک استراتژی خاص محدود  نمی شوندو  نتایج  یک را همپوشانی بین روشها نشان  می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف در نظرگرفته شود‏ بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف dataminig  آشنایی پیدا کردیم در نظر گرفته می شود.

همانگونه که ازجدول پیداست روشهای آماری  در مباحث تخمین و پیش بینی کاربرد دارند. در تحلیل آماری تخمین و پیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین و تست فرضیات درباره جمعیتی از ویژگیها براساس اطلاعات حاصل از نمونه است .یک  جمعیت شامل مجموعه ای از عناصر از قبیل افراد، ایتم ها، یا داده ها یی که دریک مطالعه خاص آمده است. بنابراین در اینجا به توضیح این  دواستراتژی می پردازیم.

۱- تخمین

در تخمین به دنبال این هستیم  که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسائل تخمین بیشتر عددی هستند تا قیاسی. بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند. مثلا موارد بلی،خیر به ۰ و۱ تبدیل می شود.

تکنیکهای نظارتی DM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو را. یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.

روشهای آماری مورد استفاده دراین مورد بطورکلی شامل تخمین نقطه و فاصله اطمینان میباشد. تحلیل های آماری تخمین و تحلیل های یک متغیره و از این جمله  می باشند.

در توضیح اینکه چرا به سراغ تخمین می رویم باید گفت که مقدار واقعی پارامترها برای ما ناشناخته است.مثلا مقدار واقعی میانگین یک جامعه مشخص نیست. داده ها ممکن است که بطور رضایت بخشی جمع آوری نشده باشد‏ یا به  عبارتی warehouse نشده باشد. به همین دلیل تحلیل گران از تخمین استفاده میکنند.

در خیلی از موارد تعیین میانگین مجموعه ای از داده ها برای ما مهم است.مثلا میانگین نمرات درسی یک کلاس،میانگین تعداد نفراتی که در یک روز به بانک مراجعه می کنند،متوسط مقدار پولی که افراد دریک  شعبه خاص از بانک واریز می کنند و موارد این چنینی.

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم، آن پارامتر را تخمین زده ایم و به مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم. در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ها  است که به ترتیب برآورد واریانس و میانگین جامعه هستند. خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی، ناسازگاری، بسندگی و هستند، که هر یک به بیان ویژگی خاصی از آنها می پردازند و میزان توانایی آنها را در تخمین درست و دقیق یک پارامتر تعیین می کنند.

در مواردی نیز تخمین فاصله برای ما اهمیت دارد. فاصله اطمینان شامل فاصله ای است که  با درصدی از اطمینان می توانیم بگوییم که مقدار یک  پارامتر درون این فاصله قرار می گیرد. به عبارت دیگر اگر چه برآورد نقطه ای طریقه متداول توصیف برآورد هاست اما درباره آن، جا برای پرسشهای زیادی باقی است. مثلا برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطلاعات مبتنی است و چیزی درباره خطا بیان نمی کند. بنابراین می توانیم که برآورد  پارامتر  را  با بعلاوه کردن اندازه کردن اندازه نمونه و مقدار واریانس  ،یا اطلاعات دیگری درباره توزیع نمونه گیری  کامل کنیم.این کار ما را قادر می سازد که اندازه ممکن خطا را برآورد کنیم.

۲- پیش بینی( prediction )

هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند و هم قیاسی. این استراتژی در بین استراتژی های data mining از اهمیت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد. خیلی از تکنیکهای نظارتی  data mining که برای کلاس بندی و تخمین مناسب هستند در واقع کار پیش بینی انجام می دهند.

آنچه از کتابهای آماری و data minig تحت عنوان پیش بینی برمی آید رگرسیون و مباحث  مر بوط به آن است . در واقع در اکثر این کتابها هدف اصلی از انجام تحلیل های آماری برای داده  کاوی، رگرسیون  داده  هاست و این بعنوان وظیفه اصلی متد های آماری معرفی می شود.

اهداف تحلیل  رگرسیون

با انجام رگرسیون می خواهیم اهداف زیر را دنبال کنیم :

۱-  بدست آوردن رفتار متغییر y توسط متغییر x ،یعنی اینکه متغیر y  با تغییر x  در نمونه ها چه رفتاری را از خود نشان می دهد. مثلا در نمونه ای این رفتار خطی  است یا اینکه شکل منحنی خواهد داشت.

 ۲- پیش بینی  بر اساس داده ها  برای نمونه های آینده، که هدف اصلی در داده کاوی از طریق متدهای آماری است. مثلا از روی اطلاعاتی مثل داشتن کارت اعتباری یک فرد جدید، نوع جنسیت او، سن فرد و میزان درآمد سالیانه او بتوان حدس زد که این فرد از بیمه عمر استفاده می کند یا خیر. و یا اینکه با داشتن اطلاعات در مورد داشتن یا نداشتن کارت اعتباری و  بیمه عمر و سن فرد بتوان جنسیت فرد را تعیین کرد.

 ۳- استنباط استنتاجی یا تحلیل حساسیت، تعیین اینکه اگر x  به اندازه خاصی تعییر کند y  تا چه اندازه تغییر خواهد کرد. هدف از فهمیدن اینکه چگونه تغییرات y  تابعی از x است. باید توجه داشت که نوع تغییرات مدل رگرسیونی خاصی را می دهد.

اهداف مدلسازی برای تشریح ارتباط بین x و y  استفاده از نتایج مدل برای پیش بینی کاربردهای تخمین عبارت است. اما استنباط استنتاجی یک مقوله ظریف تری است. زمانی که به استنباط آماری فکر میکنیم در واقع درباره متغییر رفتاری و متغییر های کنترل فکر می کنیم.

متغییرهای رفتاری مشخصه هایی را ارایه میکنندکه تبحروتجربه خاصی دارندیا اینکه قابلیت آن نبحر را دارند.مثلا مقدار دز دارو که برای بیمار استفاده می شود در تجربه پزشکی .همچینین متغییرهای کنترل دیگر ویژگی  ها در یک محیط آزمایشی را اندازه میگیرند،از قبیل وزن بیمار که قبل از رفتار اندازه گیری می شود.

اگر ما برای یکی از متغییر های رفتاری، کنترل انجام دهیم، رگرسیون ما احتمالا استنباط های استنتاجی را درست حدس میزند.و اگر ما علاقه مند به هر دو مورد پیش بینی انتخاب سهم وتخمین اثرات علتها باشیم  تایید هر دومورد را بعنوان متغییرهای خروجی که همپوشانی دارند در نظر می گیریم.

روشهای مختلف رگرسیون برای داده کاوی وجود دارد .رگرسیون  خطی بیشترین کاربردرا دارد وهمچنین مشتقات آن حایزاهمییت است.یک نمونه از آن مشتقات آن رگرسیون  خطی سلسله  مراتبی یا رگرسیون چند سطحی است. این روش یکی از ابزارهای تحلیل دادههای پیچیده از قبیل افزایش فر کانس در تحقیقات مقداری را شامل می شود.مدلهای رگرسیون چند سطحی برای حالتهایی که همپوشانی در سطوح مختلف وجود دارد مفید است. برای مثال اطلاعات آموزشی ممکن است اطلاعاتی از قبیل اطلاعات فردی دانش آموزان (نام، نام خانوادگی و در کل پیش زمینه خانوادگی)،اطلاعات سطح  کلاس از قبیل ویژگی های معلم وهمچینین اطلاعات درباره مدرسه همانند سیاست آموزشی و باشد. حالت دیگر مد لهای چند سطحی ،تحلیل  دادههای بدست آمده از نمونه های خوشه بندی شده است. یک خانواده از مدلهای رگرسیون، به عنوان متغییرهای شاخص بری رتبه بندی یا خوشه بندی است علاوه بر اینکه همپوشانی را اندازه می گیرد. با نمونه خوشه بندی  شده مدلسازی چند سطحی برای توسعه نمونه هایی که داخل خوشه نیستند،لازم است.

در روش رگرسیون چند سطحی  یا سلسله مراتبی محدودیتی برای تعداد سطوح تغییر که می تواند انجام شود،وجود نداردروشهای بیزی در تخمین پارامترهای مجهول کمک می کند،هرچند که محاسبات  پیچیده ای دارد.ساده ترین توسعه از رگرسیون همپوشانی مجموعه ای از متغیرهای شاخص برای کلاس بندی نمونه های آموزشی یا رتبه بندی وخوشه بندی درنمونه های داده  شده است.همچنین به عنوان  توسعه رگرسیون خطی  در  نظر گرفته می شود،که در ادامه به توضیح آن می پردازیم[ :

 

۱- رگرسیون خطی(Linear regression)

یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.

در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.

روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیر مستقل مدل کنیم . حالت کلی معادله آن به این صورت است :

(۱)                                             f(x1+x2++xn)=a1x1+a2 x2++an xn+b

که xها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت    (۲) y=ax+b   است که در اینجا  yمتغیر وابسته است به حالت ساده شده معادله ۱(یعنی معادله۲)  shope-intercept fromمی گویند.

یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است  که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند {(xi,yi),i=1,2,…,n} داده شده باشد، برآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانندa,bهستند که به ا زای آنها کمیت مینیمم است .

بنابر این در حالت ساده اگر یک نمونه n تایی داشته داشته باشیم مقادیر a,bرا از طریق روابط زیر برآورد می کنیم :

مزیت رگرسیون خطی این است که فهمیدن و کار با آن ساده است در حالت کلی برای استراتژی و پیش بینی مناسب است. با بکار بردن این روش از نتایج خروجی می توان دریافت که این روش مناسب بوده یا خیر . بنابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان به نتایج خروجی اطمینان کرد یا خیر.

آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین میزان همبسته بودن داده ها به یکدیگر است.با مشخص کردن میزان همبسته بودن داده های متغیرهای ورودی و خروجی می توان دریافت که رگرسیون خطی برای انجام داده کاوی مناسب است یا خیر، بنابراین ضریب همبستگی و برآوردهای آن در بسیاری از پژوهشهای آماری اهمیت دارند. شرایطی که وقتی چند متغیر پیشگوxi)) با یکدیگر هم پوشانی دارند،این هم پوشانی منجر نااستواری و تزلزل  در فضای جواب می شود،همچنین منجر به نتایج بی ارتباط(بی ربط) می شود.حتی اگر از این تزلزل اجتناب شود هم پوشانی بین متغیرهایی که میزان بین متغیرهایی همبستگی آنها زیاد است ،منجر به تاکید کردن روی بخش خاصی از مدل می شود.

بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند، نباید با هم در تعیین ارزش متغیر خروجی بکار برده شوند.

۲- رگرسیون لجیستسک(Logistic Regression)

این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binary هستند،مورد توجه قرار می گیرد. در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به  حالتهای ۰ و۱تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت    binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.

در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد. به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت، باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.

با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.

داده های زیر را وارد Excel کرده و ضرایب متغیر ها و مقدار ثابت  bرا توسط تابع  LINESTبدست می آوریم. داده ها و نتایج به این صورت می باشد :

Computed probability

Life insurance promotion

age

sex

Credit card insurance

income

instance

0.007

0

45

1

0

40

1

0.987

1

40

0

0

30

2

0.024

0

42

1

0

40

3

1.000

1

43

1

1

30

4

0.999

1

38

0

0

50

5

0.049

0

55

0

0

20

6

1.000

1

35

1

1

30

7

0.584

0

27

1

0

20

8

0.005

0

43

1

0

30

9

0.981

1

41

0

0

30

10

0.985

1

43

0

0

40

11

0.380

1

29

1

0

20

12

0.999

1

39

0

1

50

13

این مثال ۴ مشخصه ورودی و یک مشخصه خروجی دارد که ضرایب متغیرهای ورودی در زیر محاسبه شده است :

ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691

با این معادله می توان نتایج life insuranee promotion بدست آ ورد ، که همانطور که در جدول فوق نشان داده شده نتایج محاسبه شده با متغیر وابسته هم خوانی زیادی دارد. حال اگر نمونه جدیدی به این صورت داشته باشیم :

In cone=35k       credit card Insuranee=1    sex=0   age=39

با محاسبات احتمال بدست آمده برابر ۰٫۹۹۹ می باشد. که این فرد یک کاندیدا را برای بیمه عمرLife(Insuranee promotion می باشد. حالت دیگر اینکه نمونه جدید به صورت :

Ineome=35k        credit card  Insuran =0     sex=1   age=39

باشد در این حالت مقدار احتما لی بدست آمده برابر ۰٫۰۳۵ است که نشان می دهد یک مرد ۳۹ ساله که در آمد سالیانه او ۳۵۰۰۰ است و بیمه کارت اعتباری ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.

۳-  Bayse classsifire

این مقدار یکی از روشهای ساده یادگیری نظارتی است، که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز اگر یکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.

Bayse classifier برخلاف اکثر روشهای آماری برای حالتی که مقدار دادهُ یک متغیر ورودی نامعلوم است نیز کاربرد دارد.

مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم ضرب می شوند کل احتمال صفر خواهد شد مثلاُ وقتی که  باشد مقدار احتمال خواهد شد،Bayes classifier برای رفع این مشکل به یک مقدار k به صورت کسر ضرب در یک احتمال p و یک مقدار  kبه مخرج اضافه می کند.

که  kمقداری بین صفر و یک دارد که معمولاُ مقدار یک می گیرد و نیز p بستگی به تعداد انتخابهای متغیر خروجی دارد مثلاُ اگر متغیر خروجی دو حالتی باشد(yes,No)،مقدار p برابر ۰٫۵ می باشد.

علاوه برا ین روش (Bayse chassifire) برای حالت Missing data نیز کاربرد دارد. یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداشته باشیم. در این روش این مشخصه را کلاُ حذف می شود.

منبع: http://statisticslu.blogfa.com

 

 

 


 

مفاهیم اساسی در داده کاوی

کاشانی ۹:۴۳ ق.ظ ۰

Bagging:

این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،‌یک رای گیری ساده انجام دهید. رده بندی نهایی ، رده بندی ای‌خواهد بود که درخت های مختلف آنرا پیش بینی کرده اند .

Boosting:
این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به کار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد .


Meta-Learning :
این مفهوم برای ترکیب پیش بینی‌های حاصل از چند مدل به کار می‌رود.و هنگامی که انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی کرده اند.تجربه نشان می‌دهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.

http://fumblog.um.ac.ir


 

نرم افزار داده کاوی Weka

کاشانی ۱۰:۴۶ ق.ظ ۰

مقدمه
تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار می دهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی [۱] ، روشهای پیش پردازش [۲] داده ها، واسطهای کاربر پسند [۳] ، پلت فرم [۴] های سازگار برای اجرا،‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی می شود.


میزکار [۵] Weka ، مجموعه ای از الگوریتم ‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده ‏ها می‏ باشد. این نرم­افزار به گونه ای طراحی شده است که می‏ توان به سرعت، روش ‏های موجود را به صورت انعطاف پذیری روی مجموعه ‏های جدید داده، آزمایش نمود. این نرم افزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ‏های تجربی فراهم می‏ کند. این پشتیبانی‏ها، آماده سازی داده ‏های ورودی، ارزیابی آماری چارچوب ‏های یادگیری و نمایش گرافیکی داده ‏های ورودی و نتایج یادگیری را در بر می گیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم ‏های یادگیری، این نرم افزار شامل ابزارهای متنوع پیش پردازش داده هاست. این جعبه ابزار [۶] متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏ تواند روش ‏های متفاوت را در آن با یکدیگر مقایسه کند و روش ‏هایی را که برای مسایل مدنظر مناسب تر هستند، تشخیص دهد.


نرم افزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت “Waikato Environment for knowledge Analysis” استخراج گشته است. همچنین Weka ، نام پرنده ای با طبیعت جستجوگر است که پرواز نمی‏ کند و در نیوزلند، یافت می‏ شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر [۷] GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏ شود و نیز تحت سیستم عامل ‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی [۸] ، آزمایش شده است.
این نرم افزار، یک واسط همگون برای بسیاری از الگوریتم ‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش ‏های پیش پردازش، پس از پردازش [۹] و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده ‏ موجود، قابل اعمال است.


نرم افزار Weka ، پیاده سازی الگوریتم ‏های مختلف یادگیری را فراهم می‏ کند و به آسانی می‏ توان آنها را به مجموعه های داده خود اعمال کرد.


همچنین، این نرم افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه ‏های داده ‏ها، همانند الگوریتم ‏های گسسته سازی [۱۰] می‏ باشد. در این محیط می‏ توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته بندی حاصله و کارآیی اش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامه ای میسر است.)


این محیط، شامل روش ‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشه بندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏ باشد. با در نظر گرفتن اینکه، داده ‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده ‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم ‏ها، ورودی ‏های خود را به صورت یک جدول رابطه­ای [۱۱] به فرمت ARFF دریافت می‏ کنند. این فرمت داده ‏ها، می‏ تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه داده ای تولید گردد.
یکی از راه ‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏ باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی ‏هایی در مورد نمونه ‏های جدید است. سومین راه، اعمال یادگیرنده ‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏ باشد. روش ‏های یادگیری Classifier نامیده می‏ شوند و در واسط تعاملی [۱۲] Weka ، می‏ توان هر یک از آنها را از منو [۱۳] انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏ توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏­رود.
پیاده سازی ‏های چارچوب ‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏ کند. ابزارهایی که برای پیش پردازش داده ‏ها استفاده می‏ شوند. filter نامیده می‏ شوند. همانند classifier ‏ها، می‏ توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی ‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏ شود.


علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم ‏هایی برای یادگیری قواعد انجمنی، خوشه بندی داده ‏ها در جایی که هیچ دسته ای تعریف نشده است، و انتخاب ویژگی‏های مرتبط [۱۴] در داده ‏ها می‏ شود.
۲- روش استفاده از Weka


شکل ۱،‌ راههای انتخاب واسط های مختلف Weka را نشان می دهد.
آسان ترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم ‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، می‏ توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت ‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم ‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏ کند تا الگوریتم ‏های دیگر نیز آزمایش شوند.

http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image001.jpg

شکل ۱٫ Weka در وضعیت انتخاب واسط


این واسط با در اختیار گذاشتن گزینه ‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه ‏ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه ‏هایی به صورت فرم ‏های پرشدنی، کاربر را هدایت می‏ کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه ‏ها، ظاهر شده و اعمال لازم مربوطه را شرح می‏ دهد. پیش فرض ‏های معقول قرار داده شده، کاربر را قادر می‏ سازند تا با کمترین تلاشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می‏ دهد، بیندیشد.


Weka
دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏ دهد تا چنیش ‏هایی برای پردازش داده ‏های در جریان، طراحی کند. یک عیب پایه ای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏ کنیم، Explorer ، کل آن را، در حافظ باز می‏ کند) نشان می‏ دهد که Explorer ، صرفاً برای مسایل با اندازه ‏های کوچک تا متوسط، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم ‏های افزایشی است که می‏ تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏ دهد تا جعبه [۱۵] ‏های نمایانگر الگوریتم ‏های یادگیری و منابع داده ‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏ دهد تا جریان داده ای از مؤلفه ‏های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش ‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتم های یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده ‏ها به صورت افزایشی بار شده و پردازش خواهند شد.
سومین واسط Weka ، که Experimenter خوانده می‏ شود، کمک می‏ کند تا به این سؤال عملی و پایه ای کاربر حین استفاده از تکنیک ‏های رده‏بندی و رگرسیون، پاسخ دهد: “چه روش ‏ها و پارامترهایی برای مسأله داده شده، بهتر عمل می‏ کنند؟


عموماً راهی برای پاسخگویی مقدماتی به این سؤال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک ‏های گوناگون یادگیری بنماید. این کار، می‏ تواند به صورت تعاملی در Explorer انجام شود. با این وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده ‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه ‏های داده، جمع آوری آمار کارآیی و انجام آزمایش ‏های معنا، پردازش را خودکار می‏ کند. کاربرهای پیشرفته، می‏ توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین، استفاده کنند. در این روش، می‏ توان آزمایش ‏های آماری بزرگی را راه اندازی نموده و آنها را برای اجرا، رها نمود.


ورای این واسط ‏های تعاملی، عملکرد پایه ای Weka قرار دارد. توابع پایه ای Weka ، از طریق خط فرمان [۱۶] ‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏ شود، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.
اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏ کنند.
۳٫ قابلیتهای Weka


مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می‏ شود و دقیقاً ساختار آن را بیان می‏ کند، قابلیت مهمی است که حین استفاده از Weka وجوددارد.

نحوه استفاده از این مستندات و چگونگی تعیین پایه ‏های ساختمانی اصلی Weka ، مشخص کردن بخش ‏هایی که از روش ‏های یادگیری با سرپرست استفاده می‏ کند، ابزاری برای پیش پردازش داده ‏ها بکار می‏ رود و اینکه چه روش ‏هایی برای سایر برنامه ‏های یادگیری وجود دارد، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم ‏های موجود اکتفا می‏ شود زیرا Weka به طور پیوسته تکمیل می‏ شود و به طور خودکار از کد اصلی تولید می‏ شود. مستندات در لحظه همیشه به هنگام شده می‏ باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه ‏های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد بود.

در اغلب برنامه ‏های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرم افزاری نسبتاً بزرگی را شامل می‏ شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می‏ توان با برنامه نویسی اندکی به برنامه ‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم ‏های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم ‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل، اجرای الگوریتم ‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته ‏ها می‏ باشد. Weka دارای همه این مزیت ‏ها است. برای استفاده کامل از این ویژگی، باید با ساختارهای پایه ای داده ‏ها آشنا شد.


۴٫ دریافت Weka


نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏ توان نصب کننده [۱۷] متناسب با یک پلت فرم معین، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود [۱۸] نمود.
۵٫ مروری بر Explorer


واسط گرافیکی اصلی برای کاربران،‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم می آورد. شکل ۲،‌ نمای Explorer ‌ را نشان می دهد. در این واسط، شش پانل [۱۹] مختلف وجود دارد که از طریق نوار [۲۰] بالای صفحه قابل انتخاب هستند و با وظایف [۲۱] داده کاوی پشتیبانی شده توسط Weka ‌ متناظر می باشند.
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image002.jpg
شکل ۲٫ واسط گرافیکی Explorer
دو گزینه از شش گزینه بالای پنجره Explorer در شکل های ۳ و ۴ به طور خلاصه تشریح شده است.
به طور خلاصه، کارکرد تمام گزینه ‏ها به شرح ذیل است.
Preprocess :
انتخاب مجموعه داده و اصلاح [۲۲] آن از راه ‏های گوناگون
Classify :
آموزش [۲۳] برنامه ‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏ دهند و ارزیابی آنها.
Cluster :
یادگیری خوشه ‏ها برای مجموعه های داده
Associate :
یادگیری قواعد انجمنی برای داده ‏ها و ارزیابی آنها
Select attributes :
انتخاب مرتبط ترین جنبه [۲۴] ها در مجموعه های داده
Visualize :
مشاهده نمودارهای مختلف دوبعدی داده ‏ها و تعامل با آنها
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image003.jpg
شکل ۳٫ خواندن فایل داده های آب و هوا
Weka Exphorer
امکان رده بندی دارد، چنانچه به کاربران اجازه می‏ دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده ‏ها را نسبت به دو ویژگی انتخاب شده، فراهم می‏ آورد. وقتی زوج ویژگی­ای که رده ‏ها را به خوبی جدا می‏ کند، پیدا شد، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده ‏ها بر نمودار پراکندگی وجود دارد.

http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image004.jpg
شکل ۴٫ نوار Classify
هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم می کند. در پایین هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پیغام ‏هایی است که نشان می‏ دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد، جعبه status آن را گزارش می‏ دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏ آورد، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..
لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه [۲۵] در هر حال اجرا می‏ شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏ کند.
زمانیکه Weka در حال عملیات است، پرنده کوچکی که در پایین سمت راست پنجره است، بالا و پایین می‏ پرد. عدد پشت × نشان می‏ دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏ کند، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.
۱٫ خواندن و فیلتر کردن فایل ‏ها
در بالای پانل Preprocess در شکل ۳، دکمه ‏هایی برای باز کردن فایل، URL ‏ها و پایگاه های داده ‏ وجود دارد. در ابتدا تنها فایل ‏های با پسوند arff . در browser فایل نمایش داده می‏ شود. برای دیدن سایر فایل ‏ها یاید گزینه [۲۶] Format در جعبه انتخاب فایل تغییر داده شود.
۲٫ تبدیل فایل ‏ها به فرمت ARFF
نرم افزار Weka دارای سه مبدل فرمت فایل [۲۷] می‏ باشد، برای فایل ‏های صفحه گسترده [۲۸] با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه ‏های سری با پسوند bsi .
اگر Weka قادر به خواندن داده ‏ها نباشد، سعی می‏ کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل ۵ (الف) ظاهر می‏ شود.
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image005.jpg
(
الف)
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image006.jpg
(
ب)
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image007.jpg
(
ج)
شکل ۵٫ ویرایشگر عمومی اشیاء (الف) ویرایشگر (ب) اطلاعات بیشتر (فشردن دگمه More ) (ج) انتخاب یک مبدل
این، یک ویرایشگر عمومی [۲۹] اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏ رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏ شود، جعبه ای با نوع مشابه بکار برده می‏ شود. CSV Loader برای فایل ‏های با پسوند CSV . به طور پیش فرض انتخاب می‏ شود. دکمه More اطلاعات بیشتری در مورد آن می‏ دهد که در شکل ۵ (ب) نشان داده شده است.
همیشه مطالعه مستندات [۳۰] ارزشمنداست! در این حالت نشان می‏ دهد که ردیف نخست صفحه گسترده، نام ویژگی را تعیین می‏ کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل ۵ (ج) انتخاب انجام شود.
گزینه اول، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏ رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر، choose کلیک می‏ شود. سومین گزینه، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم ‏ها و دیگـری داده ‏های واقعـی می‏ باشد. چهارمین برای نمونه ‏های سریالی [۳۱] ، برای بازخوانی [۳۲] مجموعه داده ای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏ تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا [۳۳] ، سریع تر از فایل ARFF خوانده می‏ شود چرا که فایل ARFF باید تجزیه [۳۴] و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏ شود، ذخیره آن در این شکل سودمند است.
ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل ۵ (الف)، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است، به کار می رود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل ‏های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می‏ توان ترکیب اشیاء ایجاد شده را برای استفاده ‏های بعدی، ذخیره کرد.
تنها منبع [۳۵] مجموعه ‏های داده برای Weka ، فایل ‏های موجود روی کامپیوتر نیستند. می‏ توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده ‏ها را باز نمود ( open DB ـ هر پایگاه داده ای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسیله دستور select زبان SQL ، نمونه ‏‏ها را بازیابی نمود. داده ‏ها می‏ توانند به کمک دگمه save به همه فرمت ‏های ذکر شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه ‏های داده، پانل preprocess به کاربر اجازه فیلتر کردن داده ‏ها را می‏ دهد. فیلترها، اجزای مهم Weka هستند.
۳٫ بکارگیری فیلترها
با کلیک دگمه choose (گوشه بالا و سمت چپ) در شکل ۳ می‏ توان به لیستی از فیلترها دست یافت. می‏ توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏ توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.
۴٫ الگوریتم ‏های یادگیری
زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏ شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏ گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏­شوند. برای تغییر آنها می‏ توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء، باز شود. جدول شکل ۶، لیست اسامی رده بندهای Weka را نمایش می‏ دهد. این الگوریتم ‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش ‏های متفرقه تقسیم شده اند.
۴-۱٫ Trees
Decision stump
که برای استفاده توسط روش ‏های boosting طراحی شده است، برای مجموعه ‏های داده عددی یا رده ای، درخت تصمیم‏گیری یک سطحی می‏ سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏ دهد.
۴-۲٫ Rules
Decision Table
یک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏ سازد. این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته ‏های ویژگی‏‏ها را ارزیابی می‏ کند و می‏ تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد (۱۹۹۵، Kohavi ).
یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏­کند، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه ‏ها که توسط مدخل [۳۶] جدول تصمیم‏گیری پوشش داده نشده اند، استفاده شود.
Conjunctive Rule
قاعده ای را یاد می‏ گیرد که مقادیر رده ‏های عددی را رده ای را پیش‏بینی می‏ کند. نمونه ‏های آزمایشی به مقادیر پیش فرض رده نمونه ‏های آموزشی، منسوب می‏ شوند. سپس تقویت اطلاعات (برای رده ‏های رسمی)، یا کاهش واریانس (برای رده های عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته [۳۷] ، قواعد هرس می‏ شوند.
ZeroR
برای رده ‏های اسمی، اکثریت داده ‏های مورد آزمایش و برای رده ‏های عددی، میانگین آنها را پیش‏بینی می‏ کند. این الگوریتم بسیار ساده است.
M5Rules
، به کمک M5 از روی درخت ‏های مدل، قواعد رگرسیون استخراج می‏ کند.
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image008.jpg
شکل ۶٫الف. الگوریتمهای رده بندی در Weka
http://www.iust.ac.ir/files/rail/Dr_ataei/datamining/image009.jpg
شکل ۶٫ب. الگوریتمهای رده بندی در Weka
در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند، پرداخته می‏ شود.
۴-۳٫ Functions
Simple Linear Regresion
مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏ گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏ کند. در این الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند [۳۸] .
Linear Regression
رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏ دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می‏ تواند به صورت حریصانه [۳۹] با حذف عقب رونده [۴۰] انجام شود، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله ‏ها با ترتیب نزولی ضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.
Least Med sq
یک روش رگرسیون خطی مقاوم است که میانه [۴۱] (به جای میانگین [۴۲] ) مربعات انحراف از خط رگرسیون را کمینه می‏ کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه ‏هایی از نمونه ‏ها اعمال می‏­کند و نتایجی را بیرون می‏ دهد که کمترین خطای مربع میانه را دارند.
SMO teg
الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏ کند. ( Scholkopf, 1998 ، Smola )
Pace Regression
، با استفاده از تکنیک رگرسیون pace ، مدل ‏های رگرسیون خطی تولید می‏ کند (۲۰۰۲ ، Wang و Witten ). رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است، به طور ویژه ای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند، خوب عمل می‏ کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می‏ شود که با بی نهایت شدن تعداد ویژگی‏‏ها، الگوریتم بهینه عمل می‏ کند.
RBF Network
، یک شبکه با تابع پایه ای گوسی شعاعی را پیاده سازی می‏ کند. مراکز و عرض ‏های واحدهای مخفی به وسیله روش میانگین K [43] تعیین می‏ شود. سپس خروجی ‏های فراهم شده از لایه ‏های مخفی [۴۴] ، با استفاده از رگرسیون منطقی در مورد رده ‏های اسمی و رگرسیون خطی در مورد رده ‏های عددی، با یکدیگر ترکیب می‏ شوند. فعال سازی ‏های توابع پایه پیش از ورود به مدل ‏های خطی، با جمع شدن با عدد یک، نرمالیزه می‏ شوند. در این الگوریتم می‏ توان، K تعداد خوشه ‏ها، بیشترین تعداد تکرارهای رگرسیون ‏های منطقی برای مسأله ‏های رده ‏های رسمی، حداقل انحراف معیار خوشه ‏ها، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده ‏ها رسمی باشد، میانگین K به طور جداگانه به هر رده اعمال می‏ شود تا K خوشه مورد نظر برای هر رده استخراج گردد.
۴-۴٫ رده بندهای Lazy
یادیگرنده ‏های lazy نمونه ‏های آموزشی را ذخیره می‏ کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏ دهند.
IB1
یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیک ترین نمونه ‏های آموزشی به نمونه ‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین رده ای مشابه رده همان نمونه ‏های آموزشی را تخمین می‏ زند.
IBK
یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏ کند. تعداد نزدیکترین فاصله ‏ها (پیش فرض ۱= K ) می‏ تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی ‏های متعلق به پیش از یک همسایه می‏ تواند بر اساس فاصله آنها تا نمونه ‏های آزمایشی، وزن دار گردد.
دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شده اند. تعداد نمونه های آموزشی که به وسیله رده بند نگهداری می‏ شود، می‏ تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه ‏های جدید اضافه می‏ شوند، نمونه ‏های قدیمی حذف شده تا تعداد کل نمونه ‏های آموزشی در اندازه تعیین شده باقی بماند.
Kstar
، یک روش نزدیکترین همسایه است که از تابع فاصله ای عمومی شده بر اساس تبدیلات استفاده می‏ کند.
LWL
یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه، وزن ‏ها را نسبت می‏ دهد و از روی نمونه ‏های وزن دار شده، رده بند را می‏ سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏ شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون، انتخاب ‏های خوبی هستند. می‏­توان در این الگوریتم، تعداد همسایه ‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، یا گوسی) مشخص می‏ کند، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است.

 

 

 

 

تحلیل عاملی

admin ۱۲:۵۴ ب.ظ ۰

مقدمه

تحلیل عاملی نامی است عمومی برای برخی از روشهای چند متغیره که هدف اصلی آن خلاصه کردن داده هاست. این روش به بررسی همبستگی درونی تعداد زیادی از متغیرها می پردازد و در نهایت آنها را در قالب عاملهای عمومی محدودی دسته بندی کرده تبیین می کند. در این تکنیک تمام متغیرها به عنوان متغیر وابسته قرار می گیرد.

تحلیل عاملی روشی هم وابسته بوده که در آن کلیه متغیرها بطور همزمان مد نظر قرار می گیرد. در این تکنیک، هریک از متغیرها به عنوان یک متغیر وابسته لحاظ می گردد. قبل از پرداختن به این تکنیک آماری، لازم است برخی از مفاهیم کلیدی این روش معرفی گردند.

·        اشتراک[۱]: میزان واریانس مشترک بین یک متغیر با سایر متغیرهای بکار گرفته شده در تحلیل.

·        مقدار خاص[۲]:میزان وارایانس تبیین شده بوسیله هر عامل را بیان می کند. یکی از ضوابط پرکاربرد در تعیین تعداد عاملها ، مقدار ویژه است که آن را معیار راکد نیز می گویند در تحلیل عاملی مقدار ویژه برابر است ۱ می باشد ولی ما می توا نیم در بسته آماری این مقدار زیاد کنیم . در تحلیل عاملی مولفه های اصلی ان است که مقدار ویژه آنان بیشتر از ۱ باشد ولی این مقدار کمتر از ۱ باشد به عنوان عاملهایی است که از نظر آماری معنی دار نیست و باید از تحلیل کنار گذاشته شود .

·        عامل[۳]:عبارتست ترکیب خطی متغیرهای اصلی،که نشان دهنده خلاصه شده از متغیرهای مشاهده شده است.

·        بار عاملی[۴]: همبستگی بین متغیرهای اصلی و عوامل. اگر مقادیر بار عاملی مجذور شوند،نشان می دهند که چند درصد از واریانس در یک متغیر توسط آن عامل تبیین می شود.

·        ماتریس عاملی[۵]: جدولی است که بارهای عاملی کلیه متغیرها را در هر عامل نشان می دهد.

چرخش عاملی[۶]: فرآیندی است برای تعدیل محور عامل به منظود دستیابی به عاملهای معنی دار وساده. یکی از مفاهیم مهم در تحلیل عاملی ‏‏‏‏ چرخش[۷] عاملهاست. که این مفهوم دقیقا به همان معنا دلالت دارد که در فرآیند چرخش عاملی ، محورهای مختصات عاملها به دور مبدا چرخش داده است تا اینکه موقعبیت جدیدی را بدست بیاورد ما در اینجا دونوع چرخش داریم :

۱- چرخش متعامد[۸]

۲- متمایل[۹]

چرخش متعامد: عاملها مستقل از یکدیگر هستند.

متمایل: عاملها بایکدیگر همبستگی دارند. (کلانتری،۱۳۸۷: ۲۸۳)

تصمیم گیری در تحلیل عاملی

هدف اصلی تحلیل عاملی تلخیص تعداد زیادی از متغیرها در تعداد محدودی از عاملها می باشد، بطوریکه در این فرایند کمترین میزان گم شدن اطلاعات وجود داشته باشد. با توجه به هدف تحلیل عاملی محقق سوالاتی از خود می پرسد چه نوع متغیرهای باید در تحلیل به کار گرفته شود . در پاسخ به این سوال باید گفت که هر متغیری مرتبط با مسئله تحقیق را می توان در تحلیل به کار گرفت.

-         معنی داری ماتریس همبستگی

یکی از روشهای انتخاب متغیرهای مناسب برای تحلیل عاملی استفاده از ماتریس همبستگی است که اساس روش تحلیل عاملی برای انتخاب متغیرها به عاملهای متفاوت استفاده از همبستگی بین متغیرها اما از نوع غیر علی استوار است. البته آمارهای دیگری وجود دارد که محقق از طریق انها نیز قادر به تعیین و تشخیص مناسب بودن داده ها برای تحلیل عاملی می باشد از جمله این روشها آزمون  KMO[10] می باشد که مقدار آن همواره بین ۰و۱ می باشد و در صورتی که این مقدار کمتر از ۵۰/. باشد داده ها برای تحلیل عاملی مناسب نخواهد بود و اگر مقدار آن بین ۵۰/. تا۶۹/. درصد باشد می توان با احتیاط بیشتر می توان به تحلیل عاملی پرداخت. اما در صورتی که این مقدار بیشتر از ۷۰/.درصد باشد همبستگی موجود میان داده ها برای تحلیل داده ها مناسب خواهد بود.(دواس،۱۳۷۶: ۲۵۶)

و از سوی دیگر برای اطمینان از داده ها  برای تحلیل عاملی مبنی بر اینکه ماتریس همبستگی که پایه تحلیل عامل قرار می گیرد در جامعه برابر صفر است یا خیر باید از آزمون بارتلت[۱۱] استفاده کنیم . این آزمون معناداری تحلیل عاملی داده ها را می سنجد و اگر این مقدار کمتر از۰۵/. باشد داده ها با جامعه مورد معنی دار است.

-         حجم نمونه

در رابطه با حجم نمونه نیز باید تاکید کرد که تعداد حجم نمونه نباید کمتر از ۵۰ مورد باشد و ترجیحا حجم نمونه را به بیش از ۱۰۰ مورد افزایش داد. به عنوان قاعده کلی تعداد نمونه باید حدود چهار یا پنج برابر تعداد متغیرهای مورد استفاده باشد. که در این تحقیق حجم نمونه ۵۰ مورد می باشد.(سرمد و دیگران،۱۳۸۵: ۲۵۸)

-         انتخاب نوع ماتریس همبستگی

بعد از اطمینان داشتن به داده ها برای تحلیل عاملی، اولین تصمیم در بکارگیری تحلیل عاملی، محاسبه ماتریس همبستگی است. برای اینکار باید مشخص شود که آیا هدف،محاسبه همبستگی بین متغیرهاست یا بین پاسخگویان. اگر هدف تحقیق تلخیص متغیرها باشد در این صورت از همبستگی بین متغیرهامحاسبه شود که این روش یکی از تکنیک های عمومی و پرکاربرد در مطالعات می باشد که به تحلیل عاملی نوع R معرو ف است. اما تحلیل عاملی ممکن است برای ماتریس همبستگی بین پاسخگویان نیز بکار گرفته شود این نوع تحلیل را تحلیل نوع Q  می نامند . این نوع تحلیل عاملی شاید بدلیل مشکل بودن کمتر مورد استفاده قرار گیرد و بجای آن از روشهای نظیر تحلیل خوشه ای یا گروهبندی سلسله مراتبی برای طبقه بندی پاسخگویان یا موارد استفاده می شود.(کلانتری،۱۳۸۷: ۲۸۷) که در این تحقیق با توجه به هدف اصلی تحقیق، ماتریس همبستگی از نوع R  استفاده گردیده است.

-         انتخاب مدل عاملی

 در تحلیل عاملی مدلهای مختلفی وجود دارد که از میان آنها دو روش تحلیل مولفه های اصلی و تحلیل عاملی مشترک از پر کاربرد ترین این روشهاست. انتخاب هریک از مدلها به هدف محقق بستگی دارد.مدل تحلیل مولفه های اصلی زمانی مورد استفاده قرار می گیرد که هدف محقق تلخیص متغیرها و دستیابی به تعداد محدودی عامل برای اهداف پیش بینی شده باشد و در مقابل تحلیل عاملی مشترک زمانی بکار می رود که هدف شناسایی عاملها یا ابعادی باشد که به سادگی قابل شناسایی نیستند(کلانتری،۱۳۸۰: ۱۵۲).

-         روش استخراج عامل ها

علاوه بر انتخاب مدل تحلیل، محقق باید مشخص کند که عاملها چگونه باید استخراج شوند. برای استخراج عاملها دو روش وجود دارد. عاملهای متعامد و عاملهلای متمایل. در روش متعامد، عاملها به شیوه انتخاب می گردند که محورهای عاملی در حالت ۹۰ درجه قرار می گیرند و این بدین معناست که هر عامل، مستقل از سایر عاملها می باشد. بنابراین،همبستگی بین عاملها، بطورقراردادی صفر تعیین می گردد. مدل عاملی متمایل پیچیده تر از مدل عاملی متعامد می باشد. در واقع در این روش فرآیند تحلیلی کاملا رضایت بخش بدست نمی آید. در این روش عاملهای استخراج شده دارای همبستگی می باشند.انتخاب اینکه چرخش عاملها بر اساس متعامد و یا متمایل باشدباید بر اساس نیازهای محقق و مسئله تحقیق وجود دارد انجام گیرد.

-         انتخاب نهایی عامل ها

زمانیکه در خصوص ماتریس همبستگی، مدل عاملی و روش استخراج، تصمیم مناسب اتخاذ گردید، زمینه برای استخراج عاملهای اولیه چرخش نیافته فراهم می گردد. با بررسی ماتریس چرخش نیافته محقق می تواند به جستجوی روشهای تلخیص داده ها و تعیین عاملهای استخراجی بپردازد، اما تعیین نهایی تعداد عاملها پس از دستیابی به ماتریس عاملی چرخش یافته امکان پذیر می باشد.


 

فرمول کوکران و جدول مورگان برای تعیین حجم نمونه

کاشانی ۷:۳۵ ق.ظ ۱

برای تعیین حجم نمونه در تحقیقات از روشهای مختلفی استفاده می شود. دو روش متداول برای این کار استفاده از فرمول شارل کوکران و جدول مورگان است.

۱٫ روش شارل کوکران

به منظور تعیین حجم نمونه ساده ترین روش استفاده از فرمول کوکران می باشد.

در فرمول کوکران:

 

http://edis.ifas.ufl.edu/LyraEDISServlet?command=getScreenImage&oid=8625794

n= حجم نمونه
N = حجم جمعیت آماری (حجم جمعیت شهر, استان,و)
t  یا z = در صد خطای معیار ضریب اطمینان قابل قبول
p = نسبتی از جمعیت فاقد صفت معین (مثلا جمعیت مردان)
q=1-p  نسبتی از جمعیت فاقد صفت معین (مثلا جمعیت زنان)
e= درجه اطمینان یا دقت احتمالی مطلوب
طبق فرمول بالا اگر بخواهیم حجم نمونه را با شکاف جمعیتی ۵/۰ (یعنی نیمی از جمعیت حایز صفتی معین باشند . نیمی دیگر فاقد آن هستند.
معمولا
p و q را ۰٫۵ در نظر می گیریم. مقدار z معمولا ۱٫۹۶  است. d می تواند  ۰٫۰۱  یا  ۰٫۰۵  باشد.
در برخی از تحقیقات برای تصحیح حجم نمونه از فرمول تصحیح کوکران نیز در ادامه فرمول اصلی
   استفاده می شود.

 

2. روش جدول مورگان:

زمانی که نه از واریانس جامعه و نه از احتمال موفقیت یا عدم موفقیت متغیر اطلاع  دارید و نمی توان از فرمولهای آماری برای براورد حجم نمونه استفاده کرد از جدول مورگان استفاده می کنیم. این جدول حداکثر تعداد نمونه را می دهد.

S:حجم نمونه، N:حجم جامعه

N

S

N

S

N

S

N

S

N

S

10

10

100

80

280

162

800

260

2800

338

15

14

110

86

290

165

850

265

3000

341

20

19

120

92

300

169

900

269

3500

346

25

24

130

97

320

175

950

274

4000

351

30

28

140

103

340

181

1000

278

4500

351

35

32

150

108

360

186

1100

285

5000

357

40

36

160

113

380

181

1200

291

6000

361

45

40

180

118

400

196

1300

297

7000

364

50

44

190

123

420

201

1400

302

8000

367

55

48

200

127

440

205

1500

306

9000

368

60

52

210

132

460

210

1600

310

10000

373

65

56

220

136

480

214

1700

313

15000

375

70

59

230

140

500

217

1800

317

20000

377

75

63

240

144

550

225

1900

320

30000

379

80

66

250

148

600

234

2000

322

40000

380

85

70

260

152

650

242

2200

327

50000

381

90

73

270

155

700

248

2400

331

75000

382

95

76

270

159

750

256

2600

335

100000

384

 http://www.iranresearches.ir

 

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.