استفاده از داده کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد …

این معیار، روشی ساده برای توصیف کارایی الگوریتم روی یک مجموعهی داده، فراهم میکند. ولی در بعضی از مواقع، این معیار ممکن است فریبنده باشد. سادهترین موقعیت، زمانی است که مثلا ۵ درصد دادهها متعلق به یک رده و ۹۵ دیگر متعلق به ردهی دیگر باشند. در اینصورت حتی اگر ردهبند هیچیک از دادهها را به ردهی اول اختصاص نداده و تمام دادهها را متعلق به ردهی دوم معرفی کند، باز هم صحت الگوریتم ۹۵ درصد خواهد بود! ظاهر امر نشان میدهد که عملکرد الگوریتم بسیار عالی است درحالیکه هیچیک از دادههای ردهی اقلیت، تشخیص داده نشدهاند! حال فرض کنید وظیفهی ردهبند تشخیص دادن فرد بیمار به یکی از دستههای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه باشد. در این حالت، ردهبند با وجود اینکه هیچیک از افراد دارای بیماری مزمن انسدادی ریه را تشخیص نداده و تمام افراد را دارای بیماری پنومونی معرفی کرده است، از صحت بسیار بالایی نیز برخوردار است! بنابراین در صورتیکه دادهها نامتوازن باشند، صحت، معیار مناسبی برای ارزیابی کارایی الگوریتم نخواهد بود [۵۰, ۶۶, ۶۰].
ردیف اول ماتریس اغتشاش، بیانگر نمونههای مثبت[۷۲] و ردیف دوم آن بیانگر نمونههای منفی[۷۳] است. بنابراین تعداد نمونههای این دو ردیف، نمایندهی توزیع ردهها در مجموعهی داده بوده و هر معیاری که شامل مقادیری از هر دو ردیف باشد، نسبت به عدم توازن دادهها حساس خواهد بود. همانطور که میبینیم، معیار صحت شامل اطلاعاتی از هر دو ردیف است. بنابراین با تغییر توزیع دادهها، میزان کارایی تغییر خواهد کرد حتی اگر کارایی الگوریتم در تشخیص ردهها عملا تغییر نکرده باشد. در نتیجه چنانچه دادهها نامتوازن بوده و معیار مورد استفاده، نسبت به توزیع دادهها حساس باشد، تحلیل نتایج بسیار مشکل خواهد بود.
در چنین مسائلی بهجای استفاده از صحت، از معیارهای دیگری همچون بازخوانی[۷۴]، دقت[۷۵] و معیار[۷۶]F استفاده میشود. البته معیار دیگری نیز بهنام معیار [۷۷]G وجود دارد که در حقیقت میانگین هندسی معیار بازخوانی برای دو ردهی مثبت و منفی میباشد [۶۹, ۷۰, ۵۴].
این معیارها مطابق روابط (۳-۴) تا (۳-۷) محاسبه میشوند [۴۹, ۵۴].
(۳-۴)
(۳-۵)
(۳-۶)
(۳-۷)
معیار دقت، در حقیقت بیان میکند که از بین تمام نمونههایی که مثبت تشخیص داده شدهاند، چه تعداد از آنها بهدرستی تشخیص داده شدهاند. معیار بازخوانی که به آن معیار حساسیت نیز گفته میشود، بدین معناست که از بین تمام نمونههای متعلق به ردهی مثبت، چه تعداد از آنها بهدرستی تشخیص داده شدهاند. با نگاه سریع به روابط مربوط به معیارهای بازخوانی و دقت، متوجه میشویم که معیار دقت، نسبت به تغییر توزیع دادهها حساس است در حالیکه معیار بازخوانی اینطور نیست. درصورتیکه بخواهیم فقط بر معیار بازخوانی تکیه کنیم، دچار ابهام خواهیم شد چرا که این معیار هیچ اطلاعاتی در مورد تعداد نمونههایی که اشتباها بهعنوان نمونهی مثبت معرفی شدهاند، ارائه نمیدهد. بهطور مشابه، معیار دقت نیز مشخص نمیکند که از بین تمام نمونههای مثبت، چه تعداد از آنها بهدرستی ردهبندی نشدهاند. با این وجود، درصورتیکه از این دو معیار بهدرستی استفاده کنیم، بهخوبی خواهیم توانست کارایی ردهبند را در دادههای نامتوازن ارزیابی کنیم.
معیارF، دو معیار بازخوانی و دقت را با هم ترکیب کرده و معیاری جدید برای ارزیابی کارایی ردهبند، معرفی میکند. این معیار، در حقیقت میانگین موزون[۷۸] دو معیار بازخوانی و دقت میباشد [۷۱]. بنابراین معیارF، دید بهتری از کارایی ردهبند به ما میدهد [۴۹]. این معیار، مقادیری در بازهی(۰,۱) تولید میکند بهطوریکه مقدار بیشتر، بهمعنای کیفیت بهتر ردهبند میباشد. معیار G نیز مستقل از نحوهی توزیع دادهها بوده و برای استفاده در مسائل نامتوازن مناسب است اما این معیار نیز به تنهایی معیار ایدهآلی برای ارزیابی ردهبند نخواهد بود چرا که هیچ اطلاعاتی در مورد دقت ردهبند ارائه نمیدهد [۵۵]. بنابراین در صورت استفاده از این معیار، باید دقت ردهبند نیز بهصورت جداگانه محاسبه شده و مورد توجه قرار گیرد.
باتوجه به عدم توازن دادههای مورد استفاده در تحقیق، در اینجا نیز از معیارهای بازخوانی، دقت، معیارF و معیارG، برای ارزیابی ردهبندها استفاده میکنیم.
۳-۴٫ معیارهای ارزیابی ردهبند در دادههای نامتوازن و چندردهای
در بخش قبل، معیارهای ارزیابی مربوط به مسائل دو ردهای مورد بررسی قرار گرفت. اما برای ارزیابی ردهبند در مسائل چند ردهای چه باید کرد؟ یک رویکرد در رابطه با معیارهای ارزیابی مسائل نامتوازن و چند ردهای، این است که یک مسئلهی نامتوازن براساس ردهی اقلیت و اکثریت آن به یک مسئلهی دو ردهای تبدیل شده و از معیارهای متناسب با مسائل دو ردهای برای آن استفاده شود [۴۹, ۵۵, ۶۱]. در این روش، ردهی اقلیت بهعنوان ردهی مثبت و ردهی اکثریت بهعنوان ردهی منفی در نظر گرفته میشود. رویکرد دیگر، تعمیم معیارهای ارزیابی به مسائل چند ردهای است [۷۲, ۷۱, ۷۳]. در این بخش، معیارهای معرفی شده در بخش قبل را به مسائل چند ردهای تعمیم میدهیم.
برای مسئلهای با k رده، ماتریس اغتشاش، بهصورت یک ماتریس k×k خواهد بود که عناصر روی قطر اصلی، عناصری هستند که درست تشخیص داده شدهاند و مابقی اشتباه تشخیص داده شدهاند (مطابق جدول۳-۳).
جدول۳-۲: ماتریس اغتشاش برای مسائل چند ردهای
 
بنابراین صحت، برابر است با مجموع

دانلود کامل پایان نامه در سایت pifo.ir موجود است.

عناصر روی قطر اصلی تقسیم بر تعداد رکوردها [۷۲].
(۳-۸)
معیارهای بازخوانی، دقت و معیارF، برای هر رده مطابق روابط (۳-۹) تا (۳-۱۱) محاسبه میشوند [۷۲].
(۳-۹)
(۳-۱۰)
(۳-۱۱)
TPi، تعداد رکوردهایی است که بهدرستی متعلق به ردهی i تشخیص داده شدهاند. FPi، تعداد رکوردهایی است که متعلق به ردهی i نبودهاند اما ردهبند آنها را جز ردهی i تشخیص داده است. FNi، تعداد رکوردهایی است که متعلق به ردهی i بودهاند اما ردهبند، آنها را جز ردهی i تشخیص نداده است.
معیار G که در مسائل دو ردهای، میانگین هندسی معیار بازخوانی برای ردهی مثبت و منفی را محاسبه میکند، به سادگی میتواند به مسائل چند ردهای تعمیم یابد. برای مسائل چند ردهای، این معیار مطابق رابطهی (۳-۱۲) محاسبه میشود [۷۲].
(۳-۱۲)
معیارهای Ri، Pi و Fi، برای هر رده بهصورت جداگانه محاسبه میشوند. درصورتیکه بخواهیم این معیارها را برای کل مسئله محاسبه کنیم، دو روش میانگینگیری برای اینکار وجود دارد: میکرو و ماکرو که در ادامه به معرفی آنها خواهیم پرداخت. در این تحقیق، از روش میانگینگیری ماکرو برای محاسبهی معیارکلی استفاده شده است.
۳-۴-۱٫ میانگینگیری میکرو
در این روش، معیار برای تمام ردهها بهصورت کلی محاسبه میشود [۷۱, ۷۴].
(۳-۱۳)
(۳-۱۴)
(۳-۱۵) =
این روش میانگینگیری، بهسمت کارایی ردهبند مربوط به ردهی اکثریت متمایل است و برای دادههای نامتوازن مناسب نیست.
۳-۴-۲٫ میانگینگیری ماکرو
در این روش، ابتدا معیار مورد نظر برای هر رده بهصورت جداگانه محاسبه میشود و سپس میانگین آنها بهعنوان معیار کلی در نظر گرفته میشود [۷۱, ۷۴].
(۳-۱۶) =
(۳-۱۷) =
(۳-۱۸) =
این روش میانگینگیری، بیشتر تحت تاثیر کارایی ردهبندهای مربوط به ردههای اقلیت قرار دارد.
فصل۴: پیشپردازش دادهها
۴-۱٫ مقدمه
در این فصل ساختار اجرایی و پیادهسازی روش تحقیق عملیات تجزیه و تحلیل که بر روی مجموعه دادههای بیمارستان کودکان حضرت فاطمه معصومه (س) انجام شده است، بیان میگردد. مراحل اجرایی تحقیق، به دو قسمت توصیف دادهها و تحلیل دادهها تقسیم شده است که در ادامه جزئیات آنها تشریح گردیده است. شایان ذکر است که تمام پیشپردازشها بر روی ویژگیها و دادهها توسط نویسنده، با نظر کارشناسان آزمایشگاه و متخصصین بیماریهای ریوی- عفونی صورت گرفته است.
۴-۲٫ جمعآوری دادهها