مقاله درمورد Q توصيف الگوريتم مسير يابي
دسته بندي :
مقاله »
علوم کامپیوتر
لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل : word (..doc) ( قابل ويرايش و آماده پرينت )
تعداد صفحه : 8 صفحه
قسمتی از متن word (..doc) :
1
(خلاصه)
اين مقاله به توصيف الگوريتم مسير يابي Q براي مسير يابي packet در ماجول تقويت كننده آموزش دهنده كه در هر گروه از يك شبكه جابجا كننده قرار داده شده است مي پردازيم. تنها ارتباطهاي محلي براي هر گيرنده بكار مي رود تا آمار آنها را در مرحله تصميم هاي جهتيابي دقيق نگاه دارد كه منجر به كاهش زمان ارسال مي گردد. در آزمايشهاي ساده كه حاوي 36 گره است و شبكه بصورت بي قاعده اي متصل گرديده است. جهتيابي Q برتري حضور را نسبت به الگوريتم غير قابل تطابق مبتني بر محاسبات كوتاهترين مسير ها به اثبات مي رساند و قادر خواهد بود تا به ميزان كافي جهتيابي انجام دهد حتي زماني كه ويژگيهاي بسيار مهم شبيه سازي همانند load كردن شبكه اجازه مي يابند تا بطور پويا تغيير پيدا كنند. اين مقاله در برگيرنده بحثي در مورد حالت حد ووسط بين كشف ميان برها و سياستهاي با ثبات نگه داشتن مي باشد.
معرفي INTROSUCTION
حيطه تقويت دانش بنحو چشمگيري در طي چند سال اخير رشد كردهاست البته به استثناء ماتريس [8,2] كه كاربردهاي موفقيت آميزي كمتري در مقايسه با كارهاي عملي و بزرگ دشته است. اين مقابله نشان مي دهد كه كار عملي جهتيابي Pachat ها درون يك ارتباط شيبكه اي يك كاربرد طبيعي براي الگوريتم تقويت كننده دانش مي باشد.
الگوريتم جهتيابي Q تا، متناسب با برخي الگوريتمهاي جهتيابي packet توزيع شده [6,7] ياد مي دهد كه سياست جهتيابي كه در آن توزان ها تعداد پرشهاي يك pachet را به حداقل مي رسانند با احتمال انسداد مسيرهاي شلوغ بدست خواهد آمد. اين امر به كمك آزمايش روشهاي جهتيابي گوناگونم و جمع آوري آمار درباره تصميمهايي كه زمان ارسال را به حداقل مي رساند ميسر خواهد شد. يادگيري مستمر و پيوسته خواهد بود، تنها از اطلاعات محلي استفاده مي كند و بصورت بي قاعده بسيار قوي و يكپارچه عمل مي كند و الگوهاي ارتباط شبكه دائما در حال تغيير load شدن است.
2
آزمايشات در اين مقاله به كمك شبيه ساز گسسته رويداد صورت گرفته است تا حول انتقال packet ها را در درون يك شبكه محلي بدست دهد و در بخش [5] توضيح كامل در اين مورد داده شده است.
جهتيابي براي تقويت عملكرد يادگيري Routiny As A Reinforcement learniy task
سياست جهتيابي يك packet پاسخگويي اين پرسش مي باشد كه : به كدام گروه مجاور مي بايستي گره فعلي packet هاي خود را ارسال كند در مقايسه با مقصد نهايي اش آزاد دريافت دارد؟ از آنجائيكه عملكرد اين روش به كمك كل زمان بدست آمده جهت ارسال يك packet اندازه گيري مي شود، هيچ سيگنال آموزش دهنده اي براي برآورد كردن مستيم يا بهبود دادن سياست تا زمانيكه يك packet نهايتا به مقصد خود مي رسد وجود ندارد. با اينهمه، با استفاده از تقويت يادگيري،روش مي بايستي سريعتر بروز شود و تنها از اطلاعات محلي استفاده كرد. فرض كنيد Q(x)(d,y) زماني باشد كه يك گروه x تخمين زده مي شود كه يك packet را به گره d به كمك گروه همسايه x يعني y تحويل دهد، كه در برگيرنده هر زماني است كه p مي بايستي در صفx صرف كند. در زمان ارسال p به y، x فورا برآورده y را براي زمان باقيمانده جهت ارسال بر مي گرداند در نتيجه:
اگر packet مقدار q واحد زمان در صف x صرف كند و s واحد زماني در انتقال بين گروه هاي y,x در نتجه x مي تواند برآورده خود را طبق رابطه زير بازبيني كند:
جايئكه پارامتر نرخ يادگيري است (معمولا در آزمايشس ما Q.5 در نظر گرفته مي شود.)
اگلوريتم منبع مي تواند در حكم نسخه اي از الگوريتم كوتاهترين مسير Bellman – Ford در نر گرفته شود كه (1) نمايش دهنده گامهاي مسير آن بصورت غير همزمان و online مي باشد و