الورگتھم جو ماسٹر 'پونگ' اب 'Flappy Bird' میں بہت اچھا ہے، اب بھی سنگل

اجمل اغنية تركية مترجمة ابراهيم تاتلسس بعنوان هيا قل Ù

اجمل اغنية تركية مترجمة ابراهيم تاتلسس بعنوان هيا قل Ù
Anonim

گہری سیکھنے کا طریقہ بہتر بنانے کے لئے تیار ہے پونگ, خلائی حملہ آور ، اور دیگر اٹاری کے کھیلوں میں، سٹینفورڈ یونیورسٹی کمپیوٹر سائنس کے طالب علم کیون چن نے کلاسیفائڈ 2014 کی طرف والی سکرال میں ایک الگورتھم پیدا کیا ہے. Flappy برڈ. چن نے "ق - سیکھنے" کے طور پر جانا جاتا ایک تصور کا ارتکاب کیا ہے جس میں ایک ایجنٹ کا مقصد تقریبا ہر ناممکن اور ناممکن طور پر لت کھیل کو پورا کرنے کے لۓ ہر انعام کے ساتھ اپنے انعام کا اسکور بہتر بنانا ہے.

چن نے ایک ایسا نظام بنایا جس میں ان کے الگورتھم کو تین اعزاز حاصل کرنے کے لئے بہتر بنایا گیا تھا: ہر فریم کا ایک چھوٹا مثبت انعام یہ زندہ رہے، ایک پائپ سے گزرنے کا ایک بڑا اجر، اور مرنے کے لئے ایک ہی بڑا (منفی) انعام. چنانچہ حوصلہ افزائی کی گئی ہے کہ نام نہاد گہری ق نیٹ ورک انسان کو باہر نکال سکتے ہیں، چن کے مطابق، مصنف نے کہا: "ہم کامیابی سے کھیل کھیلنے کے قابل تھے Flappy برڈ پکسلز اور سکور سے براہ راست سیکھنے کی طرف سے، سپر انسانی نتائج حاصل کرنے."

اصل اٹاری کا کاغذ، جس میں 2015 میں شائع ہوا فطرت ، گوگل کی ملکیت گپ میڈ کمپنی (اب قدیم چینی بورڈ گیم گیم کے اس مہارت کے لئے مشہور) سے آیا. DeepMind کی کامیابی یہ تھی کہ اس نے بصری یا پکسل لے لیا، کم سے کم معلومات، اور کم از کم ان پٹ کے ساتھ، انعامات کو زیادہ سے زیادہ حاصل کیا. اس طرح کے انعامات کے نظام کو دماغ کے ڈوپینینجک ردعمل کے ساتھ بھی پسند کیا گیا ہے، جو صرف آسان ہے.

پہلی بار یہ نہیں ہے کہ الگورتھم نے فلاپ پرندوں کو فتح کیا ہے: سٹینفورڈ یونیورسٹی کے کمپیوٹر سائنسز کے ایک طالب علم نے پہلے ہی اس پروگرام کا آغاز کیا، جب رات بھر تربیت دی گئی، اس کے اسکور 0 پائپوں سے 1،600 ہوگئی.