DeepMind A.I. روبوٹ اور انسانی آوازوں کے درمیان فرق پل

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

مصنوعی انٹیلی جنس نے صرف روبوٹ کی آوازیں بنا کر بہت زیادہ حقیقت پسندانہ آواز کی.

DeepMind، جس نے پہلے ای. کی طاقت کا مظاہرہ کیا. مارچ میں جانے والے ایک انسانی کھلاڑی کو دھکیلنے اور جولائی میں نصف میں بجلی کی بل کو کاٹنے کے ذریعہ، اب تقریر کی ترکیب پر توجہ مرکوز کردی گئی ہے.

اے. ریسرچ گروپ، جو Google والدین کمپنی الف قطعہ کا حصہ ہے، نے آج صبح انکشاف کیا ہے کہ اس نے WaveNet کے نام سے ایک نئی ٹیک پیدا کی ہے جس سے اس سے قبل بولنے، موسیقی، اور دیگر آوازوں کو درست طریقے سے پیدا کرنے کے لئے استعمال کیا جاسکتا ہے.

DeepMind بیان کرتی ہے کہ بہت سے موجودہ تقریبات کی ترکیب سازی کے طریقوں پر "مختصر تقریر کے ٹکڑے ٹکڑے کا ایک بہت بڑا ڈیٹا بیس ایک ہی اسپیکر سے ریکارڈ کیا جاتا ہے اور اس کے بعد مکمل بیانات بنانے کے لئے دوبارہ تیار کیا جاتا ہے." دوسری طرف، ویو ویٹ، "آڈیو سگنل کے خام واففارم" "زیادہ حقیقت پسندانہ آواز اور آواز پیدا کرنے کے لئے.

اس کا مطلب یہ ہے کہ ویو نییٹ انفرادی آوازوں کے ساتھ کام کر رہا ہے جب انسان مکمل حرفوں یا پورے الفاظ کو استعمال کرنے کی بجائے بولتا ہے. ان آوازوں کو پھر "مطابقت پذیر مہنگی" عمل کے ذریعہ چلایا جاتا ہے جو DeepMind نے "مشینوں کے ساتھ پیچیدہ، حقیقت پسندانہ آواز آڈیو پیدا کرنے کے لئے ضروری" کو تلاش کیا ہے.

اس اضافی کام کا نتیجہ امریکی انگریزی اور چینی مینڈی میں سنجیدگی سے متعلق تقریر کے لئے 50 فیصد بہتری ہے. یہاں پیرامیٹرک متن سے بات کرنے کا استعمال کرتے ہوئے بولی کا ایک مثال یہ ہے کہ آج عام ہے، DeepMind کی طرف سے استعمال کیا جاتا ہے کہ یہ کس طرح اس تقریر کی ترکیب کا فقدان ہے.

اور یہاں ویو نییٹ کی طرف سے پیدا اسی کی سزا کا ایک مثال ہے:

جب کمپنیوں نے قدرتی زبان کے انٹرفیسوں پر اپنا کام جاری رکھے تو، زیادہ حقیقت پسندانہ آوازوں کا جواب دینے کی پیشکش تیزی سے اہم ہو جا رہی ہے. ویو نیٹ اس مسئلہ کو حل کرنے میں مدد کرسکتا ہے.

$config[ads_kvadrat] not found