منسری کارتونی دهه 1960 جتسون هارزی خدمتکار روباتیک به طور یکپارچه از جاروبرقی خانه به پختن شام و بیرون آوردن زباله ها تغییر می کند. اما در زندگی واقعی، آموزش یک ربات همه منظوره همچنان یک چالش بزرگ است.
به طور معمول، مهندسان دادههایی را جمعآوری میکنند که مختص یک ربات و کار خاص است و ربات را در یک محیط کنترلشده آموزش میدهند. با این حال، جمعآوری این دادهها پرهزینه و زمانبر است و ربات احتمالاً برای سازگاری با محیطها یا وظایفی که قبلاً ندیده است، مشکل خواهد داشت.
برای آموزش بهتر رباتهای همه منظوره، محققان MIT یک تکنیک همه کاره را توسعه دادند که حجم عظیمی از دادههای ناهمگن را از منابع بسیاری در یک سیستم ترکیب میکند که میتواند به هر روباتی طیف وسیعی از وظایف را آموزش دهد.
روش آنها شامل تراز کردن دادهها از حوزههای مختلف، مانند شبیهسازی و رباتهای واقعی، و روشهای متعدد، از جمله حسگرهای بینایی و رمزگذارهای موقعیت بازوی روباتیک، در یک «زبان» مشترک است که یک مدل هوش مصنوعی مولد میتواند پردازش کند.
با ترکیب چنین حجم عظیمی از داده ها، این رویکرد می تواند یک ربات را برای انجام کارهای مختلف بدون نیاز به آموزش از ابتدا آموزش دهد.
این روش میتواند سریعتر و کمهزینهتر از تکنیکهای سنتی باشد، زیرا به دادههای اختصاصی کار بسیار کمتری نیاز دارد. علاوه بر این، در شبیه سازی و آزمایش های دنیای واقعی، بیش از 20 درصد از آموزش از ابتدا بهتر عمل کرد.
در رباتیک، مردم اغلب ادعا می کنند که ما داده های آموزشی کافی نداریم. اما به نظر من، مشکل بزرگ دیگر این است که دادهها از دامنهها، روشها و سختافزار ربات مختلف میآیند. لیروی وانگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی یک مقاله میگوید: «کار ما نشان میدهد که چگونه میتوانید یک ربات را با همگی آنها آموزش دهید. مقاله در مورد این تکنیک.
نویسندگان مشترک وانگ عبارتند از همکار دانشجوی فارغ التحصیل EECS Jialiang Zhao. Xinlei Chen، دانشمند محقق در Meta; و نویسنده ارشد Kaiming He، دانشیار در EECS و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL).
این تحقیق در کنفرانس سیستمهای پردازش اطلاعات عصبی، 10 تا 19 دسامبر 2024، در ونکوور، بریتیش کلمبیا ارائه خواهد شد.
با الهام از LLM
یک «سیاست» رباتیک مشاهدات حسگر را شامل میشود، مانند تصاویر دوربین یا اندازهگیریهای حس عمقی که سرعت و موقعیت یک بازوی روباتیک را ردیابی میکند، و سپس به ربات میگوید چگونه و کجا حرکت کند.
خطمشیها معمولاً با استفاده از یادگیری تقلیدی آموزش داده میشوند، به این معنی که انسان اقداماتی را نشان میدهد یا از یک ربات برای تولید دادههایی استفاده میکند که به یک مدل هوش مصنوعی وارد میشود که خطمشی را یاد میگیرد. از آنجایی که این روش از مقدار کمی از دادههای مربوط به کار استفاده میکند، رباتها اغلب زمانی که محیط یا وظیفهشان تغییر میکند، از کار میافتند.
برای توسعه یک رویکرد بهتر، وانگ و همکارانش از مدل های زبان بزرگی مانند GPT-4 الهام گرفتند.
این مدلها با استفاده از حجم عظیمی از دادههای زبانی متنوع، از قبل آموزش داده شدهاند، و سپس با تغذیه مقدار کمی از دادههای مختص کار به آنها تنظیم دقیقی میشوند. پیشآموزش روی دادههای بسیار به مدلها کمک میکند تا با انجام وظایف مختلف به خوبی عمل کنند.
«در حوزه زبان، داده ها همه فقط جملات هستند. وانگ میگوید در رباتیک، با توجه به ناهمگونیهای دادهها، اگر میخواهید به روشی مشابه پیشآموزش کنید، به معماری متفاوتی نیاز داریم.
داده های رباتیک اشکال مختلفی دارند، از تصاویر دوربین گرفته تا دستورالعمل های زبان و نقشه های عمقی. در عین حال، هر ربات از نظر مکانیکی منحصر به فرد است، با تعداد و جهت گیری متفاوت بازوها، گیره ها و حسگرها. همچنین، محیط هایی که داده ها در آن جمع آوری می شوند، بسیار متفاوت هستند.
محققان MIT معماری جدیدی به نام ترانسفورماتورهای پیشآموزش ناهمگن (HPT) ایجاد کردند که دادهها را از این روشها و حوزههای مختلف یکپارچه میکند.
آنها یک مدل یادگیری ماشینی معروف به ترانسفورماتور را در وسط معماری خود قرار دادند که ورودی های دید و حس عمقی را پردازش می کند. ترانسفورماتور همان نوع مدلی است که ستون فقرات مدل های زبان بزرگ را تشکیل می دهد.
محققان داده های بینایی و حس عمقی را در یک نوع ورودی به نام توکن تراز می کنند که ترانسفورماتور می تواند آن را پردازش کند. هر ورودی با همان تعداد نشانه ثابت نشان داده می شود.
سپس ترانسفورماتور تمام ورودیها را در یک فضای مشترک نقشهبرداری میکند، و در حین پردازش و یادگیری از دادههای بیشتر، به یک مدل بزرگ و از پیش آموزشدیده تبدیل میشود. هرچه ترانسفورماتور بزرگتر شود، عملکرد بهتری خواهد داشت.
یک کاربر فقط باید مقدار کمی از داده های HPT را در مورد طراحی، راه اندازی و وظیفه ای که می خواهد انجام دهد، تغذیه کند. سپس HPT دانشی را که ترانسفورماتور در طول آموزش به دست آورده است برای یادگیری کار جدید منتقل می کند.
فعال کردن حرکات ماهرانه
یکی از بزرگترین چالشهای توسعه HPT، ساخت مجموعه دادههای عظیم برای پیشآموزش ترانسفورماتور بود که شامل 52 مجموعه داده با بیش از 200000 مسیر روبات در چهار دسته، از جمله ویدئوهای آزمایشی انسانی و شبیهسازی بود.
محققان همچنین نیاز به توسعه روشی کارآمد برای تبدیل سیگنالهای خام حس عمقی از مجموعهای از حسگرها به دادههایی داشتند که ترانسفورماتور میتوانست از آن استفاده کند.
حس عمقی کلیدی برای فعال کردن بسیاری از حرکات ماهرانه است. وانگ میگوید از آنجایی که تعداد نشانهها در معماری ما همیشه یکسان است، ما اهمیت یکسانی را برای حس عمقی و بینایی قائل هستیم.
هنگامی که آنها HPT را آزمایش کردند، عملکرد ربات در شبیه سازی و کارهای دنیای واقعی در مقایسه با آموزش از ابتدا در هر بار بیش از 20 درصد بهبود یافت. حتی زمانی که این کار با دادههای پیشآموزشی بسیار متفاوت بود، HPT همچنان عملکرد را بهبود بخشید.
دیوید هلد، دانشیار مؤسسه رباتیک دانشگاه کارنگی ملون (او درگیر این کار نبود) میگوید: «این مقاله یک رویکرد جدید برای آموزش یک سیاست واحد در تجسمهای چند ربات ارائه میکند». «این امکان آموزش در مجموعههای مختلف داده را فراهم میکند و روشهای یادگیری ربات را قادر میسازد تا اندازه مجموعه دادههایی را که میتوانند روی آنها آموزش ببینند، به میزان قابل توجهی افزایش دهند. همچنین به مدل اجازه میدهد تا به سرعت با تجسمهای ربات جدید سازگار شود، که مهم است زیرا طرحهای ربات جدید به طور مداوم تولید میشوند.
در آینده، محققان می خواهند بررسی کنند که چگونه تنوع داده ها می تواند عملکرد HPT را افزایش دهد. آنها همچنین می خواهند HPT را تقویت کنند تا بتواند داده های بدون برچسب مانند GPT-4 و سایر مدل های زبان بزرگ را پردازش کند.
وانگ میگوید: «رویای ما داشتن یک مغز روبات جهانی است که بتوانید آن را دانلود کنید و برای ربات خود بدون هیچ آموزشی از آن استفاده کنید. “در حالی که ما در مراحل اولیه هستیم، به سختی ادامه می دهیم و امیدواریم که مقیاس بندی منجر به پیشرفتی در سیاست های روباتیک شود، مانند مدل های زبان بزرگ.”
این کار تا حدی توسط ابتکار فناوری آمازون بوستون بزرگ و موسسه تحقیقاتی تویوتا تامین شده است.
منتشر شده در 28 اکتبر 2024، در اخبار MIT.
منبع: https://www.qualitydigest.com/inside/innovation-article/faster-better-way-train-general-purpose-robots-110724.html