راهی سریعتر و بهتر برای آموزش ربات های همه منظوره

منسری کارتونی دهه 1960 جتسون هارزی خدمتکار روباتیک به طور یکپارچه از جاروبرقی خانه به پختن شام و بیرون آوردن زباله ها تغییر می کند. اما در زندگی واقعی، آموزش یک ربات همه منظوره همچنان یک چالش بزرگ است.

به طور معمول، مهندسان داده‌هایی را جمع‌آوری می‌کنند که مختص یک ربات و کار خاص است و ربات را در یک محیط کنترل‌شده آموزش می‌دهند. با این حال، جمع‌آوری این داده‌ها پرهزینه و زمان‌بر است و ربات احتمالاً برای سازگاری با محیط‌ها یا وظایفی که قبلاً ندیده است، مشکل خواهد داشت.

برای آموزش بهتر ربات‌های همه منظوره، محققان MIT یک تکنیک همه کاره را توسعه دادند که حجم عظیمی از داده‌های ناهمگن را از منابع بسیاری در یک سیستم ترکیب می‌کند که می‌تواند به هر روباتی طیف وسیعی از وظایف را آموزش دهد.

روش آنها شامل تراز کردن داده‌ها از حوزه‌های مختلف، مانند شبیه‌سازی و ربات‌های واقعی، و روش‌های متعدد، از جمله حسگرهای بینایی و رمزگذارهای موقعیت بازوی روباتیک، در یک «زبان» مشترک است که یک مدل هوش مصنوعی مولد می‌تواند پردازش کند.

با ترکیب چنین حجم عظیمی از داده ها، این رویکرد می تواند یک ربات را برای انجام کارهای مختلف بدون نیاز به آموزش از ابتدا آموزش دهد.

این روش می‌تواند سریع‌تر و کم‌هزینه‌تر از تکنیک‌های سنتی باشد، زیرا به داده‌های اختصاصی کار بسیار کمتری نیاز دارد. علاوه بر این، در شبیه سازی و آزمایش های دنیای واقعی، بیش از 20 درصد از آموزش از ابتدا بهتر عمل کرد.

در رباتیک، مردم اغلب ادعا می کنند که ما داده های آموزشی کافی نداریم. اما به نظر من، مشکل بزرگ دیگر این است که داده‌ها از دامنه‌ها، روش‌ها و سخت‌افزار ربات مختلف می‌آیند. لیروی وانگ، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده اصلی یک مقاله می‌گوید: «کار ما نشان می‌دهد که چگونه می‌توانید یک ربات را با همگی آنها آموزش دهید. مقاله در مورد این تکنیک.


شکلی نشان می‌دهد که چگونه تکنیک جدید داده‌ها را از حوزه‌های مختلف، مانند شبیه‌سازی و ربات‌های واقعی، و روش‌های متعدد، از جمله حسگرهای بینایی و رمزگذارهای موقعیت بازوی روباتیک، در یک «زبان» مشترک که یک مدل هوش مصنوعی مولد می‌تواند پردازش کند، تراز می‌کند. تصویر توسط محققین

نویسندگان مشترک وانگ عبارتند از همکار دانشجوی فارغ التحصیل EECS Jialiang Zhao. Xinlei Chen، دانشمند محقق در Meta; و نویسنده ارشد Kaiming He، دانشیار در EECS و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL).

این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی، 10 تا 19 دسامبر 2024، در ونکوور، بریتیش کلمبیا ارائه خواهد شد.

با الهام از LLM

یک «سیاست» رباتیک مشاهدات حسگر را شامل می‌شود، مانند تصاویر دوربین یا اندازه‌گیری‌های حس عمقی که سرعت و موقعیت یک بازوی روباتیک را ردیابی می‌کند، و سپس به ربات می‌گوید چگونه و کجا حرکت کند.

خط‌مشی‌ها معمولاً با استفاده از یادگیری تقلیدی آموزش داده می‌شوند، به این معنی که انسان اقداماتی را نشان می‌دهد یا از یک ربات برای تولید داده‌هایی استفاده می‌کند که به یک مدل هوش مصنوعی وارد می‌شود که خط‌مشی را یاد می‌گیرد. از آنجایی که این روش از مقدار کمی از داده‌های مربوط به کار استفاده می‌کند، ربات‌ها اغلب زمانی که محیط یا وظیفه‌شان تغییر می‌کند، از کار می‌افتند.

برای توسعه یک رویکرد بهتر، وانگ و همکارانش از مدل های زبان بزرگی مانند GPT-4 الهام گرفتند.

این مدل‌ها با استفاده از حجم عظیمی از داده‌های زبانی متنوع، از قبل آموزش داده شده‌اند، و سپس با تغذیه مقدار کمی از داده‌های مختص کار به آن‌ها تنظیم دقیقی می‌شوند. پیش‌آموزش روی داده‌های بسیار به مدل‌ها کمک می‌کند تا با انجام وظایف مختلف به خوبی عمل کنند.

«در حوزه زبان، داده ها همه فقط جملات هستند. وانگ می‌گوید در رباتیک، با توجه به ناهمگونی‌های داده‌ها، اگر می‌خواهید به روشی مشابه پیش‌آموزش کنید، به معماری متفاوتی نیاز داریم.

داده های رباتیک اشکال مختلفی دارند، از تصاویر دوربین گرفته تا دستورالعمل های زبان و نقشه های عمقی. در عین حال، هر ربات از نظر مکانیکی منحصر به فرد است، با تعداد و جهت گیری متفاوت بازوها، گیره ها و حسگرها. همچنین، محیط هایی که داده ها در آن جمع آوری می شوند، بسیار متفاوت هستند.

محققان MIT معماری جدیدی به نام ترانسفورماتورهای پیش‌آموزش ناهمگن (HPT) ایجاد کردند که داده‌ها را از این روش‌ها و حوزه‌های مختلف یکپارچه می‌کند.

آنها یک مدل یادگیری ماشینی معروف به ترانسفورماتور را در وسط معماری خود قرار دادند که ورودی های دید و حس عمقی را پردازش می کند. ترانسفورماتور همان نوع مدلی است که ستون فقرات مدل های زبان بزرگ را تشکیل می دهد.

محققان داده های بینایی و حس عمقی را در یک نوع ورودی به نام توکن تراز می کنند که ترانسفورماتور می تواند آن را پردازش کند. هر ورودی با همان تعداد نشانه ثابت نشان داده می شود.

سپس ترانسفورماتور تمام ورودی‌ها را در یک فضای مشترک نقشه‌برداری می‌کند، و در حین پردازش و یادگیری از داده‌های بیشتر، به یک مدل بزرگ و از پیش آموزش‌دیده تبدیل می‌شود. هرچه ترانسفورماتور بزرگتر شود، عملکرد بهتری خواهد داشت.

یک کاربر فقط باید مقدار کمی از داده های HPT را در مورد طراحی، راه اندازی و وظیفه ای که می خواهد انجام دهد، تغذیه کند. سپس HPT دانشی را که ترانسفورماتور در طول آموزش به دست آورده است برای یادگیری کار جدید منتقل می کند.

فعال کردن حرکات ماهرانه

یکی از بزرگ‌ترین چالش‌های توسعه HPT، ساخت مجموعه داده‌های عظیم برای پیش‌آموزش ترانسفورماتور بود که شامل 52 مجموعه داده با بیش از 200000 مسیر روبات در چهار دسته، از جمله ویدئوهای آزمایشی انسانی و شبیه‌سازی بود.

محققان همچنین نیاز به توسعه روشی کارآمد برای تبدیل سیگنال‌های خام حس عمقی از مجموعه‌ای از حسگرها به داده‌هایی داشتند که ترانسفورماتور می‌توانست از آن استفاده کند.

حس عمقی کلیدی برای فعال کردن بسیاری از حرکات ماهرانه است. وانگ می‌گوید از آنجایی که تعداد نشانه‌ها در معماری ما همیشه یکسان است، ما اهمیت یکسانی را برای حس عمقی و بینایی قائل هستیم.

هنگامی که آنها HPT را آزمایش کردند، عملکرد ربات در شبیه سازی و کارهای دنیای واقعی در مقایسه با آموزش از ابتدا در هر بار بیش از 20 درصد بهبود یافت. حتی زمانی که این کار با داده‌های پیش‌آموزشی بسیار متفاوت بود، HPT همچنان عملکرد را بهبود بخشید.

دیوید هلد، دانشیار مؤسسه رباتیک دانشگاه کارنگی ملون (او درگیر این کار نبود) می‌گوید: «این مقاله یک رویکرد جدید برای آموزش یک سیاست واحد در تجسم‌های چند ربات ارائه می‌کند». «این امکان آموزش در مجموعه‌های مختلف داده را فراهم می‌کند و روش‌های یادگیری ربات را قادر می‌سازد تا اندازه مجموعه داده‌هایی را که می‌توانند روی آن‌ها آموزش ببینند، به میزان قابل توجهی افزایش دهند. همچنین به مدل اجازه می‌دهد تا به سرعت با تجسم‌های ربات جدید سازگار شود، که مهم است زیرا طرح‌های ربات جدید به طور مداوم تولید می‌شوند.

در آینده، محققان می خواهند بررسی کنند که چگونه تنوع داده ها می تواند عملکرد HPT را افزایش دهد. آنها همچنین می خواهند HPT را تقویت کنند تا بتواند داده های بدون برچسب مانند GPT-4 و سایر مدل های زبان بزرگ را پردازش کند.

وانگ می‌گوید: «رویای ما داشتن یک مغز روبات جهانی است که بتوانید آن را دانلود کنید و برای ربات خود بدون هیچ آموزشی از آن استفاده کنید. “در حالی که ما در مراحل اولیه هستیم، به سختی ادامه می دهیم و امیدواریم که مقیاس بندی منجر به پیشرفتی در سیاست های روباتیک شود، مانند مدل های زبان بزرگ.”

این کار تا حدی توسط ابتکار فناوری آمازون بوستون بزرگ و موسسه تحقیقاتی تویوتا تامین شده است.

منتشر شده در 28 اکتبر 2024، در اخبار MIT.

منبع: https://www.qualitydigest.com/inside/innovation-article/faster-better-way-train-general-purpose-robots-110724.html