PaLM-E Google menyematkan visi dengan model AI gaya ChatGPT untuk menggerakkan robot otonom
togel

PaLM-E Google menyematkan visi dengan model AI gaya ChatGPT untuk menggerakkan robot otonom

Para peneliti dari Google LLC dan Technical University of Berlin minggu ini meluncurkan robot bertenaga kecerdasan buatan yang dilatih pada model bahasa visual multimodal yang diwujudkan dengan lebih dari 562 miliar parameter.

PaLM-E, demikian modelnya disebut, mengintegrasikan visi dan bahasa bertenaga AI untuk memungkinkan kontrol robot otonom, memungkinkan robot untuk melakukan berbagai tugas berdasarkan perintah suara manusia, tanpa perlu pelatihan ulang terus-menerus. Dengan kata lain, ini adalah robot yang dapat memahami apa yang diperintahkan, lalu melanjutkan dan melaksanakan tugas tersebut dengan segera.

Misalnya, jika robot diperintahkan untuk “bawakan saya keripik nasi dari laci”, PaLM-E akan dengan cepat membuat rencana tindakan, berdasarkan perintah dan bidang pandangnya. Kemudian, platform robot bergerak dengan lengan robotik yang dikendalikannya akan menjalankan aksinya, sepenuhnya mandiri.

PaLM-E bekerja dengan melihat sekelilingnya melalui kamera robot, dan dapat melakukan ini tanpa representasi pemandangan yang telah diproses sebelumnya. Itu hanya melihat dan menerima apa yang dilihatnya, dan kemudian mengerjakan apa yang perlu dilakukan berdasarkan itu. Itu berarti manusia tidak perlu menganotasi data visual terlebih dahulu.

Peneliti Google mengatakan PaLM-E juga dapat bereaksi terhadap perubahan lingkungan saat menjalankan tugas. Misalnya, jika mulai mengambil keripik beras itu, dan orang lain mengambilnya dari robot dan meletakkannya di atas meja di ruangan, robot akan melihat apa yang terjadi, menemukan keripik itu, mengambilnya lagi, dan membawanya ke orang tersebut. yang pertama meminta mereka.

Contoh kedua menunjukkan bagaimana PaLM-E dapat menyelesaikan tugas yang lebih rumit yang melibatkan urutan, yang sebelumnya membutuhkan panduan manusia:

“Kami mendemonstrasikan kinerja PaLM-E pada tugas manipulasi seluler yang menantang dan beragam,” tulis para peneliti. “Kami sebagian besar mengikuti pengaturan di Ahn et al. (2022), di mana robot perlu merencanakan urutan tindakan navigasi dan manipulasi berdasarkan instruksi dari manusia. Misalnya, diberi instruksi “Saya menumpahkan minuman saya, bisakah Anda membawakan saya sesuatu untuk membersihkannya?”, robot perlu merencanakan urutan yang berisi “1. Cari spon, 2. Ambil sponnya, 3. Bawa ke pengguna, 4. Letakkan sponnya.”

PaLM-E didasarkan pada model bahasa besar yang ada yang dikenal sebagai PaLM yang terintegrasi dengan informasi sensorik dan kontrol robot, oleh karena itu merupakan “model bahasa visual yang diwujudkan”. Ini bekerja dengan mengambil pengamatan terus menerus di sekitarnya, mengkodekan data ini ke dalam urutan vektor, mirip dengan cara mengkodekan kata-kata sebagai “token bahasa”. Dengan cara ini, ia dapat memahami informasi sensorik dengan cara yang sama seperti memproses perintah vokal.

Para peneliti menambahkan bahwa PaLM-E menunjukkan sifat yang dikenal sebagai “transfer positif,” yang berarti dapat mentransfer pengetahuan dan keterampilan yang dipelajari dari tugas sebelumnya ke tugas baru, yang menghasilkan kinerja lebih tinggi daripada model robot tugas tunggal. Selain itu, kata para peneliti, ini juga menampilkan “rantai pemikiran multimodal,” yang berarti dapat menganalisis urutan input yang mencakup input bahasa dan visual, serta “inferensi multi-gambar,” di mana ia menggunakan beberapa gambar sebagai masukan untuk membuat kesimpulan atau memprediksi sesuatu.

Semua mengatakan, PaLM-E adalah terobosan mengesankan dalam robotika otonom, dan Google mengatakan langkah selanjutnya adalah mengeksplorasi aplikasi tambahan dalam skenario dunia nyata seperti otomatisasi rumah dan robot industri. Para peneliti juga menyatakan harapan bahwa pekerjaan mereka akan menginspirasi lebih banyak penelitian tentang penalaran multimodal dan mewujudkan AI.

Gambar: Google

Tunjukkan dukungan Anda untuk misi kami dengan bergabung bersama para pakar Cube Club dan Komunitas Acara Cube kami. Bergabunglah dengan komunitas yang mencakup Amazon Web Services dan CEO Amazon.com Andy Jassy, ​​pendiri dan CEO Dell Technologies Michael Dell, CEO Intel Pat Gelsinger, dan banyak tokoh dan pakar lainnya.

Untuk waktu ini bermain togel sidney dan toto sgp sangatlah mudah, para pemain memadai bermodal smartphone dan jaringan internet untuk bisa mencari bandar togel sidney dan toto sgp di pencarian google. Namun, harus kamu mengerti tidak semua website togel sidney dan toto sgp yang tersedia di pencarian google sanggup kami percayai. Karena pada pas ini udah terdapat ratusan website togel online penipuan yang hanya dambakan capai keuntungan sepihak. Oleh dikarenakan itu kini kita menyarankan kamu untuk bermain togel sidney dan togel singapore di web site terpercaya dan resmi seperti