AI generatif mendorong ledakan dalam komputasi: Meningkatnya kebutuhan akan AI yang berkelanjutan
togel

AI generatif mendorong ledakan dalam komputasi: Meningkatnya kebutuhan akan AI yang berkelanjutan

Namun, ada satu masalah dengan ledakan AI generatif ini: Setiap kali DALL-E membuat gambar atau GPT-3 memprediksi kata berikutnya, hal ini memerlukan banyak kalkulasi inferensi yang menambah permintaan listrik yang signifikan. Unit pemrosesan grafis dan arsitektur unit pemrosesan pusat saat ini tidak dapat beroperasi dengan cukup efisien untuk memenuhi permintaan yang membayangi, menciptakan masalah besar bagi hyperscaler.

Pusat data akan menjadi konsumen energi terbesar di dunia, meningkat dari 3% dari total penggunaan listrik pada tahun 2017 menjadi 4,5% pada tahun 2025. China memperkirakan pusat datanya akan mengkonsumsi lebih dari 400 miliar kWh listrik pada tahun 2030 — 4% dari total listrik nasional menggunakan.

Penyedia cloud menyadari besarnya jumlah listrik yang mereka gunakan, dan telah menerapkan langkah-langkah efisiensi seperti menempatkan pusat data di negara kutub untuk memanfaatkan pendinginan alami dan energi terbarukan. Itu tidak akan cukup untuk ledakan AI, meskipun: Laboratorium Nasional Lawrence Berkeley menemukan bahwa peningkatan efisiensi telah membuat tren ini terkendali selama 20 tahun terakhir, tetapi “tren model menunjukkan ukuran efisiensi di masa lalu mungkin tidak cukup untuk data. permintaan utama di masa depan.”

Kami membutuhkan pendekatan yang lebih baik.

Pergerakan data adalah pembunuhnya

Masalah efisiensi berakar pada cara kerja CPU dan GPU, terutama untuk menjalankan model inferensi AI versus melatih model tersebut. Anda pernah mendengar tentang “melampaui Hukum Moore” dan batasan fisik mengemas lebih banyak transistor ke ukuran cetakan yang lebih besar. Chiplet membantu mengatasi tantangan ini, tetapi solusi saat ini memiliki kelemahan utama dalam hal inferensi AI: Mengalihkan data masuk dan keluar dari memori akses acak menyebabkan pelambatan yang signifikan.

Secara tradisional, lebih murah untuk memproduksi prosesor dan chip memori secara terpisah, dan selama bertahun-tahun, kecepatan clock prosesor merupakan faktor kunci untuk performa. Hari ini interkoneksi antara chip yang menahan banyak hal. “Saat memori dan pemrosesan terpisah, tautan komunikasi yang menghubungkan dua domain menjadi penghambat utama sistem,” jelas Jeff Shainline dari NIST. Profesor Jack Dongarra dari Laboratorium Nasional Oak Ridge mengatakan dengan ringkas bahwa “ketika kita melihat kinerja hari ini pada mesin kita, pergerakan data adalah hal yang mematikan.”

Inferensi AI versus pelatihan AI

Sistem AI menggunakan berbagai jenis kalkulasi saat melatih model AI dibandingkan menggunakannya untuk membuat prediksi. Pelatihan AI memuat model berbasis transformator dengan puluhan ribu gambar atau sampel teks untuk referensi, lalu mulai bekerja. Ribuan inti dalam sebuah GPU sangat efektif dalam mencerna sekumpulan besar data kaya seperti gambar atau video, dan jika Anda memerlukan hasil yang lebih cepat, Anda dapat menyewa GPU berbasis cloud sebanyak yang Anda mampu.

Inferensi AI memerlukan lebih sedikit daya di awal untuk membuat kalkulasi — tetapi kalkulasi dan prediksi dalam jumlah besar yang diperlukan untuk memutuskan apa kata selanjutnya dalam pelengkapan otomatis pada ratusan juta pengguna membutuhkan lebih banyak energi daripada pelatihan dalam jangka panjang. AI Facebook mengamati triliunan inferensi per hari di seluruh pusat datanya — dan ini meningkat lebih dari dua kali lipat dalam tiga tahun terakhir. AI Facebook juga menemukan bahwa menjalankan inferensi pada LLM untuk terjemahan bahasa dapat menggunakan kekuatan dua hingga tiga kali lebih banyak daripada pelatihan awal.

Sebuah ledakan permintaan

Kami melihat bagaimana ChatGPT menyapu industri akhir tahun lalu, dan GPT-4 akan menjadi lebih mengesankan. Jika kita dapat mengadopsi pendekatan yang lebih hemat energi, kita dapat memperluas inferensi ke perangkat yang lebih luas dan menciptakan cara baru dalam melakukan komputasi.

Hybrid Loop Microsoft dirancang untuk membangun pengalaman AI yang secara dinamis memanfaatkan perangkat cloud dan edge. Hal ini memungkinkan pengembang untuk membuat keputusan mengikat yang terlambat untuk menjalankan inferensi di cloud Azure, atau komputer klien lokal atau perangkat seluler. Ini memaksimalkan efisiensi sementara pengguna memiliki pengalaman yang sama di mana pun inferensi terjadi. Demikian pula, Facebook memperkenalkan AutoScale untuk membantu secara efisien memutuskan pada saat runtime di mana menghitung inferensi.

Pendekatan baru untuk efisiensi

Jika kita ingin membuka kemungkinan ini, kita perlu mengatasi hambatan yang memperlambat AI hari ini. Ada beberapa pendekatan yang menjanjikan.

Sampling dan pipelining dapat membantu mempercepat deep learning dengan memangkas jumlah data yang diproses. SALIENT (untuk Sampling, sLIcing, dan pemindahan data) dikembangkan oleh para peneliti di Massachusetts Institute of Technology dan IBM Corp. untuk mengatasi kemacetan utama. Pendekatan ini dapat secara dramatis mengurangi persyaratan untuk menjalankan jaringan saraf pada kumpulan data besar yang dapat berisi 100 juta node dan 1 miliar edge. Tapi itu juga membatasi akurasi dan presisi — yang tidak apa-apa untuk memilih postingan sosial berikutnya untuk ditampilkan, tetapi tidak jika mencoba mengidentifikasi kondisi tidak aman di tempat kerja hampir secara real time.

Apple Inc., Nvidia Corp., Intel Corp. dan Advanced Micro Devices Inc. telah mengumumkan prosesor dengan mesin AI khusus yang digabungkan ke dalam atau berada di samping prosesor tradisional. Amazon Web Services Inc. bahkan membuat prosesor Inferentia2 baru. Tetapi solusi ini masih menggunakan arsitektur prosesor tradisional von Neumann, SRAM terintegrasi, dan memori DRAM eksternal — yang semuanya membutuhkan listrik untuk memindahkan data masuk dan keluar dari memori.

Ada satu pendekatan lain untuk mendobrak “dinding memori” yang telah diidentifikasi oleh para peneliti — dan itu memindahkan komputasi lebih dekat ke RAM.

Komputasi dalam memori meningkatkan latensi, mengurangi energi

Dinding memori mengacu pada penghalang fisik yang membatasi seberapa cepat data dapat dipindahkan masuk dan keluar dari memori. Ini adalah batasan mendasar dengan arsitektur tradisional. Komputasi dalam memori atau IMC mengatasi tantangan ini dengan menjalankan kalkulasi matriks AI langsung di modul memori, menghindari overhead pengiriman data melintasi bus memori.

IMC bekerja dengan baik untuk inferensi AI karena melibatkan kumpulan bobot data yang relatif statis (tetapi besar) yang diakses berulang kali. Selalu ada kebutuhan untuk mentransfer beberapa data masuk dan keluar, tetapi IMC menghilangkan sebagian besar biaya transfer energi dan latensi pergerakan data dengan menyimpan data dalam unit fisik yang sama agar dapat digunakan dan digunakan kembali secara efisien untuk beberapa kalkulasi.

Pendekatan ini mempromosikan skalabilitas karena bekerja dengan baik dengan desain chiplet. Dengan chiplet, teknologi inferensi AI dapat diskalakan dari desktop pengembang untuk pengujian, sebelum diterapkan ke produksi di pusat data. Pusat data dapat menggunakan susunan kartu atau perangkat besar dengan banyak prosesor chiplet untuk menjalankan model AI tingkat perusahaan secara efisien.

Seiring waktu, kami memperkirakan IMC akan menjadi arsitektur dominan untuk kasus penggunaan inferensi AI. Sangat masuk akal jika Anda memiliki kumpulan data yang sangat besar dan triliunan kalkulasi. Anda tidak perlu membuang energi untuk bolak-balik data melintasi dinding memori, dan pendekatan ini dengan mudah ditingkatkan untuk memenuhi permintaan jangka panjang.

Kami berada di titik belok yang menarik dengan kemajuan dalam AI generatif, pengenalan gambar, dan analitik data semuanya bersatu untuk mengungkap koneksi dan penggunaan baru yang unik untuk pembelajaran mesin. Namun pertama-tama kita perlu membangun solusi teknologi yang dapat memenuhi kebutuhan ini — karena saat ini, kecuali kita dapat membuat opsi yang lebih berkelanjutan, Gartner memperkirakan bahwa pada tahun 2025, “AI akan mengonsumsi lebih banyak energi daripada tenaga kerja manusia.”

Mari cari tahu pendekatan yang lebih baik sebelum ini terjadi.

Untuk waktu ini bermain togel sidney dan pengeluaran hk sangatlah mudah, para pemain memadai bermodal smartphone dan jaringan internet untuk bisa melacak bandar togel sidney dan toto sgp di pencarian google. Namun, wajib anda tahu tidak seluruh web site togel sidney dan toto sgp yang tersedia di pencarian google sanggup kami percayai. Karena terhadap selagi ini udah terdapat ratusan situs togel online penipuan yang cuma mendambakan meraih keuntungan sepihak. Oleh karena itu kini kita memberi saran kamu untuk bermain togel sidney dan togel singapore di website terpercaya dan resmi layaknya