Dua peristiwa berturut-turut — dan yang satu lebih menarik dari yang lain: OpenAI dan Google memperkenalkan asisten AI baru yang canggih minggu ini. Ini adalah alat yang dapat berbicara dengan pengguna secara real-time, menganalisis lingkungan melalui video langsung, atau menerjemahkan percakapan tanpa penundaan – semua hal yang sebelumnya lebih membosankan.
Dampak pertama dari OpenAI terjadi pada hari Senin, ketika grup AI mempresentasikan model bahasa barunya GPT-4o. Selama pertunjukan langsung, sistem multimedia membacakan cerita pengantar tidur dan membantu memecahkan masalah matematika melalui kamera — semuanya dengan suara yang sangat mirip dengan pacar AI Joaquin Phoenix dalam film fiksi ilmiah. Ha Tampaknya (fakta bahwa CEO Sam Altman Itu tidak terlewatkan sama sekali).
Keesokan harinya, Google mengumumkan alat AI barunya, termasuk asisten suara bernama Gemini Live yang dapat melakukan banyak tugas yang sama seperti GPT-4o. Diumumkan juga bahwa anak perusahaan Google, Deepmind, sedang membangun sejenis agen AI ujung ke ujung yang disebut Project Astra, yang saat ini sedang dalam pengembangan tetapi baru akan dipasarkan akhir tahun ini.
Ini masih sekedar demonstrasi. Namun kita akan segera dapat mengetahui apakah kita akan menggunakan gadget ini dalam kehidupan sehari-hari seperti yang diharapkan oleh produsennya. Sebaliknya, ini mungkin hanya sekedar trik fiksi ilmiah yang pada akhirnya kehilangan daya tariknya. Di bawah ini Anda dapat mempelajari lebih lanjut tentang cara mengakses alat-alat baru ini, kegunaannya, dan berapa biayanya.
GPT-4o dari OpenAI
Apa yang dapat dia lakukan: Model baru ini dapat berbicara dengan orang lain secara real time, dengan penundaan respons sekitar 320 milidetik, yang setara dengan percakapan alami manusia, menurut OpenAI. Model dapat menafsirkan apa pun yang ditunjukkan oleh kamera ponsel cerdas. Ini dapat membantu tugas-tugas seperti pemrograman atau menerjemahkan teks. Ia juga dapat merangkum informasi dan menghasilkan gambar, tulisan, dan tampilan 3D.
Cara mencapainya: GPT-40 sudah tersedia untuk pengguna ChatGPT Plus (€20 per bulan). Antarmuka web Itu dapat diaktifkan di aplikasi GPT. Tapi ini hanya mempengaruhi mode teks. Asisten suara baru termasuk video akan ditambahkan sebagai alfa “dalam beberapa minggu mendatang” dan perusahaan belum menentukan tanggal spesifiknya. Pengembang sudah dapat menggunakan fungsi pengambilan teks dan gambar melalui API, namun bot suara hanya ditujukan untuk kelompok kecil terpilih.
harganya berapa: GPT-4o akan dapat digunakan secara gratis mulai sekarang, tetapi OpenAI akan membatasi penggunaan model tersebut sebelum memerlukan peningkatan ke paket berbayar. Mereka yang berlangganan – sebagai individu, tim, atau perusahaan – akan mendapatkan kapasitas setidaknya lima kali lebih besar.
Google Gemini Langsung
Apa yang dapat dia lakukan: Ini adalah produk Google yang paling mirip dengan GPT-4o — versi model AI Gemini milik perusahaan yang dapat Anda ajak bicara secara real-time. Google mengatakan pihaknya juga akan dapat menggunakan alat tersebut untuk melakukan panggilan video langsung “akhir tahun ini.” Perusahaan berjanji bahwa ini akan menjadi asisten suara berguna yang dapat Anda gunakan, misalnya, untuk mempersiapkan wawancara kerja atau berlatih memberikan pidato.
Cara mencapainya: Gemini Live akan diluncurkan “dalam beberapa bulan mendatang” melalui paket AI premium Google, Gemini Advanced.
harganya berapa: Gemini Advanced menawarkan uji coba dua bulan gratis dan biaya $20 per bulan setelah itu.
Apa proyek Astra itu? Project Astra adalah proyek yang dilakukan oleh perusahaan Deepmind Google untuk mengembangkan agen kecerdasan buatan yang “dapat melakukan apa saja”. Hal ini juga diumumkan minggu ini di Google I/O kaki, tapi belum dijadwalkan untuk dirilis hingga akhir tahun ini. Tampilannya mengingatkan pada GPT-4o.
Pengguna seharusnya dapat menggunakan Astra melalui ponsel pintarnya dan mungkin juga melalui komputer desktop. Namun perusahaan juga menjajaki opsi lain, seperti mengintegrasikannya ke dalam kacamata pintar atau perangkat lain, kata Oriol Viñales, wakil presiden penelitian di Deepmind, kepada MIT Technology Review.
Rekomendasi redaksi
Sistem mana yang lebih baik?
Sulit untuk mengatakannya kecuali Anda memiliki versi konsumen dari model ini. Google menampilkan Project Astra dalam sebuah video yang seharusnya direkam secara langsung dalam dua bagian, sementara OpenAI memilih untuk menampilkan GPT-4o dalam presentasi yang tampak lebih realistis — bahkan dengan beberapa pertanyaan dari penonton X. Namun dalam kedua kasus tersebut, modelnya pasti diminta untuk melakukan hal-hal yang sebenarnya telah dipraktikkan oleh para desainer. Ujian sesungguhnya akan datang ketika jutaan pengguna memiliki persyaratan unik.
Namun jika dibandingkan dengan yang dipublikasikan Video Dari OpenAI hingga Google, kedua alat terkemuka ini terlihat sangat mirip, setidaknya dalam hal penggunaan. Secara keseluruhan, GPT-4o dengan mudah memiliki keunggulan dalam hal audio, menampilkan suara yang realistis, percakapan yang mengalir, dan bahkan nyanyian. Sebaliknya, Project Astra nampaknya memiliki kemampuan visual yang lebih canggih. Ini menunjukkan bagaimana asisten menemukan sepasang kacamata yang pernah dia lihat sebelumnya. Keputusan OpenAI untuk menghadirkan fitur-fitur baru ke pasar dengan begitu cepat dapat berarti bahwa produk OpenAI lebih unggul sebelum Google hadir. Masih terlalu dini untuk menentukan model mana yang akan mengurangi “halusinasi” informasi palsu atau menghasilkan jawaban yang lebih berguna.
Bagaimana dengan keamanan?
Baik OpenAI dan Google mengklaim bahwa model mereka telah diuji dengan baik. OpenAI mengonfirmasi bahwa GPT-4o telah dievaluasi oleh “lebih dari 70 pakar di berbagai bidang seperti berita palsu dan psikologi sosial.” Google mengatakan Gemini menjalani “evaluasi keamanan paling komprehensif dari semua model AI Google hingga saat ini,” misalnya untuk menyaring data beracun atau bias.
Masalahnya: Perusahaan sedang berupaya menuju masa depan di mana model AI harus mencari, meninjau, dan mengevaluasi informasi dunia untuk memberikan jawaban akurat atas pertanyaan-pertanyaan kita. Bahkan lebih dari sekadar chatbot sederhana, ada baiknya untuk tetap skeptis terhadap apa yang mereka sampaikan kepada Anda — terutama ketika asisten suara tampak begitu meyakinkan.
Artikel oleh James O’Donnell. Dia adalah editor MIT Technology Review edisi AS. O’Donnell menulis secara teratur tentang topik perangkat keras dan kecerdasan buatan.
“Coffee pioneer. Social media ninja. Unrepentant web teacher. Friendly music fan. Alcohol fanatic.”
More Stories
Intel dilaporkan ingin menghadapi Strix Halo AMD dengan GPU raksasanya sendiri di prosesornya
Pembaruan BIOS: Penyerang dapat menonaktifkan Boot Aman pada laptop Alienware
Hari khusus perempuan di Oberhausen