Salah satu cara kecerdasan buatan telah mengubah cara kita bekerja, mengajar, belajar dan berfungsi, adalah melalui pengenalan ucapan otomatis, atau dikenal sebagai ASR.
Pengenalan Ucapan Otomatis (ASR) adalah teknologi yang memungkinkan komputer untuk mengenali dan menyalin bahasa lisan ke dalam teks tertulis. Ada banyak aplikasi untuk sistem ASR, seperti perangkat lunak dikte suara-ke-teks, asisten virtual, dan sistem pusat panggilan. Mereka juga dapat dilatih untuk memahami berbagai bahasa, meningkatkan kegunaannya di berbagai geografi dan budaya.
Bagaimana cara kerja ASR?
Sebagian besar teknologi ASR dimulai dengan model akustik yang mewakili hubungan antara sinyal audio, morfem, dan fonem. Model akustik mengambil gelombang suara dan menerjemahkannya menjadi data digital. Ini disamakan dengan termometer digital yang mengambil pembacaan suhu analog dan menerjemahkannya ke nilai digital. Linguistik komputasi memperhitungkan setiap suara dalam urutan dan konteks untuk membangun kata dan kalimat, yang kemudian digunakan oleh model bahasa dan pengucapan. Ini telah menjadi prosedur standar hingga saat ini. Studi baru meninggalkan metode multi-algoritma ini demi jaringan saraf tunggal yang dijuluki model end-to-end. Ada dua metode yang digunakan sistem ASR:
- Metode Hibrida Tradisional
- Metode Ujung-ke-Ujung
Metode Hibrida Tradisional
Metode hibrida tradisional untuk pengenalan ucapan otomatis (ASR) melibatkan penggabungan dua pendekatan berbeda untuk mengenali ucapan: pendekatan berbasis aturan dan pendekatan statistik.
Pendekatan berbasis aturan terdiri dari seperangkat aturan yang digunakan untuk memetakan bunyi suatu bahasa ke kata atau fonem yang sesuai. Pendekatan ini didasarkan pada pemahaman tentang struktur dan aturan bahasa, dan bisa cukup akurat jika aturannya didefinisikan dengan baik. Namun, sulit untuk membuat aturan untuk semua kemungkinan variasi dan aksen suatu bahasa, sehingga pendekatan berbasis aturan rentan terhadap kesalahan.
Pendekatan statistik menggunakan model statistik yang dilatih pada kumpulan data besar audio yang ditranskrip untuk mempelajari pola dan hubungan antara bunyi suatu bahasa dan kata atau fonem yang sesuai. Pendekatan ini lebih fleksibel dan dapat menangani rentang variasi dan aksen yang lebih luas, tetapi juga bisa kurang akurat dibandingkan pendekatan berbasis aturan. Ini karena didasarkan pada pola dan hubungan yang dipelajari dari kumpulan data, bukan seperangkat aturan tetap seperti pendekatan berbasis aturan.
Metode hibrida tradisional menggabungkan kekuatan kedua pendekatan dengan menggunakan pendekatan berbasis aturan untuk menangani aturan yang terdefinisi dengan baik dan pendekatan statistik untuk menangani input yang lebih kompleks dan bervariasi. Ini dapat menghasilkan sistem ASR yang lebih akurat dan kuat. Namun, pendekatan hibrid bisa lebih kompleks dan intensif komputasi daripada salah satu pendekatan saja.
Sistem ujung ke ujung
Sistem ASR end-to-end biasanya menggunakan deep neural network (DNN) untuk mempelajari hubungan kompleks antara sinyal audio dan transkripsi. Mereka dilatih pada set data besar audio yang ditranskripsi dan dapat menangani berbagai macam aksen, pengucapan, dan gaya bicara. Ini secara langsung memprediksi transkripsi sinyal audio menjadi teks tertulis, tanpa perlu langkah-langkah perantara yang eksplisit seperti pengenalan fonem atau kata.
Sistem ASR end-to-end memiliki beberapa keunggulan dibandingkan sistem hybrid tradisional yang mengandalkan langkah-langkah perantara yang eksplisit. Mereka bisa lebih akurat dan efisien, dan mereka juga bisa lebih fleksibel dan mudah beradaptasi dengan bahasa dan tugas baru. Namun, sistem ASR end-to-end juga bisa lebih kompleks dan membutuhkan lebih banyak data dan sumber daya komputasi untuk dilatih.
Aplikasi ASR yang Bermanfaat
Teknologi ASR telah meningkat secara signifikan selama bertahun-tahun dan sekarang dapat mencapai tingkat akurasi yang tinggi dalam banyak konteks. Berikut adalah beberapa contoh bagaimana ASR digunakan:
Perangkat lunak dikte
ASR digunakan untuk membuat perangkat lunak dikte yang memungkinkan pengguna untuk berbicara dan ucapan mereka secara otomatis ditranskripsi menjadi teks. Ini bermanfaat bagi orang yang lebih suka berbicara daripada mengetik, atau yang memiliki gangguan mobilitas yang membuat mengetik menjadi sulit.
asisten virtual
Asisten virtual seperti Siri Apple menggunakan ASR untuk memahami dan menanggapi perintah suara, menghadirkan rumah pintar dan kenyamanan dalam kehidupan kita sehari-hari.
Pusat panggilan
Di call center, sistem Interactive voice response (IVR) menggunakan ASR untuk meningkatkan pengalaman pelanggan. Saat terintegrasi dengan aplikasi lain, teknologi ASR memungkinkan penelepon melakukan tugas swalayan. Ini termasuk memeriksa saldo rekening, serta mengotentikasi identitas mereka untuk keamanan.
ASR juga dapat secara otomatis menghasilkan transkrip untuk panggilan ini, yang digunakan untuk tujuan pelatihan dan jaminan kualitas.
Pendidikan
Sektor pendidikan menggunakan ASR untuk membantu siswa dengan ketidakmampuan belajar belajar lebih efisien. Misalnya, banyak anak disleksia yang kesulitan menguasai keterampilan membaca. ASR dapat membantu mengidentifikasi kesalahan membaca dan memberikan intervensi segera untuk memperbaiki kesalahan membaca.
Aksesibilitas
ASR dapat digunakan untuk membuat versi materi tertulis yang dapat diakses oleh orang-orang tunanetra atau yang memiliki penglihatan rendah.
Penerjemahan
ASR dapat menyalin dan menerjemahkan bahasa lisan, memungkinkan komunikasi waktu nyata antara orang-orang yang berbicara bahasa berbeda.
Perangkat lunak transkripsi
Software seperti Auris AI menggunakan teknologi ASR untuk secara otomatis menghasilkan transkrip yang akurat dalam hitungan detik. Ini membantu pengguna menghemat waktu dalam proses kerja mereka, serta uang dari mempekerjakan seorang transcriber profesional. Auris AI tersedia secara gratis dan Anda dapat mencobanya di sini.
Masa Depan Teknologi Pengenalan Ucapan Otomatis
Kami kemungkinan akan melihat peningkatan berkelanjutan dalam akurasi dan kinerja teknologi ASR dengan perkembangan berikut:
Peningkatan penggunaan pembelajaran mendalam. Deep neural network (DNN) dan algoritme pembelajaran mesin lainnya dapat mendorong peningkatan akurasi dan kinerja sistem ASR. DNN sangat cocok untuk menangani kompleksitas dan variabilitas ucapan natural. Nyatanya, banyak terobosan yang kita lihat saat ini merupakan hasil pengembangan melalui DNN.
Dukungan multi-bahasa dan multi-aksen. Teknologi ASR semakin mampu memahami berbagai macam bahasa dan aksen. Ini dapat bermanfaat untuk banyak aplikasi, seperti layanan pelanggan dan dikte multibahasa.
Peningkatan ketahanan. Sistem ASR menjadi lebih kuat terhadap kebisingan, gangguan latar belakang, dan faktor lain yang dapat menurunkan kualitas audio. Ini akan membuat sistem ASR lebih berguna dalam pengaturan dunia nyata, seperti di tempat umum yang ramai atau lingkungan yang bising.
Perlu dicatat bahwa bidang ASR berkembang pesat. Dengan kemajuan ini, ASR akan menjadi semakin akurat, andal, dan diadopsi secara luas, yang pada akhirnya menjadi alat penting dalam kehidupan kita.