Aplikasi Pengenalan Ucapanmenggunakan Linear Predictive Coding (LPC) Dan Hidden Markov Model (HMM) (original) (raw)
Related papers
Pengenalan Ucapan Menggunakan Metode Linear Predictive Coding (LPC) dan K-Nearest Neighbor (K-NN)
Energy, 2017
Pengenalan ucapan (Speech Recognation) merupakan salah satu bagian dari bidang ilmu komunikasi yang melibatkan pengolahan sinyal (Signal Processing). dalam beberapa dekade sudah dilakukan riset tentang pengenalan ucapan, beberapa bidang telah menggunakan sistem pengenalan ucapan seperti robotika, sistem sekuriti dan lain - lain. Dalam penelitian ini, peneliti melakukan kombinasi metode antara Linear Predictive Coding (LPC) dengan K-Nearest Neighbor (K NN) dalam proses pengenalan ucapan, K-NN dipilih karena memiliki algoritma dan perhitungan yang sederhana sehingga akan berpengaruh pada efisiensi waktu di dalam eksekusi program, dengan penggunaan kombinasi metode tersebut, telah menghasilkan akurasi yang baik,, hal itu dibuktikan dari 16 data uji yang diujikan, hasil atau keputusan yang dihasilkan oleh sistem memiliki akurasi sebesar 62,5% dibandingkan dengan target yang telah ditentukan. Kata kunci : Pengenalan Ucapan, LPC, K-NN
Matics, 2016
— Arabic language has a slightly different pronunciation than the Indonesian so to learn it takes a long time. In Arabia itself, there are variants in the pronunciation of the Arabic language or dialect. Dialect is a language, and letters are used by a particular group of people in a clump that makes the difference between the readings even greeting one another. In Indonesia, alone speakers of Indonesia itself have a different dialect to native speakers. This study was analyzed of Arabic writing suitability by Indonesian speakers using Linear Predictive Coding extraction techniques. The text produces different patterns of speech. This also happens if the text is spoken by a speaker who is not the mother tongue of the speakers. The data training in this study is using the Arabic speaker sound. The feature extraction is classified using Hidden Markov Model. In the classification, using Hidden Markov Model, voice signal is analyzed and searched the maximum possible value that can be r...
During this time, computer cursor operation was done by pressing and moving the mouse. So, this is less flexible for computer user that require movement in operating a computer, since to use mouse comfortably someone has to sit. Moreover, physical completeness is required for mouse operating, so that for someone who has physical disabilities feels difficult to operate it. Therefore, it is required to develop a system that provides a better comfort and flexibility not only for the healthy user computer but also for the user computer who has physical disabilities. In this final project, computer cursor operation program via voice is created. With this program, someone will have more flexibility when operating the computer cursor and also people with physical disabilities is enabled to communicate with computer. Voice recognition is a technology that is apllied in this program, with the feature extraction process used MFCC (Mel-Frequency Cepstrum Coefficients) method. As for the recognitions process used artificial neural network type LVQ (Learning Vector Quantization). Voice is passed through a microphone and then it is analyzed by MFCC to produce MFCC coefficients. These coefficients are used as input vector for LVQ neural network and used as data to train the network until it has the classification capability. Programming language that is used in creating this software is Delphi programming language. Based on the result of the testing program, it is found that the success percentage rate of voice recognition with training data, that is data which is derived from databases that have been recorded and trained into the program which amounts to 240 data, is 88,89 %. While in the testing with test data, that is data which is derived from the real time sayings of respondents which is amounts to 240 data, it is found that the success percentage rate of voice recognition is 83,99 %.
Pengenalan Ucapan Bahasa Indonesia Menggunakan MFCC dan Recurrent Neural Network
2020
Pengenalan ucapan ( speech recognition ) merupakan perkembangan teknologi dalam bidang suara. Pengenalan ucapan memungkinkan suatu perangkat lunak mengenali kata-kata yang diucapkan oleh manusia dan ditampilkan dalam bentuk tulisan. Namun masih terdapat masalah untuk mengenali kata-kata yang diucapkan, seperti karakteristik suara yang berbeda, usia, kesehatan, dan jenis kelamin. Penelitian ini membahas pengenalan ucapan bahasa Indonesia dengan menggunakan Mel-Frequency Cepstral Coefficient (MFCC) sebagai metode ekstraksi ciri dan Recurrent Neural Network (RNN) sebagai metode pengenalannya dengan membandingkan arsitektur Elman RNN dan arsitektur Jordan RNN. Pembagian data latih dan data uji dilakukan dengan menggunakan metode k-fold cross validation dengan nilai k=5. Hasil penelitian menunjukkan bahwa arsitektur Elman RNN pada parameter 900 hidden neuron , target error 0.0005, learning rate 0.01, dan maksimal epoch 10000 dengan koefisien MFCC 20 menghasilkan akurasi terbaik sebesar 7...
2018
Abstrak Karya tulis ini membahas implementasi sistem pengenalan ucapan dalam bahasa Indonesia dimana suatu perangkat membaca file suara lalu ditranslasikan menjadi teks sesuai dengan kata yang diucapkan pada file suara tersebut didasarkan pada kata yang sudah dilatih ke dalam sistem. Metode MFCC digunakan untuk proses ekstraksi ciri dimana akustik vektor atau vektor ciri direduksi jumlah dimensinya menggunakan PCA, lalu hasil ektraksi ciri tersebut diklasterkan dengan algoritma Y. Linde, A. Buzo, dan R. Gray (LBG) dan diklasifikasikan menggunakan HMM. Pengurangan dimensi pada vektor akustik atau vektor ciri dilakukan karena jumlah dimensi data yang diekstrak dari sinyal suara menggunakan MFCC yang tinggi. Metode PCA dipilih karena PCA mampu memproyeksikan data ke space yang bervariansi tinggi sehingga data yang redundant atau kurang signifikan bisa direduksi. Selain itu pengurangan dimensi pada vektor ciri dapat meningkatkan performansi sistem dikarenakan jumlah dimensi yang berkura...
Pengenalan suara manusia menggunakan metode Linier Predictive Coding (LPC)
2013
INDONESIA: Pengenalan suara adalah teknologi masa depan yang menggantikan cara interaksi manusia dengan komputer dengan menggabungkan beberapa disiplin ilmu seperti pengenalan sinyal dan pengenalan pola. Dimana interaksi user dengan sistem dapat dilakukan dengan memberikan inputan suara. Linier Predictive Coding (LPC) adalah salah satu metode parametrik yang digunakan untuk merepresentasikan sinyal. Umumnya LPC digunakan karena menyediakan pemodelan yang baik untuk sinyal suara, LPC dapat dengan mudah dan langsung diterapkan baik secara perangkat lunak maupun perangkat keras karena perhitungan matematis yang dilibatkan realtif lebih singkat dari metode-metode yang dikenal sebelumnya. Fast Fourier transform (FFT) menjadi penting untuk bermacam–macam aplikasi, dari pengolahan sinyal digital dan memecahkan persamaan diferensial parsial menjadi algoritma-algoritma untuk penggandaan bilangan integer dalam jumlah yang banyak. Secara garis besar, cara kerja sistem pengenalan suara ini iala...
2018
Suara/ucapan adalah cara kita sebagai manusia untuk berkomunikasi dan mengekspresikan diri. Proses komunikasi tidak hanya terjadi antar manusia saja. Proses komunikasi juga terjadi antara manusia dan komputer. Pada penelitian ini akan dibangun sistem pencarian kode dari diagnosis penyakit dengan menggunakan masukan suara dan luaran teks. Tujuan dari penelitian ini adalah untuk merancang dan membangun aplikasi Speech to text kode ICD-10 dengan metode MFCC (Mel Frequency Cepstral Coefficient) dan HMM (Hidden Markov Model) yang mampu memberikan informasi mengenai kode ICD-10 dari nama diagnosis penyakit dengan pencarian menggunakan suara. Berdasarkan penelitian dan pengujian sistem Aplikasi Speech to text Kode ICD-10 mampu memberikan informasi mengenai kode diagnosis dari suatu penyakit. Hasil kecocokan data masukan dan luaran dari pengujian yang telah dilakukan menggunakan paramater jumlah data set 3, filter bank 20, iterasi 2 dan state 3 mendapatkan nilai persentase 100%.
2011
Pengenalan ucapan dengan jaringan syaraf tiruan dapat dipahami dan dimengerti melalui beberapa metode ekstraksi ciri, diantaranya dengan metode LPC dan transformasi Fourier. Linear Predictive Coding adalah salah satu alat dalam pemrosesan atau analisa sinyal untuk memperoleh fitur atau ciri unik dari tiap pola suara. Sedangkan Transformasi Fourier digunakan untuk memperjelas ciri tiap pola karena dapat memberikan informasi-informasi yang disajikan dalam ranah frekuensi baik yang bersifat diskret maupun kontinu. JST (Jaringan Syaraf Tiruan) banyak digunakan untuk aplikasi pengenalan pola (pattern recognition). Kemampuan untuk pembelajaran dari data pelatihan dan generalisasi ke situasi/kondisi yang baru adalah alasan mendasar mengapa JST banyak digunakan. Hasil yang di harapkan adalah suatu sistem kendali robot yang efektif hanya dengan menggunakan suara manusia. Suara manusia yang masuk akan dikenali oleh JST dan diubah menjadi suatu karakter ASCII yang dapat dikenali oleh robot kemudian dikirimkan melalui komunikasi serial ke robot. Dalam aplikasi ini pengenalan ucapan meliputi lima kata, diantaranya maju, mundur, kanan, kiri dan stop. Mula-mula sinyal suara direkam dalam bentuk file *.wav. Kemudian sinyal suara analog dicuplik menjadi sinyal digital dengan kecepatan cuplik 8000 Hz. Untuk proses ekstraksi parameter suara digunakan metode Linear Predictive Coding (LPC) untuk mendapatkan koefisien cepstral. Koefisien cepstral LPC ini ditransformasikan ke dalam domain frekuensi dengan beberapa titik pada Fast Fourier Transform (FFT), yaitu 32, 64, 128, dan 512 point. Selanjutnya dari data tersebut diambil setengahnya saja yang sudah mewakili representasi frekuensi dari sinyal tersebut. Data numeris tersebut dilatih dengan Jaringan Syaraf Tiruan untuk dikenali. Metoda pembelajaran yang digunakan adalah Back Propagation. Dari hasil pembelajaran akan didapatkan bobot jaringan yang telah berubah. Jaringan diuji dengan memberikan masukkan berupa data pengujian. Hasil pengujian menunjukkan bahwa pengenalan jaringan terhadap data baru lebih rendah terhadap data latihan. Dari beberapa variasi pengujian diperoleh jaringan terbaik net9 dengan prosentase pengenalan suara dari responden di dalam database sebesar 86 %, dan prosentase pengenalan suara dari responden di luar database sebesar 66,67 %.