Implementasi Speech Recognition Pada Kata Kerja Dasar Menggunakan Metode MFCC (original) (raw)
Related papers
2018
Abstrak Karya tulis ini membahas implementasi sistem pengenalan ucapan dalam bahasa Indonesia dimana suatu perangkat membaca file suara lalu ditranslasikan menjadi teks sesuai dengan kata yang diucapkan pada file suara tersebut didasarkan pada kata yang sudah dilatih ke dalam sistem. Metode MFCC digunakan untuk proses ekstraksi ciri dimana akustik vektor atau vektor ciri direduksi jumlah dimensinya menggunakan PCA, lalu hasil ektraksi ciri tersebut diklasterkan dengan algoritma Y. Linde, A. Buzo, dan R. Gray (LBG) dan diklasifikasikan menggunakan HMM. Pengurangan dimensi pada vektor akustik atau vektor ciri dilakukan karena jumlah dimensi data yang diekstrak dari sinyal suara menggunakan MFCC yang tinggi. Metode PCA dipilih karena PCA mampu memproyeksikan data ke space yang bervariansi tinggi sehingga data yang redundant atau kurang signifikan bisa direduksi. Selain itu pengurangan dimensi pada vektor ciri dapat meningkatkan performansi sistem dikarenakan jumlah dimensi yang berkura...
Metoda Mel Frequency Cepstrum Coefficients (MFCC) untuk Mengenali Ucapan pada Bahasa Indonesia
2012
Sampai saat ini belum ada suatu aplikasi yang dapat digunakan untuk mengubah ucapan dalam bahasa Indonesia menjadi tulisan yang memenuhi kaidah penulisan bahasa Indonesia. Kajian untuk mengubah ucapan menjadi tulisan, setakat ini baru berada pada pengubahan ucapan abjad untuk diterjemahkan menjadi huruf. Sementara, jika ucapan melalui bahasa Indonesia dapat di ubah ke dalam tulisan akan dapat menambah pola penyebaran informasi di kalangan akademis, pemerintahan dan masyarakat secara luas dan adaptif. Di dalam pertemuan ilmiah, non ilmiah, interogasi, dan pidato politik yang umumnya tidak menggunakan teks book sebagai media penyampai secara baku. Audien yang disasar oleh informasi yang diciptakan oleh pertemuan tersebut akan lebih merata, luas, dan seluruh strata. Walau suara dapat menjadi media penyampai informasi namun keberagaman kemasan yang dibuat dapat meningkatkan penetrasi informasi pada seluruh lapisan strata masyarakat. Konstruksi perangkat lunak dibuat dengan menggunaka...
Politeknosains, 2016
Controlling automated sluice based on speech recognition commonly using speech recognition module with microcontroller or google speech. Unfortunately, use of speech recognition module commonly high cost. Google speech so requires availability of internet. The extraction of speech with MFCC and Neural Network can be solution. In this research, the speech of command for sluice recorded and then the coefficient of signal speech taken using MFCC algorithm. These coefficients becomes fetures of speech signal and using as input in neural network to be training data. After training, the testing using data test conducted to see how the algorithm of neural network have good working and how the effectiveness of controlling automatic sluice. There is 5 coefficients of the word of "BUKA" (english: "OPEN") dan so is word of "TUTUP" (english: "CLOSE"). That 5 coefficients was taken as features then repeated 15 times to be used as training data in neural network. The total number of command speech is 30. The 20 test data for "BUKA" and 20 for "TUTUP" used to test the system in controlling sluice by speech. After the test we get the result the accuracy for "BUKA" is 75% and 55% for "TUTUP". Testing with giving command using "OPEN" and "CLOSE" give us the result by there is no stability in output of the value of neural network (y). From the neural network training, the output of training is 1.01325 for "BUKA" and 0.0930902 for "TUTUP". With using the other word we get the value of y is changeable unconstantly.
Pengenalan Ucapan Bahasa Indonesia Menggunakan MFCC dan Recurrent Neural Network
2020
Pengenalan ucapan ( speech recognition ) merupakan perkembangan teknologi dalam bidang suara. Pengenalan ucapan memungkinkan suatu perangkat lunak mengenali kata-kata yang diucapkan oleh manusia dan ditampilkan dalam bentuk tulisan. Namun masih terdapat masalah untuk mengenali kata-kata yang diucapkan, seperti karakteristik suara yang berbeda, usia, kesehatan, dan jenis kelamin. Penelitian ini membahas pengenalan ucapan bahasa Indonesia dengan menggunakan Mel-Frequency Cepstral Coefficient (MFCC) sebagai metode ekstraksi ciri dan Recurrent Neural Network (RNN) sebagai metode pengenalannya dengan membandingkan arsitektur Elman RNN dan arsitektur Jordan RNN. Pembagian data latih dan data uji dilakukan dengan menggunakan metode k-fold cross validation dengan nilai k=5. Hasil penelitian menunjukkan bahwa arsitektur Elman RNN pada parameter 900 hidden neuron , target error 0.0005, learning rate 0.01, dan maksimal epoch 10000 dengan koefisien MFCC 20 menghasilkan akurasi terbaik sebesar 7...
Desain dan Implementasi Voice Command Menggunakan Metode MFCC dan HMMs
2015
Semakin seringnya interaksi manusia terhadap teknologi menuntut pengembangan metode interaksi dengan mesin ke arah yang lebih natural. Suara yang merupakan komunikasi yang paling sering digunakan manusia menjadikannya salah satu metode interaksi yang natural. Maka dari itu pengembangan sistem yang dapat mengenali ucapan manusia sebagai suatu aksi pada mesin dapat menjadi satu pilihan untuk permasalahan tersebut. Voice command yang merupakan sistem speech recognition untuk meberikan fungsi dan aksi pada sistem yang telah didefinisikan sebagai Command dan Control systems. Nilai amplitudo diambil dari sinyal suara masukan, sehingga didapatkan kumpulan angka real yang menjadi nilai masukan untuk ekstraksi ciri. Metode ekstraksi ciri yang digunakan pada tugas akhir ini adalah Mel Frequency Cepstral Coefficient (MFCC). Tahapan awal MFCC adalah memecah nilai amplitudo sinyal masukan menjadi frame-frame yang diolah dengan menggunakan mel-filterbak yang diadaptasi dari cara kerja pendengaran...
Implementasi Metode MFCC Dan DTW Untuk Pengenalan Jenis Suara Pria Dan Wanita
MIND Journal
MFCC (Mel-Frequency Cepstral Coefficient ) dan DTW (Dynamic Time Warping)adalah suatu metode dalam mengolah suara, pada penelitian ini pengolahan suarayang dilakukan bertujuan untuk pengenalan jenis suara pria dan wanita.Penentuan jenis suara pria atau wanita biasanya dilakukan dalam penentuankelompok paduan suara. MFCC merupakan metode untuk ekstraksi ciri, selainMFCC digunakan metode lain yaitu DTW yang merupakan metode pencocokansuara latih dan suara uji, teknik ini berguna untuk menghitung jarak antara duadata dengan pola-pola yang berbeda dan menghitung nilai dan jarak dari datatersebut. Pada penelitian ini dibangun suatu sistem yang dapat mengenali jenissuara pria dan wanita, Jenis suara pada pria dibagi menjadi Tenor, Bariton danBass, sedangkan pada wanita dibagi menjadi Sopran, Mezzosopran dan Alto. HasilPenelitian yang didapat yaitu untuk tingkat akurasi pada wanita dengan jenis suaraalto didapatkan presentase 80%, untuk tingkat akurasi jenis suara mezzosoprandidapatkan 90%...
Sistem Pengenal Tutur Bahasa Indonesia Berbasis Suku Kata Menggunakan MFCC, Wavelet Dan HMM
This paper presented the development of an automatic speech recognition (ASR) system based on Indonesian syllable using HMM classifier. The recognition rate for an ASR based on Indonesian syllable is still low. This problem might be occurs because the extraction process was applicated directly to the whole syllables. Therefore, in this research the feature extraction process is implemented to each of its constituent phonemes. MFCC and WPT were used as the feature extraction method. Feature of MFCC is obtained by applying frame of 512 sample for each phoneme. In Mel Frequency Warping process using 40 units of triangular filter banks. As for WPT feature extraction process, wavelet daubechies db3 and db7 were used with 5th level decomposition. Feature that extracted then randomly selected and established as a syllable's feature. The recognition accuracy using training data showed 100% accuracy for WPT feature, and 75% for MFCC feature. While using the external testing data the result showed the best accuracy are 100% for WPT db7, 83.33% for WPT db3 and 50% for MFCC. Whole best recognition results were obtained at the point of intersection for the consonants are of 1024 samples.
2018
Suara/ucapan adalah cara kita sebagai manusia untuk berkomunikasi dan mengekspresikan diri. Proses komunikasi tidak hanya terjadi antar manusia saja. Proses komunikasi juga terjadi antara manusia dan komputer. Pada penelitian ini akan dibangun sistem pencarian kode dari diagnosis penyakit dengan menggunakan masukan suara dan luaran teks. Tujuan dari penelitian ini adalah untuk merancang dan membangun aplikasi Speech to text kode ICD-10 dengan metode MFCC (Mel Frequency Cepstral Coefficient) dan HMM (Hidden Markov Model) yang mampu memberikan informasi mengenai kode ICD-10 dari nama diagnosis penyakit dengan pencarian menggunakan suara. Berdasarkan penelitian dan pengujian sistem Aplikasi Speech to text Kode ICD-10 mampu memberikan informasi mengenai kode diagnosis dari suatu penyakit. Hasil kecocokan data masukan dan luaran dari pengujian yang telah dilakukan menggunakan paramater jumlah data set 3, filter bank 20, iterasi 2 dan state 3 mendapatkan nilai persentase 100%.
Pada paper ini, sebuah metode Mel-Frequency Cepstrum Coefficients (MFCC) sebagai pengekstraksi ciri telah dikembangkan sebagai perluasan dari MFCC pada ruang satu dimensi (1D-MFCC) ke ruang dua dimensi (2D-MFCC). Pada metode 1D-MFCC, komponen masukan sistem adalah nilai spectrum sinyal yang diperoleh melalui transformasi Fourier, maka pada metode 2D-MFCC sebagai komponen masukan sistem adalah data bispectrum sinyal. Oleh karena itu, perubahan yang dilakukan adalah dimensi filter serta transformasi kosinus pada tahap akhir metode dari ruang satu dimensi menjadi ruang dua dimensi. Efektifitas metode 2D-MFCC yang diusulkan ini kemudian diuji pada sistem untuk identifikasi pembicara menggunakan HMM sebagai pengenal pola. Percobaan dilakukan pada sistem untuk mengenali 10 pembicara dengan data latih masing-masing pembicara sebanyak 20, 40 dan 60 data suara dari 80 suara yang tersedia untuk setiap pembicara. Hasil dengan data uji menunjukkan bahwa sistem memiliki akurasi yang tinggi, yaitu diatas 99%, 92% dan 88% dengan masing-masing untuk model dengan data latih sebanyak 60, 40 dan 20.
MFCC dan KNN untuk Pengenalan Suara Artikulasi P
Aviation Electronics, Information Technology, Telecommunications, Electricals, and Controls (AVITEC), 2020
Cleft lip and palate (CLP) is a term for patients who experience speech organ disorders, that disorder is caused by a gap found in the lip or palate. Patients will experience speech problems. Pattern recognition in CLP sound is still small in Indonesia. In this research in the language identification of CLP and standard sound patterns using the extraction of the Mel Frequency Cepstral Coefficients (MFCC) feature with K-Nearest Neighbor (KNN) classification and K-Fold cross-validation. By making words that have the letter /p/ as a reference, known as bilabial. The words used include Paku, Kapak, and Atap. The accuracy of recognition results reached more than 69%, with a minimum accuracy of 41%.