Aplikasi Speech-To-Text Dengan Metode Mel Frequency Cepstral Coefficient (MFCC) Dan Hidden Markov Model (HMM) Dalam Pencarian Kode ICD-10 (original) (raw)

Metode Mel Frequency Cepstral Coeffisients (MFCC) Pada klasifikasi Hidden Markov Model (HMM) Untuk Kata Arabic pada Penutur Indonesia

MATICS, 2016

Speech recognition is a system to transform the spoken word into text. Human voice signals have a very high of variability. Speech signals in the different pronunciation text, also resulting in distinctive speech patterns. This, furthermore, happens if the text is spoken by a speaker who is not the mother tongue of the speakers. For example, text Arabic words spoken by Indonesian speaker. In this study, Mel Frequency cepstral Coeffisients (MFCC) feature extraction techniques explored for voice recognition of the Arabic words for Indonesian speakers with data training using Arabian native speakers. Furthermore, features that have been extracted, classified using Hidden Markov Model (HMM). HMM is one of the sound modeling where the voice signal is analyzed and searched the maximum probability value that can be recognized, from the modeling results will be obtained parameters are then used in the word recognition process. Recognized word is a word that has the maximum suitability. The system produces an accuracy by an average of 83.1% for test data sampling frequency of 8,000 Hz, 82.3% for test data sampling frequency of 22050 Hz, 82.2% for test data sampling frequency of 44100 Hz.

Metoda Mel Frequency Cepstrum Coefficients (MFCC) untuk Mengenali Ucapan pada Bahasa Indonesia

2012

Sampai saat ini belum ada suatu aplikasi yang dapat digunakan untuk mengubah ucapan dalam bahasa Indonesia menjadi tulisan yang memenuhi kaidah penulisan bahasa Indonesia. Kajian untuk mengubah ucapan menjadi tulisan, setakat ini baru berada pada pengubahan ucapan abjad untuk diterjemahkan menjadi huruf. Sementara, jika ucapan melalui bahasa Indonesia dapat di ubah ke dalam tulisan akan dapat menambah pola penyebaran informasi di kalangan akademis, pemerintahan dan masyarakat secara luas dan adaptif. Di dalam pertemuan ilmiah, non ilmiah, interogasi, dan pidato politik yang umumnya tidak menggunakan teks book sebagai media penyampai secara baku. Audien yang disasar oleh informasi yang diciptakan oleh pertemuan tersebut akan lebih merata, luas, dan seluruh strata. Walau suara dapat menjadi media penyampai informasi namun keberagaman kemasan yang dibuat dapat meningkatkan penetrasi informasi pada seluruh lapisan strata masyarakat. Konstruksi perangkat lunak dibuat dengan menggunaka...

Ekstraksi Ciri Mel Frequency Cepstral Coefficient (MFCC) Dan Rerata Coefficient Untuk Pengecekan Bacaan Al-Qur’An

Telematika, 2018

AbstrakBelajar membaca Al-Qur’an menggunakan alat bantu aplikasi sangat diperlukan dalam mempermudah dan memahami bacaan Al-Qur’an. Pengecekan bacaan Al-Qur’an salah satu metode dengan MFCC untuk pengenalan suara cukup baik dalam speech recognition.Metode tersebut telah lama diperkenalkan oleh Davis dan Mermelstein sekitar tahun 1980. MFCC merupakan metode ekstraksi ciri untuk mendapatkan cepstral coefficient dan frame sehingga dapat digunakan untuk pemrosesan pengenalan suara agar lebih baik dalam ketepatan. Tahapan MFCC mulai dari pre-emphasis, frame blocking, windowing, Fast Fourier Transform (FFT), Mel Frequency Wrapping (MFW), Discrete Cosine Transoform (DCT) dan cepstral liftreing. Hasil pengecekan bacaan Al-Qur’an diujikan dalam sebelas surat mulai dari surat Al-Fatihah, Al-Baqarah, Al-Imran, Al-Hadid, Al-Ashr, Ar-rahman, Al-Alaq, Al-Kautsar, Al-Ikhlas, Al-Falaq dan An-Nas menghasilkan akurasi sebesar rata-rata 51,8%. Kata Kunci : Suara, Bacaan, MFCC, Kesesuaian, Ekstraksi C...

Metode Linear Predictive Coding (LPC) Pada klasifikasi Hidden Markov Model (HMM) Untuk Kata Arabic pada penutur Indonesia

Matics, 2016

— Arabic language has a slightly different pronunciation than the Indonesian so to learn it takes a long time. In Arabia itself, there are variants in the pronunciation of the Arabic language or dialect. Dialect is a language, and letters are used by a particular group of people in a clump that makes the difference between the readings even greeting one another. In Indonesia, alone speakers of Indonesia itself have a different dialect to native speakers. This study was analyzed of Arabic writing suitability by Indonesian speakers using Linear Predictive Coding extraction techniques. The text produces different patterns of speech. This also happens if the text is spoken by a speaker who is not the mother tongue of the speakers. The data training in this study is using the Arabic speaker sound. The feature extraction is classified using Hidden Markov Model. In the classification, using Hidden Markov Model, voice signal is analyzed and searched the maximum possible value that can be r...

Aplikasi Pengenalan Ucapan dengan Ekstraksi Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf Tiruan (JST) Learning Vector Quantization (LVQ) untuk Mengoperasikan Kursor Komputer

During this time, computer cursor operation was done by pressing and moving the mouse. So, this is less flexible for computer user that require movement in operating a computer, since to use mouse comfortably someone has to sit. Moreover, physical completeness is required for mouse operating, so that for someone who has physical disabilities feels difficult to operate it. Therefore, it is required to develop a system that provides a better comfort and flexibility not only for the healthy user computer but also for the user computer who has physical disabilities. In this final project, computer cursor operation program via voice is created. With this program, someone will have more flexibility when operating the computer cursor and also people with physical disabilities is enabled to communicate with computer. Voice recognition is a technology that is apllied in this program, with the feature extraction process used MFCC (Mel-Frequency Cepstrum Coefficients) method. As for the recognitions process used artificial neural network type LVQ (Learning Vector Quantization). Voice is passed through a microphone and then it is analyzed by MFCC to produce MFCC coefficients. These coefficients are used as input vector for LVQ neural network and used as data to train the network until it has the classification capability. Programming language that is used in creating this software is Delphi programming language. Based on the result of the testing program, it is found that the success percentage rate of voice recognition with training data, that is data which is derived from databases that have been recorded and trained into the program which amounts to 240 data, is 88,89 %. While in the testing with test data, that is data which is derived from the real time sayings of respondents which is amounts to 240 data, it is found that the success percentage rate of voice recognition is 83,99 %.

Speech To Text Menggunakan Metode Hidden Markov Model

eProceedings of Engineering, 2019

, 2budhiirawan.staff.telkomuniversity.ac.id, 3michrandi.staff.telkomuniversity.ac.id Abstrak Aplikasi Speech to Text (STT) ini menggunakan metode Hidden Markov Models (HMM) Hybird dengan Gaussian Mixture Model (GMM). Tahap awal dari Hidden Markov Models adalah ketika ada suara, maka suara tersebut akan dikenali sebagai Speech Signal. Kemudian menggunakan Feature extraction yaitu Mel-frequency cepstral coefficients (MFCC) signal tersebut disimpan ke dalam frame-frame dan dicari nilai koefisien cepstralnya. Selanjutnya tiap vector di kuantisasi yang menghasilkan output simbol observasi (codebook). Setiap kata yang tidak dikenal maka akan dimodelkan dengan HMM/GMM sehingga mendapatkan model kata. Untuk proses pengenalan kata maka akan dihitung probabilitas kemiripan pola dari tiap model HMM/GMM yang dimiliki dengan hasil dari observasi. Hasil probabilitas paling maksimum kemudian ditetapkan sebagai kata yang di kenali. Pengujian ini dilakukan dengan mengubah nilai feature MFCC dan nilai mixture GMM. Performansi sistem diukur berdasarkan akurasi yang didapat dari parameter WER(Word Error Rate). Setelah dilakukan pengujian terhadap sistem dengan beberapa skenario, diperoleh akurasi terbaik 100% dalam mengenali 10 kata. Akurasi ini deperoleh dari hasil pengujian dengan MFCC 13 Feature dan GMM 6 mixture.

Deteksi Ujaran Kebencian Berbasis Video Dengan Metode Mel Frequency Cepstral Coefficients (MFCC) - Hidden Markov Model (HMM) Dan Convolutional Neural Network (CNN)

2019

Peningkatan penyebaran konten kebencian di media sosial membutuhkan tindakan penanggulangan yang serius. Sejumlah metode telah dikembangkan untuk mendeteksi konten kebencian secara otomatis dengan tujuan mengklasifikasikan konten tekstual sebagai ujaran kebencian atau bukan. Dalam penelitian ini, pendeteksian ujaran kebencian akan dilakukan pada konten video dengan model isolated word recognition. Model ini hanya dapat mendeteksi kata, bukan kalimat sehingga harus dilakukan pemotongan kalimat menjadi kata menggunakan metode silence split. Metode Mel Frequency Cepstral Coefficients (MFCC) - Hidden Markov Model (HMM), dan Convolutional Neural Network (CNN) digunakan untuk mengklasifikasikan konten video sebagai ujaran kebencian. Pengujian pada penelitian ini terdiri dari 2 bagian, yakni pengujian speech to text menggunakan metode word error rate (WER) dan menghasilkan WER sebesar 9.433% untuk data testing perempuan dan WER sebesar 7.54% untuk data testing laki-laki, serta pengujian te...

Perluasan Metode MFCC 1D Ke 2D Sebagai Esktraksi Ciri Pada Sistem Identifikasi Pembicara Menggunakan Hidden Markov Model (HMM)

Pada paper ini, sebuah metode Mel-Frequency Cepstrum Coefficients (MFCC) sebagai pengekstraksi ciri telah dikembangkan sebagai perluasan dari MFCC pada ruang satu dimensi (1D-MFCC) ke ruang dua dimensi (2D-MFCC). Pada metode 1D-MFCC, komponen masukan sistem adalah nilai spectrum sinyal yang diperoleh melalui transformasi Fourier, maka pada metode 2D-MFCC sebagai komponen masukan sistem adalah data bispectrum sinyal. Oleh karena itu, perubahan yang dilakukan adalah dimensi filter serta transformasi kosinus pada tahap akhir metode dari ruang satu dimensi menjadi ruang dua dimensi. Efektifitas metode 2D-MFCC yang diusulkan ini kemudian diuji pada sistem untuk identifikasi pembicara menggunakan HMM sebagai pengenal pola. Percobaan dilakukan pada sistem untuk mengenali 10 pembicara dengan data latih masing-masing pembicara sebanyak 20, 40 dan 60 data suara dari 80 suara yang tersedia untuk setiap pembicara. Hasil dengan data uji menunjukkan bahwa sistem memiliki akurasi yang tinggi, yaitu diatas 99%, 92% dan 88% dengan masing-masing untuk model dengan data latih sebanyak 60, 40 dan 20.

Aplikasi Pengenalan Ucapanmenggunakan Linear Predictive Coding (LPC) Dan Hidden Markov Model (HMM)

2015

Salah satu bidang pengolahan sinyal yang berpengaruh dalam teknologi komunikasi adalah pengenalan ucapan. Pengenalan ucapan telah memungkinkan suatu perangkat lunak untuk mengenali kata-kata yang diucapkan. Aplikasi pengenalan ucapan dapat menjadi solusi untuk mengenali kata dari sebuah ucapan. Aplikasi ini dikembangkan menggunakan Linear Predictive Coding (LPC) untuk ekstraksi ciri sinyal ucapan dan Hidden Markov Model (HMM) untuk pembentukan model tiap kata ucapan. Data ucapan yang digunakan untuk pelatihan dan pengujian berasal dari 10 sumber perekam (5 pria dan 5 wanita) yang masing-masing mengucapkan 10 kata dan untuk setiap pengucapannya diucapkan sebanyak 10 kali. Pengujian dilakukan dengan menggunakan 10-fold cross validation untuk setiap pasangan orde LPC dan state HMM. Performasi sistem diukur berdasarkan aspek rata-rata akurasi dari pengujian perekam pria dan wanita. Berdasarkan hasil pengujian, jumlah state HMM berpengaruh terhadap akurasi sistem dan hasil akurasi terbai...

Pengenalan Pola Fonem Vokal menggunakan Short Time Fourier Transform (STFT) dan Fitur Mel Frequency Cepstral Coefficient (MFCC)

Jurnal Teknologi Terpadu, 2021

Fonem adalah bagian yang menyusun semua bahasa lisan. Setiap kata dan kalimat yang diutarakan terdiri dari satu fonem atau lebih. Untuk meningkatkan akurasi dari model akustik, peneliti mencoba mengidentifikasi pola fonem vokal dalam bahasa Indonesia menggunakan STFT dan Fitur MFCC. Dalam penelitian ini, peneliti menganalisis data dari 398 file suara yang bersumber dari 51 orang partisipan dan mengeksplorasi perbedaan pola dari fonem vokal a,i,u,e,o. Dengan menggunakan SVM dan JST, fitur tersebut diklasifikasikan dan diuji. Hasil pengujian memberikan akurasi 93,8% menggunakan SVM dengan kernel radial.