PSOLA (original) (raw)
PSOLA (Pitch Synchronous Overlap and Add) is a digital signal processing technique used for speech processing and more specifically speech synthesis. It can be used to modify the pitch and duration of a speech signal. It was invented around 1986. PSOLA can be used to change the prosody of a speech signal.
Property | Value |
---|---|
dbo:abstract | PSOLA (Pitch Synchronous Overlap and Add) is a digital signal processing technique used for speech processing and more specifically speech synthesis. It can be used to modify the pitch and duration of a speech signal. It was invented around 1986. PSOLA works by dividing the speech waveform in small overlapping segments. To change the pitch of the signal, the segments are moved further apart (to decrease the pitch) or closer together (to increase the pitch). To change the duration of the signal, the segments are then repeated multiple times (to increase the duration) or some are eliminated (to decrease the duration). The segments are then combined using the overlap add technique. PSOLA can be used to change the prosody of a speech signal. (en) PSOLA (acronimo di Pitch-Synchronous Overlap and Add, sovrapposizione e aggiunta a toni sincroni) è un algoritmo usato nella sintesi vocale. PSOLA, come MBROLA, si basa sui , che sono le unità elementari del discorso che spaziano dal centro di una regione di suono stazionario al centro della regione successiva, ossia rappresentano la transizione da un suono all'altro. Secondo alcuni ricercatori, la classificazione delle transizioni tra suoni costituirebbe l'elemento chiave per il riconoscimento e la comprensione di segmenti del discorso parlato. PSOLA è una tecnica nel dominio del tempo, ossia elabora il segnale agendo sulla sua forma d'onda nativa e non sulla sua scomposizione in frequenza. L'algoritmo di base consiste in tre passaggi fondamentali. In primo luogo, il segnale vocale viene suddiviso in segnali più piccoli, di durata inferiore e sovrapposti tra di loro. Questa suddivisione si ottiene marcando i picchi di tonalità del segnale originale e usando tali marcatori per segmentare il segnale. Il meccanismo chiave di PSOLA infatti è la determinazione corretta dei marcatori di tono: da un punto di vista dell'algoritmo ideale, questi marcatori dovrebbero essere spaziati uniformemente in modo periodico, a intervalli uguali al periodo fondamentale del segnale, e allo stesso tempo coincidere con picchi del segnale stesso. Nella pratica queste due condizioni spesso non coincidono, soprattutto per il fatto che nel parlato il periodo fondamentale del segnale non rimane sempre costante. Se ci si basasse solo sui picchi, allora i marcatori non sarebbero più distribuiti in modo periodico. D'altro canto, se si marcasse il segnale solo in base alla periodicità stretta, si potrebbe perdere la necessaria corrispondenza tra marcatori e picchi, rendendo quindi inutile la marcatura stessa. Nella pratica, per approssimare al meglio le condizioni ideali richieste dall'algoritmo si frammenta il segnale in segmenti che contengono da due a quattro picchi (periodi tonali): studi matematici hanno infatti determinato che questo è il compromesso migliore. Nella fase successiva, i segnali più piccoli vengono modificati o ripetendo o eliminando segmenti di parlato, a seconda che il tono finale debba essere più elevato o più basso rispetto al tono sorgente. Questa operazione modifica la durata del segnale, modificandone quindi anche la frequenza fondamentale. Nell'ultima fase, i segmenti rimanenti vengono ricombinati tramite sovrapposizione e aggiunta, in modo tale che i marcatori risultino spaziati uniformemente (sincronizzati) come richiesto dall'algoritmo. Il risultato finale è un segnale che ha lo stesso spettro acustico dell'originale ma una frequenza fondamentale differente: questo risulta in un cambio di tonalità della voce, lasciando però inalterati gli altri parametri vocali. (it) PSOLA (afkorting voor Pitch Synchronous Overlap Add Method) is een algoritme, dat veel gebruikt wordt binnen het kader van de spraaksynthese. Het doel is het produceren van gesynthetiseerde spraak die zo natuurlijk mogelijk aandoet. Net als bij verwante technieken zoals wordt er bij PSOLA veel gebruikgemaakt van difonen. De techniek bestaat uit het met behulp van de de toonhoogte beïnvloeden van een spraaksignaal, zonder hierbij iets aan de duur van het signaal te veranderen. De bijbehorende golfvorm wordt opgedeeld in kleinere en elkaar overlappende spraaksegmenten, die vervolgens uit elkaar of juist naar elkaar toe worden gedreven, al naargelang men de toonhoogte wil verhogen of verlagen. De duur van de resulterende golfvorm is precies gelijk aan die van de oorspronkelijke golfvorm. Het omgekeerde - dus dat de duur van het spraaksignaal wordt beïnvloed terwijl de toonhoogte hetzelfde blijft - kan echter ook. (nl) PSOLA (Pitch Synchronous Overlap and Add; ピッチ同期重畳加算) は「ピッチに基づいた音声の分割・変換・再合成」をおこなう音声処理の枠組みである。ピッチ同期波形重畳法とも。 PSOLAを採用した音声処理ではスペクトル包絡/フォルマントを保ったまま音高や持続時間(テンポ)を変更できる。 PSOLAは次の3つの段階(分析・変換・再合成)からなる。 1. * 分析: 信号を短い区間の集合へ変換。区間長は可変、短時間でのピッチに同期(Pitch-Synchronous) 2. * 変換: 区間ごとあるいは区間単位で操作 3. * 再合成: 重畳加算(OverLap-Add) 分析では、対象の音声波形がもつ周期(ピッチ)と同期した分析窓を用い、互いにオーバーラップした短い断片/区間(基本周期の2倍程度)に分割する。 変換例として、信号のピッチを下げるには断片を互いに遠ざけ、ピッチを上げるには互いに近付けて断片を再配置する。断片を離す/重ねる結果として信号長/持続時間が変化するため、次の補正を行う。信号の持続時間を長くするには 引き続き同じ断片を複数回繰り返し、短くするには いずれかの断片を間引きする。 変換された断片は重畳加算法 (英語: overlap-add) で結合され信号が再合成される。 PSOLAを採用しかつ操作が時間領域でおこなわれるアルゴリズムはTD-PSOLAと総称され、また周波数領域でおこなわれるアルゴリズムはFD-PSOLAと総称される。 PSOLAは音声信号の韻律 (英語: prosody) の変更に使用できる。 (ja) |
dbo:thumbnail | wiki-commons:Special:FilePath/Analiza_cech_supraseg...olskiego_Fig.7.1_(p.63).jpg?width=300 |
dbo:wikiPageExternalLink | http://www.acoustics.hut.fi/~slemmett/dippa/thesis.pdf http://cnx.org/content/m12474/latest/ |
dbo:wikiPageID | 364456 (xsd:integer) |
dbo:wikiPageLength | 2294 (xsd:nonNegativeInteger) |
dbo:wikiPageRevisionID | 985301450 (xsd:integer) |
dbo:wikiPageWikiLink | dbr:File:Analiza_cech_suprasegmentalnych_języka_polskiego_Fig.7.1_(p.63).jpg dbr:Duration_(music) dbc:Speech_synthesis dbr:Signal_processing dbr:Overlap_add dbr:Pitch_(music) dbr:Speech_synthesis dbr:Speech_processing dbr:Prosody_(linguistics) dbr:Audio_time_stretching_and_pitch_scaling |
dbp:wikiPageUsesTemplate | dbt:Reflist dbt:Speech_synthesis dbt:Tech-stub |
dct:subject | dbc:Speech_synthesis |
gold:hypernym | dbr:Technique |
rdf:type | dbo:TopicalConcept yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:Algorithm105847438 yago:Event100029378 yago:Procedure101023820 yago:PsychologicalFeature100023100 yago:YagoPermanentlyLocatedEntity yago:Rule105846932 yago:WikicatAlgorithms |
rdfs:comment | PSOLA (Pitch Synchronous Overlap and Add) is a digital signal processing technique used for speech processing and more specifically speech synthesis. It can be used to modify the pitch and duration of a speech signal. It was invented around 1986. PSOLA can be used to change the prosody of a speech signal. (en) PSOLA (acronimo di Pitch-Synchronous Overlap and Add, sovrapposizione e aggiunta a toni sincroni) è un algoritmo usato nella sintesi vocale. PSOLA, come MBROLA, si basa sui , che sono le unità elementari del discorso che spaziano dal centro di una regione di suono stazionario al centro della regione successiva, ossia rappresentano la transizione da un suono all'altro. Secondo alcuni ricercatori, la classificazione delle transizioni tra suoni costituirebbe l'elemento chiave per il riconoscimento e la comprensione di segmenti del discorso parlato. (it) PSOLA (Pitch Synchronous Overlap and Add; ピッチ同期重畳加算) は「ピッチに基づいた音声の分割・変換・再合成」をおこなう音声処理の枠組みである。ピッチ同期波形重畳法とも。 PSOLAを採用した音声処理ではスペクトル包絡/フォルマントを保ったまま音高や持続時間(テンポ)を変更できる。 PSOLAは次の3つの段階(分析・変換・再合成)からなる。 1. * 分析: 信号を短い区間の集合へ変換。区間長は可変、短時間でのピッチに同期(Pitch-Synchronous) 2. * 変換: 区間ごとあるいは区間単位で操作 3. * 再合成: 重畳加算(OverLap-Add) 分析では、対象の音声波形がもつ周期(ピッチ)と同期した分析窓を用い、互いにオーバーラップした短い断片/区間(基本周期の2倍程度)に分割する。 変換例として、信号のピッチを下げるには断片を互いに遠ざけ、ピッチを上げるには互いに近付けて断片を再配置する。断片を離す/重ねる結果として信号長/持続時間が変化するため、次の補正を行う。信号の持続時間を長くするには 引き続き同じ断片を複数回繰り返し、短くするには いずれかの断片を間引きする。 変換された断片は重畳加算法 (英語: overlap-add) で結合され信号が再合成される。 (ja) PSOLA (afkorting voor Pitch Synchronous Overlap Add Method) is een algoritme, dat veel gebruikt wordt binnen het kader van de spraaksynthese. Het doel is het produceren van gesynthetiseerde spraak die zo natuurlijk mogelijk aandoet. Net als bij verwante technieken zoals wordt er bij PSOLA veel gebruikgemaakt van difonen. (nl) |
rdfs:label | PSOLA (it) PSOLA (ja) PSOLA (en) PSOLA (nl) |
owl:sameAs | freebase:PSOLA yago-res:PSOLA wikidata:PSOLA dbpedia-it:PSOLA dbpedia-ja:PSOLA dbpedia-nl:PSOLA dbpedia-vi:PSOLA https://global.dbpedia.org/id/2efEW |
prov:wasDerivedFrom | wikipedia-en:PSOLA?oldid=985301450&ns=0 |
foaf:depiction | wiki-commons:Special:FilePath/Analiza_cech_supraseg...h_języka_polskiego_Fig.7.1_(p.63).jpg |
foaf:isPrimaryTopicOf | wikipedia-en:PSOLA |
is dbo:wikiPageWikiLink of | dbr:MBROLA dbr:Speech_synthesis dbr:Audio_time_stretching_and_pitch_scaling |
is rdfs:seeAlso of | dbr:Audio_time_stretching_and_pitch_scaling |
is foaf:primaryTopic of | wikipedia-en:PSOLA |