Syntéza reči

Syntéza reči je umelá produkcia ľudskej reči . Počítačový systém používaný na tento účel sa nazýva syntetizátor reči a môže byť implementovaný do softvérových alebo hardvérových produktov. Systém prevodu textu na reč ( TTS ) konvertuje text v normálnom jazyku na reč; iné systémy poskytujú symbolické lingvistické reprezentácie, ako sú fonetické prepisy do reči. [1] Opačným procesom je rozpoznávanie reči .

Syntetizovaná reč môže byť vytvorená zreťazením častí zaznamenanej reči, ktoré sú uložené v databáze . Systémy sa líšia veľkosťou uložených rečových jednotiek; systém, v ktorom sú uložené telefóny alebo difóny , poskytuje najväčší výstupný rozsah, ale môže mu chýbať prehľadnosť. Pre špecifické oblasti použitia umožňuje ukladanie celých slov alebo viet vysokokvalitný výstup. Alternatívne môže syntetizátor začleniť model vokálneho traktu a iných charakteristík ľudského hlasu na vytvorenie úplne „syntetického“ hlasového výstupu. [2]

Kvalita rečového syntetizátora sa posudzuje podľa jeho podobnosti s ľudským hlasom a podľa jeho schopnosti jasne porozumieť. Zrozumiteľný program prevodu textu na reč umožňuje ľuďom so zrakovým postihnutím alebo s poruchami čítania počúvať písané slová na domácom počítači. Mnoho počítačových operačných systémov obsahuje syntetizátory reči už od začiatku 90. rokov.

Prehľad typického systému TTS

Systém prevodu textu na reč (alebo „motor“) sa skladá z dvoch častí: [3] front -end a back-end . Front-end má dve hlavné úlohy. Najprv konvertuje nespracovaný text obsahujúci symboly, ako sú čísla a skratky, na ekvivalent napísaných slov. Tento proces sa často nazýva normalizácia textu , predbežné spracovanie alebo tokenizácia . Front-end potom priradí ku každému slovu fonetické prepisy a rozdelí a označí text na prozodické jednotky , ako sú frázy , vety a vety . Proces priraďovania fonetických prepisov k slovám sa nazýva konverzia textu na fonému alebo graféma na fonému . Fonetické prepisy a prozódické informácie spolu tvoria symbolickú lingvistickú reprezentáciu, ktorá je výstupom front-endu. Back-end – často označovaný ako syntetizátor – potom prevedie symbolickú lingvistickú reprezentáciu na zvuk. V niektorých systémoch táto časť zahŕňa výpočet cieľovej prozódie (výška tónu, trvanie foném), [4] ktorá je potom uložená na výstupnú reč.

História

Dávno pred vynálezom elektronického spracovania signálu sa niektorí ľudia pokúšali postaviť stroje na napodobňovanie ľudskej reči. Niektoré rané legendy o existencii „ Brazených hláv “ zahŕňali pápeža Silvestra II . († 1003 n. l.), Alberta Magnusa (1198 – 1280) a Rogera Bacona (1214 – 1294).

V roku 1779 vyhral nemecko - dánsky vedec Christian Gottlieb Kratzenstein prvú cenu v súťaži vyhlásenej Ruskou cisárskou akadémiou vied a umení za modely, ktoré vytvoril z ľudského vokálneho traktu , ktorý dokáže produkovať päť dlhých samohlások (v zápise medzinárodnej fonetickej abecedy : [aː] , [eː] , [iː] , [oː] a [uː] ). [5] Nasledoval mechom ovládaný " akusticko-mechanický rečový stroj " Wolfganga von Kempelena z Pressburgu v Maďarsku, opísaný v roku 1791. [6] Tento stroj pridal modely jazyka a pier, čo mu umožnilo produkovať spoluhlásky aj samohlásky. V roku 1837 Charles Wheatstone vyrobil "hovoriaci stroj" založený na von Kempelenovom návrhu av roku 1846 Joseph Faber vystavil " Euphoniu ". V roku 1923 Paget vzkriesil Wheatstoneov dizajn. [7]

V 30. rokoch 20. storočia Bell Labs vyvinuli vokodér , ktorý automaticky analyzoval reč na jej základné tóny a rezonancie. Homer Dudley zo svojej práce na vokodéri vyvinul klávesnicou ovládaný hlasový syntetizátor s názvom The Voder (Hlasový demonštrátor), ktorý vystavoval na Svetovej výstave v New Yorku v roku 1939 .

Dr. Franklin S. Cooper a jeho kolegovia z Haskins Laboratories vytvorili prehrávanie vzoru koncom 40. rokov 20. storočia a dokončili ho v roku 1950. Existovalo niekoľko rôznych verzií tohto hardvérového zariadenia; v súčasnosti žije iba jeden. Zariadenie prevádza obrázky akustických vzorov reči vo forme spektrogramu späť na zvuk. Pomocou tohto zariadenia Alvin Liberman a kolegovia objavili akustické signály na vnímanie fonetických segmentov (spoluhlások a samohlások).

Elektronické zariadenia

Kryt počítača a syntetizátora reči, ktorý použil Stephen Hawking v roku 1999

Prvé počítačové systémy na syntézu reči vznikli koncom 50-tych rokov minulého storočia. Noriko Umeda a kol. vyvinul prvý všeobecný anglický systém prevodu textu na reč v roku 1968 v Elektrotechnickom laboratóriu v Japonsku. [8] V roku 1961 fyzik John Larry Kelly, Jr. a jeho kolega Louis Gerstman [9] použili počítač IBM 704 na syntetizovanie reči, čo je udalosť, ktorá patrí medzi najvýznamnejšie v histórii Bellových laboratórií . Kellyho hlasový záznamník syntezátor ( vocoder ) znovu vytvoril pieseň " Daisy Bell ", s hudobným sprievodom od Maxa Mathewsa . Zhodou okolností bol Arthur C. Clarke na návšteve u svojho priateľa a kolegu Johna Piercea v zariadení Bell Labs Murray Hill. Ukážka na Clarka tak zapôsobila, že ju použil vo vrcholnej scéne svojho scenára k románu 2001 : Vesmírna odysea [10] , kde počítač HAL 9000 spieva rovnakú pieseň, ako ju uspáva astronaut Dave Bowman . [11] Napriek úspechu čisto elektronickej syntézy reči pokračuje výskum mechanických syntetizátorov reči. [12] [ je potrebný zdroj tretej strany ]

Lineárne prediktívne kódovanie (LPC), forma kódovania reči , sa začala vyvíjať prácou Fumitada Itakura z Nagoyskej univerzity a Shuzo Saita z Nippon Telegraph and Telephone (NTT) v roku 1966. Ďalší vývoj v technológii LPC vykonal Bishnu S. Atal. a Manfred R. Schroeder v Bell Labs počas 70. rokov 20. storočia. [13] LPC bol neskôr základom pre čipy syntetizátorov reči v ranom veku, ako napríklad čipy Texas Instruments LPC Speech Chips používané v hračkách Speak & Spell z roku 1978.

V roku 1975 vyvinul Fumitada Itakura v NTT metódu čiarových spektrálnych párov (LSP) na kódovanie reči s vysokou kompresiou. [14] [15] [16] V rokoch 1975 až 1981 Itakura študoval problémy analýzy a syntézy reči založenej na metóde LSP. [16] V roku 1980 jeho tím vyvinul čip syntetizátora reči na báze LSP. LSP je dôležitá technológia pre syntézu a kódovanie reči a v 90. rokoch bola prijatá takmer všetkými medzinárodnými štandardmi kódovania reči ako základná súčasť, ktorá prispieva k zlepšeniu digitálnej komunikácie reči cez mobilné kanály a internet. [15]

V roku 1975 bol vydaný MUSA a bol jedným z prvých systémov syntézy reči. Pozostával zo samostatného počítačového hardvéru a špecializovaného softvéru, ktorý mu umožňoval čítať v taliančine. Druhá verzia, vydaná v roku 1978, bola tiež schopná spievať taliančinu v štýle „ a cappella “. [17]

Demo nahrávka DECtalk s použitím hlasov Perfect Paul a Uppity Ursula

Dominantnými systémami v 80. a 90. rokoch boli systém DECtalk , založený prevažne na práci Dennisa Klatta na MIT, a systém Bell Labs; [18] posledne menovaný bol jedným z prvých viacjazyčných jazykovo nezávislých systémov, ktorý vo veľkej miere využíval metódy spracovania prirodzeného jazyka .

Fidelity Voice Chess Challenger (1979), prvý hovoriaci šachový počítač
Rečový výstup z Fidelity Voice Chess Challenger

Ručná elektronika so syntézou reči sa začala objavovať v 70. rokoch 20. storočia. Jedným z prvých bola prenosná kalkulačka Speech+ spoločnosti Telesensory Systems Inc. (TSI) pre nevidomých v roku 1976. [19] [20] Iné zariadenia mali primárne vzdelávacie účely, ako napríklad hračka Speak & Spell vyrobená spoločnosťou Texas Instruments v roku 1978. [ 21] Fidelity vydala hovorenú verziu svojho elektronického šachového počítača v roku 1979. [22] Prvou videohrou so syntézou reči bola v roku 1980 arkádová hra typu shoot 'em up Stratovox (v Japonsku známa ako Speak & Rescue ) od Sun Electronics. . [23] [24] Prvou hrou pre osobný počítač so syntézou reči bola Manbiki Shoujo ( Shoplifting Girl ), vydaná v roku 1980 pre PET 2001 , pre ktorú vývojár hry, Hiroshi Suzuki, vyvinul programovaciu techniku ​​„ nulového kríženia “, aby vytvoril syntetizovaný priebeh reči. [25] Ďalší skorý príklad, arkádová verzia Berzerk , tiež pochádza z roku 1980. Spoločnosť Milton Bradley Company vyrobila v tom istom roku prvú elektronickú hru pre viacerých hráčov využívajúcu hlasovú syntézu, Milton .

Rané elektronické syntetizátory reči zneli roboticky a často boli sotva zrozumiteľné. Kvalita syntetizovanej reči sa neustále zlepšuje, ale od roku 2016 zostáva výstup zo súčasných systémov syntézy reči jasne odlíšiteľný od skutočnej ľudskej reči.

Syntetizované hlasy zvyčajne zneli mužsky až do roku 1990, keď Ann Syrdal z AT&T Bell Laboratories vytvorila ženský hlas. [26]

Kurzweil v roku 2005 predpovedal, že keďže pomer ceny a výkonu spôsobil, že syntetizátory reči sa stali lacnejšími a dostupnejšími, z používania programov na prevod textu na reč by profitovalo viac ľudí. [27]

Technológie syntetizátorov

Najdôležitejšie vlastnosti systému syntézy reči sú prirodzenosť a zrozumiteľnosť . [28] Prirodzenosť popisuje, ako blízko znie výstup ako ľudská reč, zatiaľ čo zrozumiteľnosť je ľahkosť, s akou je výstup pochopený. Ideálny syntetizátor reči je prirodzený a zároveň zrozumiteľný. Systémy syntézy reči sa zvyčajne snažia maximalizovať obe charakteristiky.

Dve primárne technológie generujúce syntetické priebehy reči sú zreťazená syntéza a formantová syntéza . Každá technológia má silné a slabé stránky a zamýšľané použitie systému syntézy zvyčajne určí, ktorý prístup sa použije.

Syntéza zreťazenia

Reťazová syntéza je založená na zreťazení (spájaní) segmentov zaznamenanej reči. Vo všeobecnosti zreťazená syntéza produkuje najprirodzenejšie znejúcu syntetizovanú reč. Rozdiely medzi prirodzenými variáciami reči a povahou automatizovaných techník segmentovania priebehov však niekedy vedú k počuteľným chybám vo výstupe. Existujú tri hlavné podtypy konkatenatívnej syntézy.

Syntéza výberu jednotiek

Syntéza výberu jednotiek využíva rozsiahle databázy zaznamenanej reči. Počas vytvárania databázy je každý zaznamenaný výrok rozdelený na niektoré alebo všetky z nasledujúcich: jednotlivé telefóny , difóny , polofóny, slabiky , morfémy , slová , frázy a vety . Rozdelenie na segmenty sa zvyčajne vykonáva pomocou špeciálne upraveného rozpoznávača reči nastaveného na režim „vynúteného zarovnania“ s následnou manuálnou korekciou pomocou vizuálnych zobrazení, ako je priebeh a spektrogram . [29] Index jednotiek v databáze reči sa potom vytvorí na základe segmentácie a akustických parametrov, ako je základná frekvencia ( výška tónu ), trvanie, poloha v slabike a susedné telefóny. V čase spustenia sa požadovaný cieľový výrok vytvorí určením najlepšieho reťazca kandidátskych jednotiek z databázy (výber jednotiek). Tento proces sa zvyčajne dosahuje pomocou špeciálne váženého rozhodovacieho stromu .

Výber jednotiek poskytuje najväčšiu prirodzenosť, pretože na zaznamenanú reč aplikuje len malé množstvo digitálneho spracovania signálu (DSP). DSP často spôsobuje, že zvuk zaznamenanej reči je menej prirodzený, hoci niektoré systémy používajú malé množstvo spracovania signálu v bode zreťazenia na vyhladenie tvaru vlny. Výstup z najlepších systémov na výber jednotiek je často na nerozoznanie od skutočných ľudských hlasov, najmä v kontextoch, pre ktoré bol systém TTS vyladený. Maximálna prirodzenosť však zvyčajne vyžaduje, aby databázy reči s výberom jednotiek boli veľmi veľké, v niektorých systémoch siahajú až do gigabajtov zaznamenaných údajov, čo predstavuje desiatky hodín reči. [30] Tiež je známe, že algoritmy na výber jednotiek vyberajú segmenty z miesta, čo vedie k nie úplne ideálnej syntéze (napr. menšie slová sa stávajú nejasnými), aj keď v databáze existuje lepšia voľba. [31] Nedávno výskumníci navrhli rôzne automatizované metódy na detekciu neprirodzených segmentov v systémoch syntézy reči s výberom jednotiek. [32]

Syntéza difónu

Difónová syntéza využíva minimálnu rečovú databázu obsahujúcu všetky difóny (prechody zvuku do zvuku), ktoré sa vyskytujú v jazyku. Počet difónov závisí od fonotatiky jazyka: napríklad španielčina má asi 800 difónov a nemčina asi 2500. Pri syntéze difónov je v databáze reči obsiahnutý iba jeden príklad každého difónu. Za behu je cieľová prozódia vety superponovaná na tieto minimálne jednotky pomocou techník digitálneho spracovania signálu , ako je lineárne prediktívne kódovanie , PSOLA [33] alebo MBROLA . [34] alebo novšie techniky, ako je modifikácia výšky tónu v zdrojovej doméne pomocou diskrétnej kosínusovej transformácie . [35] Difónová syntéza trpí zvukovými poruchami konkatenatívnej syntézy a roboticky znejúcim charakterom formantovej syntézy a okrem malej veľkosti má len málo výhod oboch prístupov. Ako taký jeho využitie v komerčných aplikáciách klesá, [ citácia ] , hoci sa naďalej používa vo výskume, pretože existuje množstvo voľne dostupných softvérových implementácií. Prvým príkladom syntézy Diphone je vyučovací robot Leachim, ktorého vynašiel Michael J. Freeman . [36] Leachim obsahoval informácie týkajúce sa učebných osnov triedy a určité biografické informácie o študentoch, ktorých bol naprogramovaný na vyučovanie. [37] Bol testovaný v triede štvrtého ročníka v Bronxe v New Yorku . [38] [39]

Doménovo špecifická syntéza

Doménovo špecifická syntéza zreťazí vopred zaznamenané slová a frázy, aby vytvorila kompletné výpovede. Používa sa v aplikáciách, kde je množstvo textov, ktoré systém vydáva, obmedzené na konkrétnu doménu, ako sú napríklad oznámenia o cestovnom poriadku alebo správy o počasí. [40] Implementácia technológie je veľmi jednoduchá a už dlho sa komerčne používa v zariadeniach, ako sú hovoriace hodiny a kalkulačky. Úroveň prirodzenosti týchto systémov môže byť veľmi vysoká, pretože rozmanitosť typov viet je obmedzená a veľmi sa zhodujú s prozódiou a intonáciou pôvodných nahrávok. [ potrebná citácia ]

Pretože tieto systémy sú obmedzené slovami a frázami v ich databázach, nie sú univerzálne a môžu syntetizovať iba kombinácie slov a fráz, s ktorými boli vopred naprogramované. Miešanie slov v rámci prirodzene hovoreného jazyka však stále môže spôsobovať problémy, pokiaľ sa nezohľadnia mnohé variácie. Napríklad v nerhotických dialektoch angličtiny sa „r“ v slovách ako „clear“ /ˈklɪə/ zvyčajne vyslovuje len vtedy, keď má nasledujúce slovo samohlásku ako prvé písmeno (napr. „clear out“ sa realizuje ako /ˌklɪəɹˈʌʊt/ ). Podobne vo francúzštine mnohé konečné spoluhlásky už nemlčia, ak za nimi nasleduje slovo začínajúce samohláskou, čo je efekt nazývaný spojenie . Toto striedanie nie je možné reprodukovať jednoduchým systémom spájania slov, čo by si vyžadovalo dodatočnú zložitosť, aby bolo kontextovo citlivé .

Syntéza formantov

Formantová syntéza nepoužíva vzorky ľudskej reči za behu. Namiesto toho sa syntetizovaný rečový výstup vytvára pomocou aditívnej syntézy a akustického modelu ( syntéza fyzického modelovania ). [41] Parametre ako základná frekvencia , hlas a hladiny hluku sa v priebehu času menia, aby vytvorili tvar vlny umelej reči. Táto metóda sa niekedy nazýva syntéza založená na pravidlách ; mnohé zreťazené systémy však majú aj komponenty založené na pravidlách. Mnoho systémov založených na technológii syntézy formantov generuje umelú, roboticky znejúcu reč, ktorá by sa nikdy nepomýlila s ľudskou rečou. Maximálna prirodzenosť však nie je vždy cieľom systému syntézy reči a systémy syntézy formantov majú oproti zreťazeným systémom výhody. Reč syntetizovaná formantom môže byť spoľahlivo zrozumiteľná aj pri veľmi vysokých rýchlostiach, čím sa vyhnete akustickým poruchám, ktoré bežne trápia zreťazené systémy. Vysokorýchlostnú syntetizovanú reč používajú zrakovo postihnutí na rýchlu navigáciu v počítačoch pomocou čítačky obrazovky . Formantové syntetizátory sú zvyčajne menšie programy ako zreťazené systémy, pretože nemajú databázu vzoriek reči. Môžu byť preto použité vo vstavaných systémoch , kde je výkon pamäte a mikroprocesora obzvlášť obmedzený. Pretože systémy založené na formantoch majú úplnú kontrolu nad všetkými aspektmi výstupnej reči, môže byť výstupom široká škála prozódií a intonácií , ktoré sprostredkujú nielen otázky a vyhlásenia, ale aj rôzne emócie a tóny hlasu.

Príklady riadenia intonácie v syntéze formantov, ktoré nie je v reálnom čase, zahŕňajú prácu vykonanú koncom 70. rokov pre hračku Texas Instruments Speak & Spell a začiatkom 80. rokov 20. storočia arkádové automaty Sega [42] a v mnohých Atari, Inc. arkádové hry [43] využívajúce čipy TMS5220 LPC . Vytvorenie správnej intonácie pre tieto projekty bolo usilovné a výsledky sa ešte musia vyrovnať rozhraniam prevodu textu na reč v reálnom čase. [44]

Artikulačná syntéza

Artikulačná syntéza sa týka výpočtových techník na syntetizovanie reči na základe modelov ľudského vokálneho traktu a artikulačných procesov, ktoré sa tam vyskytujú. Prvý artikulačný syntetizátor pravidelne používaný na laboratórne experimenty bol vyvinutý v Haskins Laboratories v polovici 70. rokov 20. storočia Philipom Rubinom , Tomom Baerom a Paulom Mermelsteinom. Tento syntetizátor, známy ako ASY, bol založený na modeloch vokálneho traktu, ktoré vyvinuli v Bellových laboratóriách v 60. a 70. rokoch Paul Mermelstein, Cecil Coker a kolegovia.

Až donedávna neboli modely artikulačnej syntézy začlenené do komerčných systémov syntézy reči. Pozoruhodnou výnimkou je systém založený na NeXT pôvodne vyvinutý a predávaný Trillium Sound Research, vedľajšou spoločnosťou Univerzity v Calgary , kde sa uskutočnila veľká časť pôvodného výskumu. Po zániku rôznych inkarnácií NeXT (začal Steve Jobs koncom 80. rokov a zlúčil sa s Apple Computer v roku 1997) bol softvér Trillium publikovaný pod GNU General Public License, pričom práca pokračovala ako gnuspeech . Systém, ktorý bol prvýkrát uvedený na trh v roku 1994, poskytuje úplnú konverziu textu na reč založenú na artikulácii pomocou vlnovodu alebo analógu prenosovej linky ľudského ústneho a nosového traktu riadeného Carrého "modelom charakteristickej oblasti".

Novšie syntetizátory, ktoré vyvinul Jorge C. Lucero a jeho kolegovia, zahŕňajú modely biomechaniky hlasiviek, glotálnej aerodynamiky a šírenia akustických vĺn v prieduškách, priedušnici, nosovej a ústnej dutine, a tak tvoria úplné systémy simulácie reči založenej na fyzike. [45] [46]

Syntéza na báze HMM

Syntéza založená na HMM je metóda syntézy založená na skrytých Markovových modeloch , nazývaná aj štatistická parametrická syntéza. V tomto systéme sú frekvenčné spektrum ( hlasový trakt ), základná frekvencia (zdroj hlasu) a trvanie ( prozódia ) reči simultánne modelované pomocou HMM. Tvary vĺn reči sa generujú zo samotných HMM na základe kritéria maximálnej pravdepodobnosti . [47]

Syntéza sínusových vĺn

Sínusová syntéza je technika na syntetizovanie reči nahradením formantov (hlavných pásiem energie) čistými tónovými píšťalami. [48]

Syntéza založená na hlbokom učení

Hlboká syntéza reči využíva hlboké neurónové siete (DNN) na vytváranie umelej reči z textu (text-to-speech) alebo spektra (vocoder). Hlboké neurónové siete sú trénované pomocou veľkého množstva zaznamenanej reči a v prípade systému prevodu textu na reč aj pridružených štítkov a/alebo vstupného textu.

15.ai používa model s viacerými hovorcami – stovky hlasov sa trénujú súbežne a nie postupne, čím sa skracuje čas potrebný na trénovanie a umožňuje modelu naučiť sa a zovšeobecniť zdieľaný emocionálny kontext, a to aj pre hlasy, ktoré nie sú vystavené takémuto emocionálnemu kontextu. [49] Model hlbokého učenia používaný aplikáciou je nedeterministický : zakaždým, keď je reč vygenerovaná z rovnakého reťazca textu, intonácia reči bude mierne odlišná. Aplikácia tiež podporuje ručnú zmenu emócií vygenerovanej línie pomocou emocionálnych kontextualizátorov (termín vytvorený týmto projektom), vety alebo frázy, ktorá vyjadruje emóciu záberu, ktorá slúži ako vodítko pre model počas vyvodzovania. [50] [51] [52]

Spoločnosť ElevenLabs je známa predovšetkým vďaka svojmu softvéru na prevod textu na reč pomocou AI, Speech Synthesis, ktorý dokáže produkovať realistickú reč syntetizovaním vokálnych emócií a intonácie . [53] Spoločnosť uvádza, že jej softvér je vytvorený tak, aby prispôsoboval intonáciu a tempo doručenia na základe kontextu použitého jazykového vstupu. [54] Používa pokročilé algoritmy na analýzu kontextových aspektov textu s cieľom odhaliť emócie, ako je hnev, smútok, šťastie alebo alarm, čo umožňuje systému porozumieť sentimentu používateľa, [55] čo vedie k realistickejšiemu a ľudskejšiemu ako skloňovanie. Medzi ďalšie funkcie patrí viacjazyčné generovanie reči a vytváranie dlhého obsahu s kontextovo uvedomelými hlasmi. [56] [57]

Syntetizátory reči založené na DNN sa približujú k prirodzenosti ľudského hlasu. Príkladmi nevýhod metódy sú nízka robustnosť, keď údaje nie sú dostatočné, nedostatočná ovládateľnosť a nízky výkon v autoregresívnych modeloch.

Pre tónové jazyky, ako je čínština alebo taiwanský jazyk, sa vyžadujú rôzne úrovne tónového sandhi a niekedy môže výstup syntetizátora reči viesť k chybám tónového sandhi. [58]

Hlboké falšovanie zvuku

Hlboký falošný zvuk (známy aj ako klonovanie hlasu alebo hlboký falošný zvuk) je typ umelej inteligencie , ktorý sa používa na vytváranie presvedčivých rečových viet, ktoré znejú tak, že konkrétni ľudia hovoria veci, ktoré nepovedali. [59] [60] [61] Táto technológia bola pôvodne vyvinutá pre rôzne aplikácie na zlepšenie ľudského života. Môže sa napríklad použiť na výrobu audiokníh, [62] a tiež na pomoc ľuďom, ktorí stratili hlas (v dôsledku ochorenia hrdla alebo iných zdravotných problémov), aby ich získali späť. [63] [64] Komerčne to otvorilo dvere niekoľkým príležitostiam. Táto technológia môže tiež vytvoriť prispôsobenejších digitálnych asistentov a prirodzene znejúci prevod textu na reč, ako aj služby prekladu reči .

V roku 2023 reportér VICE Joseph Cox zverejnil zistenia, že nahral päť minút svojho rozprávania a potom použil nástroj vyvinutý spoločnosťou ElevenLabs na vytvorenie hlasových hlbokých fake, ktoré porazili bankový systém hlasovej autentifikácie . [65]

Výzvy

Výzvy na normalizáciu textu

Proces normalizácie textu je zriedka jednoduchý. Texty sú plné heteroným , čísel a skratiek , ktoré si všetky vyžadujú rozšírenie do fonetickej reprezentácie. V angličtine existuje veľa hlások, ktoré sa vyslovujú odlišne v závislosti od kontextu. Napríklad „Môj najnovší projekt je naučiť sa lepšie premietať svoj hlas“ obsahuje dve výslovnosti slova „projekt“.

Väčšina systémov prevodu textu na reč (TTS) negeneruje sémantické reprezentácie svojich vstupných textov, pretože procesy na to sú nespoľahlivé, zle zrozumiteľné a výpočtovo neúčinné. V dôsledku toho sa na uhádnutie správneho spôsobu rozdelenia homografov používajú rôzne heuristické techniky , ako je skúmanie susedných slov a používanie štatistík o frekvencii výskytu.

Nedávno systémy TTS začali používať HMM (diskutované vyššie) na generovanie „ častí reči “ na pomoc pri zjednocovaní homografov. Táto technika je celkom úspešná v mnohých prípadoch, napríklad či by sa slovo „čítať“ malo vyslovovať ako „červené“, čo naznačuje minulý čas, alebo ako „rákos“, ktoré naznačuje prítomný čas. Typická chybovosť pri použití HMM týmto spôsobom je zvyčajne nižšia ako päť percent. Tieto techniky tiež fungujú dobre pre väčšinu európskych jazykov, hoci prístup k požadovaným korpusom odbornej prípravy je v týchto jazykoch často zložitý.

Rozhodovanie o tom, ako previesť čísla, je ďalším problémom, ktorý musia systémy TTS riešiť. Je to jednoduchá programátorská výzva previesť číslo na slová (aspoň v angličtine), napríklad z „1325“ sa stane „tisíc tristo dvadsaťpäť“. Čísla sa však vyskytujú v mnohých rôznych kontextoch; „1325“ možno čítať aj ako „jeden tri dva päť“, „trinásť dvadsaťpäť“ alebo „trinásťstodvadsaťpäť“. Systém TTS môže často odvodiť, ako rozšíriť číslo na základe okolitých slov, čísel a interpunkcie, a niekedy systém poskytuje spôsob, ako špecifikovať kontext, ak je nejednoznačný. [66] Rímske číslice sa tiež môžu čítať odlišne v závislosti od kontextu. Napríklad „Henry VIII“ sa číta ako „Henry ôsmy“, zatiaľ čo „Kapitola VIII“ sa číta ako „Ôsma kapitola“.

Podobne môžu byť aj skratky nejednoznačné. Napríklad skratka "in" pre "inches" musí byť odlíšená od slova "in" a adresy "12 St John St." používa rovnakú skratku pre „Svätý“ aj „Ulicu“. Systémy TTS s inteligentnými frontendami dokážu kvalifikovane odhadovať nejednoznačné skratky, zatiaľ čo iné poskytujú rovnaký výsledok vo všetkých prípadoch, čo vedie k nezmyselným (a niekedy komickým) výstupom, ako napríklad „ Ulysses S. Grant “ vykreslený ako „Ulysses South Grant“ .

Výzvy prevodu textu na fonémy

Systémy syntézy reči používajú dva základné prístupy na určenie výslovnosti slova na základe jeho pravopisu , proces, ktorý sa často nazýva konverzia textu na fonému alebo graféma na fonému ( fonéma je termín, ktorý používajú lingvisti na opis charakteristických zvukov v jazyk ) . Najjednoduchší prístup ku konverzii textu na fonému je prístup založený na slovníku, kde program ukladá veľký slovník obsahujúci všetky slová jazyka a ich správnu výslovnosť . Určenie správnej výslovnosti každého slova je záležitosťou vyhľadať každé slovo v slovníku a nahradiť pravopis výslovnosťou špecifikovanou v slovníku. Druhý prístup je založený na pravidlách, v ktorom sa pravidlá výslovnosti aplikujú na slová, aby sa určila ich výslovnosť na základe ich pravopisu. Ide o podobný prístup k učeniu sa čítania „ozvučením“ alebo syntetickou fóniou .

Každý prístup má výhody a nevýhody. Prístup založený na slovníku je rýchly a presný, ale úplne zlyhá, ak dostane slovo, ktoré nie je v jeho slovníku. S rastúcou veľkosťou slovníka rastú aj požiadavky na pamäťový priestor systému syntézy. Na druhej strane, prístup založený na pravidlách funguje na akomkoľvek vstupe, ale zložitosť pravidiel podstatne rastie, pretože systém berie do úvahy nepravidelný pravopis alebo výslovnosť. (Zvážte, že slovo „of“ je v angličtine veľmi bežné, no je to jediné slovo, v ktorom sa písmeno „f“ vyslovuje [v] .) Výsledkom je, že takmer všetky systémy syntézy reči používajú kombináciu týchto prístupov.

Jazyky s fonematickým pravopisom majú veľmi pravidelný systém písania a predpovedanie výslovnosti slov na základe ich pravopisu je celkom úspešné. Systémy syntézy reči pre takéto jazyky často vo veľkej miere využívajú metódu založenú na pravidlách, pričom sa uchyľujú k slovníkom len pre tých pár slov, ako sú cudzie mená a prepožičané slová, ktorých výslovnosť nie je zrejmá z ich pravopisu. Na druhej strane systémy syntézy reči pre jazyky, ako je angličtina, ktoré majú extrémne nepravidelné pravopisné systémy, sa s väčšou pravdepodobnosťou spoliehajú na slovníky a metódy založené na pravidlách používajú iba pre neobvyklé slová alebo slová, ktoré nie sú v ich slovníkoch.

Hodnotiace výzvy

Dôsledné hodnotenie systémov syntézy reči môže byť náročné z dôvodu nedostatku všeobecne dohodnutých objektívnych hodnotiacich kritérií. Rôzne organizácie často používajú rôzne údaje o reči. Kvalita systémov syntézy reči závisí aj od kvality výrobnej techniky (ktorá môže zahŕňať analógový alebo digitálny záznam) a od zariadení používaných na prehrávanie reči. Hodnotenie systémov syntézy reči bolo preto často ohrozené rozdielmi medzi produkčnými technikami a zariadeniami na prehrávanie.

Od roku 2005 však niektorí výskumníci začali hodnotiť systémy syntézy reči pomocou spoločného súboru údajov o reči. [67]

Prozodika a emocionálny obsah

Štúdia v časopise Speech Communication , ktorú vypracovala Amy Drahota a kolegovia z University of Portsmouth vo Veľkej Británii , uviedla, že poslucháči hlasových nahrávok môžu na vyššej úrovni , než je náhoda, určiť, či sa rečník usmieva alebo nie. [68] [69] [70] Bolo navrhnuté, že identifikácia vokálnych vlastností, ktoré signalizujú emocionálny obsah, sa môže použiť na to, aby syntetizovaná reč znela prirodzenejšie. Jedným zo súvisiacich problémov je úprava výšky tónu vety v závislosti od toho, či ide o kladnú, opytovaciu alebo zvolaciu vetu. Jedna z techník modifikácie výšky tónu [71] využíva diskrétnu kosínusovú transformáciu v zdrojovej doméne ( reziduum lineárnej predikcie ). Takéto techniky synchrónnej modifikácie výšky tónu vyžadujú a priori označovanie výšky tónu databázy syntézy reči pomocou techník, ako je extrakcia epoch s použitím indexu dynamickej plozie aplikovaného na rezíduum integrovanej lineárnej predikcie znených oblastí reči. [72]

Vyhradený hardvér

Súprava na syntézu reči vyrobená spoločnosťou Bell System

Hardvérové ​​a softvérové ​​systémy

Populárne systémy ponúkajúce syntézu reči ako vstavanú schopnosť.

Texas Instruments

Ukážka reči TI-99/4A s použitím vstavanej slovnej zásoby

Začiatkom osemdesiatych rokov bol TI známy ako priekopník v syntéze reči a pre TI-99/4 a 4A bol k dispozícii veľmi populárny zásuvný modul syntetizátora reči. Syntetizátory reči boli ponúkané bezplatne pri zakúpení niekoľkých kaziet a používali ich mnohé videohry napísané TI (hry ponúkané s rečou počas tejto akcie zahŕňali Alpiner a Parsec ). Syntetizátor používa variant lineárneho prediktívneho kódovania a má malú vstavanú slovnú zásobu. Pôvodným zámerom bolo uvoľnenie malých kaziet, ktoré sa zapájali priamo do syntetizátorovej jednotky, čím by sa rozšírila vstavaná slovná zásoba zariadenia. Úspech softvérového prevodu textu na reč v kazete Terminal Emulator II však tento plán zrušil.

Mattel

Herná konzola Mattel Intellivision ponúkala modul Intellivoice Voice Synthesis v roku 1982. Zahŕňala čip syntetizátora reči SP0256 Narrator na vymeniteľnej kazete. Rozprávač mal 2 kB Read-Only Memory (ROM) a to sa využívalo na ukladanie databázy generických slov, ktoré bolo možné kombinovať na vytváranie fráz v hrách Intellivision. Keďže čip Orator môže prijímať aj dáta reči z externej pamäte, akékoľvek ďalšie potrebné slová alebo frázy môžu byť uložené vo vnútri samotnej kazety. Dáta pozostávali z reťazcov koeficientov analógového filtra na úpravu správania syntetického modelu vokálneho traktu čipu, a nie z jednoduchých digitalizovaných vzoriek.

SAM

Ukážka SAM na C64

Tiež vydaný v roku 1982, Software Automatic Mouth bol prvý komerčný plne softvérový program na syntézu hlasu. Neskôr bol použitý ako základ pre Macintalk . Program bol dostupný pre počítače Apple iné ako Macintosh (vrátane Apple II a Lisa), rôzne modely Atari a Commodore 64. Verzia Apple uprednostňovala dodatočný hardvér, ktorý obsahoval DAC, aj keď namiesto toho mohla používať jednobitový zvuk počítača. výstup (s pridaním veľkého skreslenia), ak karta nebola prítomná. Atari využívalo zabudovaný audio čip POKEY. Prehrávanie reči na Atari normálne deaktivovalo požiadavky na prerušenie a vypol ANTIC čip počas hlasového výstupu. Zvukový výstup je extrémne skreslená reč, keď je obrazovka zapnutá. Commodore 64 využíval zabudovaný SID audio čip 64.

Atari

Pravdepodobne prvým rečovým systémom integrovaným do operačného systému boli osobné počítače 1400XL/1450XL, ktoré navrhla spoločnosť Atari, Inc. s použitím čipu Votrax SC01 v roku 1983. Počítače 1400XL/1450XL využívali stroj Finite State Machine na umožnenie prevodu textu do World English Spelling - syntéza reči. [74] Bohužiaľ, osobné počítače 1400XL/1450XL sa nikdy nedodali v takom množstve.

Počítače Atari ST sa predávali s "stspeech.tos" na diskete.

Apple

Ukážka MacinTalk 1
Demo MacinTalk 2 s hlasmi pána Hughesa a Marvina

Prvým rečovým systémom integrovaným do operačného systému , ktorý bol dodávaný vo veľkom množstve, bol MacInTalk od Apple Computer . Softvér bol licencovaný od vývojárov tretích strán Josepha Katza a Marka Bartona (neskôr SoftVoice, Inc.) a bol predstavený počas predstavenia počítača Macintosh v roku 1984. Toto januárové demo si vyžadovalo 512 kilobajtov pamäte RAM. V dôsledku toho nemohol bežať v 128 kilobajtoch pamäte RAM, s ktorou bol prvý Mac skutočne dodaný. [75] Takže, demo bolo dokončené s prototypom 512k Mac, hoci o tom prítomným nikto nepovedal a demo syntézy vyvolalo pre Macintosh značné vzrušenie. Začiatkom 90-tych rokov Apple rozšíril svoje možnosti a ponúkol podporu prevodu textu na reč v celom systéme. So zavedením rýchlejších počítačov na báze PowerPC zahrnuli kvalitnejšie vzorkovanie hlasu. Apple tiež zaviedol rozpoznávanie reči do svojich systémov, ktoré poskytovali súpravu tekutých príkazov. Nedávno spoločnosť Apple pridala hlasy založené na vzorkách. Počnúc zaujímavosťou, rečový systém Apple Macintosh sa vyvinul do plne podporovaného programu PlainTalk pre ľudí s problémami so zrakom. VoiceOver bol prvýkrát uvedený v roku 2005 v systéme Mac OS X Tiger (10.4). Počas 10.4 (Tiger) a prvých verzií 10.5 ( Leopard ) bol s Mac OS X dodávaný iba jeden štandardný hlas. Počnúc 10.6 ( Snow Leopard ) si používateľ môže vybrať zo širokého zoznamu viacerých hlasov. Hlasy VoiceOver sa vyznačujú realisticky znejúcimi nádychmi medzi vetami, ako aj vylepšenou čistotou pri vysokých rýchlostiach čítania oproti PlainTalk. Mac OS X tiež obsahuje povedzme aplikáciu založenú na príkazovom riadku , ktorá konvertuje text na počuteľnú reč. AppleScript Standard Additions obsahuje povedzme sloveso , ktoré umožňuje skriptu použiť ktorýkoľvek z nainštalovaných hlasov a ovládať výšku, rýchlosť hovorenia a moduláciu hovoreného textu.

Amazon

Používa sa v Alexa a ako softvér ako služba v AWS [76] (od roku 2017).

AmigaOS

Príklad syntézy reči pomocou obslužného programu Say, ktorý je súčasťou Workbench 1.3

Druhým operačným systémom s pokročilými schopnosťami syntézy reči bol AmigaOS , predstavený v roku 1985. Hlasová syntéza bola licencovaná spoločnosťou Commodore International od SoftVoice, Inc., ktorá tiež vyvinula pôvodný systém prevodu textu na reč MacinTalk . Vyznačoval sa kompletným systémom emulácie hlasu pre americkú angličtinu, s mužskými aj ženskými hlasmi a indikátormi "stresu", čo umožnila audio čipová sada Amiga . [77] Syntetický systém bol rozdelený na prekladateľskú knižnicu, ktorá konvertovala neobmedzený anglický text na štandardnú sadu fonetických kódov a narátorské zariadenie, ktoré implementovalo formantový model generovania reči. AmigaOS tiež obsahoval vysokoúrovňový „ Speak Handler “, ktorý umožnil používateľom príkazového riadka presmerovať textový výstup na reč. Syntéza reči sa príležitostne používala v programoch tretích strán, najmä v textových procesoroch a vzdelávacom softvéri. Softvér na syntézu zostal v podstate nezmenený od prvého vydania AmigaOS a Commodore nakoniec odstránil podporu syntézy reči od AmigaOS 2.1 a ďalej.

Napriek obmedzeniu foném v americkej angličtine bola vyvinutá neoficiálna verzia s viacjazyčnou syntézou reči. To využilo vylepšenú verziu knižnice prekladateľov, ktorá dokázala preložiť množstvo jazykov, pričom pre každý jazyk bol daný súbor pravidiel. [78]

Microsoft Windows

Moderné desktopové systémy Windows môžu využívať komponenty SAPI 4 a SAPI 5 na podporu syntézy reči a rozpoznávania reči . SAPI 4.0 bolo dostupné ako voliteľný doplnok pre Windows 95 a Windows 98 . Windows 2000 pridal Moderátor , nástroj na prevod textu na reč pre ľudí so zrakovým postihnutím. Programy tretích strán, ako sú JAWS pre Windows, Window-Eyes, Non-Visual Desktop Access, Supernova a System Access, môžu vykonávať rôzne úlohy prevodu textu na reč, ako je čítanie textu nahlas z určenej webovej stránky, e-mailového účtu, textového dokumentu, Schránka systému Windows, písanie na klávesnici používateľa atď. Nie všetky programy dokážu priamo používať syntézu reči. [79] Niektoré programy môžu na čítanie textu nahlas používať zásuvné moduly, rozšírenia alebo doplnky. K dispozícii sú programy tretích strán, ktoré dokážu čítať text zo systémovej schránky.

Microsoft Speech Server je serverový balík na syntézu a rozpoznávanie hlasu. Je navrhnutý pre sieťové použitie s webovými aplikáciami a call centrami .

Votrax

V rokoch 1971 až 1996 vyrobil Votrax množstvo komerčných komponentov rečových syntetizátorov. V prvej generácii Kurzweilovho čítacieho stroja pre nevidomých bol zahrnutý syntetizátor Votrax.

Systémy prevodu textu na reč

Text-to-speech (TTS) označuje schopnosť počítačov čítať text nahlas. Nástroj TTS konvertuje písaný text na fonemickú reprezentáciu a potom konvertuje fonemickú reprezentáciu na tvary vĺn, ktoré možno vydávať ako zvuk. Nástroje TTS s rôznymi jazykmi, dialektmi a špecializovanými slovníkmi sú dostupné prostredníctvom vydavateľov tretích strán. [80]

Android

Verzia 1.6 systému Android pridala podporu pre syntézu reči (TTS). [81]

internet

V súčasnosti existuje množstvo aplikácií , zásuvných modulov a miniaplikácií, ktoré dokážu čítať správy priamo z e-mailového klienta a webových stránok z webového prehliadača alebo panela s nástrojmi Google . Niektoré špecializované softvéry môžu rozprávať kanály RSS . Na jednej strane online RSS-rozprávači zjednodušujú poskytovanie informácií tým, že umožňujú používateľom počúvať svoje obľúbené spravodajské zdroje a konvertovať ich na podcasty . Na druhej strane sú online čítačky RSS dostupné takmer na každom osobnom počítači pripojenom na internet. Používatelia si môžu stiahnuť vygenerované zvukové súbory do prenosných zariadení, napr. pomocou prijímača podcastov , a počúvať ich pri chôdzi, joggingu alebo dochádzaní do práce.

Rastúcou oblasťou internetových TTS je webová asistenčná technológia , napr. „Browsealoud“ od britskej spoločnosti a Readspeaker . Môže poskytnúť funkcie TTS komukoľvek (z dôvodov prístupnosti, pohodlia, zábavy alebo informácií) s prístupom k webovému prehliadaču. Neziskový projekt Pediaphon vznikol v roku 2006 s cieľom poskytnúť podobné webové rozhranie TTS ako Wikipedia. [82]

Ďalšia práca sa vykonáva v kontexte W3C prostredníctvom skupiny W3C Audio Incubator Group so zapojením BBC a Google Inc.

Open source

K dispozícii sú niektoré softvérové ​​systémy s otvoreným zdrojom , ako napríklad:

Iní

  • Po komerčnom neúspechu hardvérového Intellivoice herní vývojári v neskorších hrách striedmo používali softvérovú syntézu [ cit ] . Skoršie systémy od Atari, ako napríklad Atari 5200 (Baseball) a Atari 2600 ( Quadrun a Open Sesame), mali tiež hry využívajúce syntézu softvéru. [ potrebná citácia ]
  • Niektoré čítačky elektronických kníh , ako napríklad Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe a Bebook Neo.
  • BBC Micro začlenil čip na syntézu reči Texas Instruments TMS5220,
  • Niektoré modely domácich počítačov Texas Instruments vyrobených v rokoch 1979 a 1981 ( Texas Instruments TI-99/4 a TI-99/4A ) boli schopné syntézy textu na fonémy alebo recitovania úplných slov a fráz (text do slovníka), pomocou veľmi populárneho periférneho syntetizátora reči. TI používal vlastný kodek na vkladanie úplných hovorených fráz do aplikácií, predovšetkým videohier. [84]
  • IBM OS /2 Warp 4 obsahoval VoiceType, predchodcu IBM ViaVoice .
  • Navigačné jednotky GPS vyrábané spoločnosťami Garmin , Magellan , TomTom a ďalšími používajú syntézu reči pre automobilovú navigáciu.
  • Yamaha vyrobila hudobný syntetizátor v roku 1999, Yamaha FS1R , ktorý obsahoval schopnosť syntézy Formant. Je možné uložiť a prehrať sekvencie až 512 jednotlivých samohlások a spoluhlások, čo umožňuje syntetizovať krátke vokálne frázy.

Digitálne zvukové obdoby

Na konferencii o systémoch spracovania neurálnych informácií (NeurIPS) v roku 2018 výskumníci zo spoločnosti Google predstavili prácu „Prenos učenia sa z overovania hovoriacich osôb do syntézy textu na reč s viacerými rečami“, ktorá prenáša učenie z overovania hovoriaceho na dosiahnutie syntézy textu na reč. možno urobiť tak, aby znel takmer ako ktokoľvek z ukážky reči trvajúcej iba 5 sekúnd. [85]

Aj výskumníci z Baidu Research predstavili systém klonovania hlasu s podobnými cieľmi na konferencii NeurIPS v roku 2018 [86] , hoci výsledok je dosť nepresvedčivý.

Do roku 2019 sa digitálne zvukové zariadenia dostali do rúk zločincov, keďže výskumníci spoločnosti Symantec poznajú 3 prípady, keď bola technológia digitálneho zvuku použitá na zločin. [87] [88]

To zvyšuje dôraz na dezinformačnú situáciu spojený s faktami, ktoré

V marci 2020 bola vydaná bezplatná webová aplikácia s názvom 15.ai , ktorá generuje vysokokvalitné hlasy zo sortimentu fiktívnych postáv z rôznych mediálnych zdrojov. [91] Medzi počiatočné postavy patrili GLaDOS z Portal , Twilight Sparkle a Fluttershy zo show My Little Pony: Friendship Is Magic a Desiaty doktor z Doctor Who .

Značkovacie jazyky na syntézu reči

Na stvárnenie textu ako reči vo formáte kompatibilnom s XML bolo vytvorených niekoľko značkovacích jazykov . Najnovší je jazyk SSML ( Speech Synthesis Markup Language ), ktorý sa stal odporúčaním W3C v roku 2004. Staršie značkovacie jazyky na syntézu reči zahŕňajú jazyk Java Speech Markup Language ( JSML ) a SABLE . Hoci každý z nich bol navrhnutý ako štandard, žiadny z nich nebol široko prijatý. [ potrebná citácia ]

Značkovacie jazyky syntézy reči sa líšia od značkovacích jazykov pre dialógy. VoiceXML napríklad okrem označovania prevodu textu na reč obsahuje aj značky súvisiace s rozpoznávaním reči, správou dialógov a tónovou voľbou. [ potrebná citácia ]

Aplikácie

Syntéza reči je už dlho životne dôležitým nástrojom asistenčných technológií a jej aplikácia v tejto oblasti je významná a rozšírená. Umožňuje odstraňovať environmentálne bariéry pre ľudí so širokým spektrom postihnutia. Najdlhšie sa uplatňovali čítačky obrazovky pre ľudí so zrakovým postihnutím, ale systémy prevodu textu na reč dnes bežne používajú ľudia s dyslexiou a inými poruchami čítania , ako aj negramotné deti. [92] Často sa tiež používajú na pomoc tým, ktorí majú vážne poruchy reči , zvyčajne prostredníctvom špeciálnej komunikačnej pomôcky s hlasovým výstupom . [93] Práca na prispôsobení syntetického hlasu, aby lepšie zodpovedal osobnosti alebo historickému hlasu osoby, sa stáva dostupným. [94] Známou aplikáciou syntézy reči bol Kurzweil Reading Machine for the Blind , ktorý obsahoval softvér na prevod textu na fonetiku založený na práci od Haskins Laboratories a syntetizátor čiernej skrinky, ktorý vytvoril Votrax . [95]

Stephen Hawking bol jedným z najznámejších ľudí, ktorí používali rečový počítač na komunikáciu.

Techniky syntézy reči sa používajú aj v zábavných produkciách, ako sú hry a animácie. V roku 2007 spoločnosť Animo Limited oznámila vývoj balíka softvérových aplikácií založených na jej softvéri na syntézu reči FineSpeech, ktorý je výslovne zameraný na zákazníkov v zábavnom priemysle a je schopný generovať rozprávanie a dialógy podľa špecifikácií používateľa. [96] Aplikácia dosiahla zrelosť v roku 2008, keď spoločnosť NEC Biglobe oznámila webovú službu, ktorá používateľom umožňuje vytvárať frázy z hlasov postáv z japonskej anime série Code Geass: Lelouch of the Rebellion R2 . [97] 15.ai sa často používa na vytváranie obsahu v rôznych fandomoch vrátane fanúšikov My Little Pony: Friendship Is Magic , Team Fortress 2 , Portal a SpongeBob SquarePants . [98]

Pomôcky na prevod textu na reč pre postihnutých a narušenú komunikáciu sa stali široko dostupnými. Prevod textu na reč tiež nachádza nové aplikácie; napríklad syntéza reči kombinovaná s rozpoznávaním reči umožňuje interakciu s mobilnými zariadeniami prostredníctvom rozhraní na spracovanie prirodzeného jazyka . Niektorí používatelia tiež vytvorili virtuálnych asistentov AI pomocou 15.ai a externého softvéru na ovládanie hlasom. [99] [100]

Prevod textu na reč sa používa aj pri osvojovaní si druhého jazyka. Napríklad Voki je vzdelávací nástroj vytvorený spoločnosťou Oddcast, ktorý používateľom umožňuje vytvoriť si vlastného hovoriaceho avatara pomocou rôznych akcentov. Môžu byť odoslané e-mailom, vložené na webové stránky alebo zdieľané na sociálnych sieťach.

Tvorcovia obsahu použili nástroje na klonovanie hlasu na opätovné vytvorenie svojich hlasov pre podcasty, [101] [102] rozprávanie, [103] a komediálne relácie. [104] [105] [106] Vydavatelia a autori tiež používajú takýto softvér na rozprávanie audiokníh a bulletinov. [107] [108] Ďalšou oblasťou použitia je tvorba AI videa pomocou hovoriacich hláv. Webapps a editory videa ako Elai.io alebo Synthesia umožňujú používateľom vytvárať videoobsah zahŕňajúci avatarov AI, ktorí sú prinútení hovoriť pomocou technológie prevodu textu na reč. [109] [110]

Syntéza reči je cennou výpočtovou pomôckou na analýzu a hodnotenie porúch reči. Syntetizátor kvality hlasu , vyvinutý Jorge C. Lucero et al. na University of Brasília simuluje fyziku fonácie a zahŕňa modely chvenia a chvenia hlasovej frekvencie, hluku prúdenia vzduchu a asymetrií hrtana. [45] Syntetizátor sa používa na napodobňovanie zafarbenia dysfonických reproduktorov s kontrolovanými úrovňami drsnosti, priedušnosti a napätia. [46]

Syntéza spevu

V roku 2010 technológia syntézy spevu využila nedávny pokrok v umelej inteligencii – hlboké počúvanie a strojové učenie, aby lepšie reprezentovala nuansy ľudského hlasu. Nové knižnice vzoriek s vysokou presnosťou v kombinácii s digitálnymi zvukovými pracovnými stanicami uľahčujú úpravu v jemných detailoch, ako je posun formátov, úprava vibrata a úpravy samohlások a spoluhlások. K dispozícii sú vzorové knižnice pre rôzne jazyky a rôzne akcenty. S dnešným pokrokom vo vokálnej syntéze umelci niekedy používajú knižnice vzoriek namiesto sprievodných spevákov. [111]

Pozri tiež

Referencie

  1. ^ Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). Od textu k reči: Systém MITalk . Cambridge University Press. ISBN 978-0-521-30641-6.
  2. ^ Rubin, P.; Baer, ​​T.; Mermelstein, P. (1981). "Artikulačný syntetizátor pre percepčný výskum". Journal of the Acoutical Society of America . 70 (2): 321-328. Bibcode :1981ASAJ...70..321R. doi :10.1121/1.386780.
  3. ^ van Santen, Ján PH; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Pokrok v syntéze reči . Springer. ISBN 978-0-387-94701-3.
  4. ^ Van Santen, J. (apríl 1994). "Priradenie segmentového trvania v syntéze textu na reč". Počítačová reč a jazyk . 8 (2): 95-128. doi :10.1006/csla.1994.1005.
  5. ^ História a vývoj syntézy reči, Technická univerzita v Helsinkách, získané 4. novembra 2006
  6. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine („Mechanizmus ľudskej reči s popisom jej hovoriaceho stroja“, JB Degen, Viedeň). (V Nemecku)
  7. ^ Mattingly, Ignatius G. (1974). Sebeok, Thomas A. (ed.). "Syntéza reči pre fonetické a fonologické modely" (PDF) . Súčasné trendy v lingvistike . Mouton, Haag. 12 : 2451-2487. Archivované z originálu (PDF) dňa 2013-05-12 . Získané 2011-12-13 .
  8. ^ Klatt, D (1987). „Prehľad prevodu textu na reč v angličtine“. Journal of the Acoutical Society of America . 82 (3): 737-93. Bibcode :1987ASAJ...82..737K. doi : 10.1121/1.395275. PMID  2958525.
  9. ^ Lambert, Bruce (21. marec 1992). "Louis Gerstman, 61, špecialista na poruchy reči a procesy". The New York Times .
  10. ^ "Životopis Arthura C. Clarkea". Archivované z originálu 11. decembra 1997 . Získané 5. decembra 2017 .
  11. ^ „Kde „HAL“ prvýkrát prehovoril (webová stránka Bell Labs Speech Synthesis)“. Bell Labs. Archivované z originálu dňa 2000-04-07 . Získané 2010-02-17 .
  12. ^ Anthropomorphic Talking Robot Waseda-Talker Series Archived 2016-03-04 at Wayback Machine
  13. ^ Gray, Robert M. (2010). „História digitálnej reči v reálnom čase v paketových sieťach: Časť II lineárneho prediktívneho kódovania a internetového protokolu“ (PDF) . Nájdené. Trendy Proces signálu . 3 (4): 203-303. doi : 10.1561/2000000036 . ISSN  1932-8346. Archivované (PDF) z originálu dňa 2022-10-09.
  14. ^ Zheng, F.; Pieseň, Z.; Li, L.; Yu, W. (1998). "Meranie vzdialenosti pre páry frekvenčného spektra aplikované na rozpoznávanie reči" (PDF) . Zborník príspevkov z 5. medzinárodnej konferencie o spracovaní hovoreného jazyka (ICSLP'98) (3): 1123–6. Archivované (PDF) z originálu dňa 2022-10-09.
  15. ^ ab "Zoznam míľnikov IEEE". IEEE . Získané 15. júla 2019 .
  16. ^ ab "Ústna história Fumitada Itakura". IEEE Global History Network. 20. mája 2009 . Získané 21.07.2009 .
  17. ^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto ; Nebbia, Luciano (1. novembra 1995). „Interaktívna hlasová technológia pri práci: Zážitok CSELT“. Rečová komunikácia . 17 (3): 263-271. doi :10.1016/0167-6393(95)00030-R.
  18. ^ Sproat, Richard W. (1997). Viacjazyčná syntéza textu na reč: Prístup Bell Labs . Springer. ISBN 978-0-7923-8027-6.
  19. ^ [TSI Speech+ a iné hovoriace kalkulačky]
  20. ^ Gevaryahu, Jonathan, [ "Sprievodca integrovaným obvodom LSI syntetizátora reči TSI S14001A"] [ mŕtvy odkaz ]
  21. ^ Breslow a kol. US 4326710  : "Talking electronic game", 27. apríla 1982
  22. ^ Hlasový šach Challenger
  23. ^ Najdôležitejšie evolúcie hier Archivované 2011-06-15 na Wayback Machine , GamesRadar
  24. ^ Adlum, Eddie (november 1985). "The Replay Years: Reflections from Eddie Adlum". Prehrať znova . Vol. 11, č. 2. s. 134-175 (160-3).
  25. ^ Szczepaniak, Ján (2014). Nevyslovená história japonských vývojárov hier . Vol. 1. SMG Szczepaniak. s. 544–615. ISBN 978-0992926007.
  26. ^ CadeMetz (20.08.2020). Ann Syrdal, ktorá pomohla dať počítačom ženský hlas, zomrela vo veku 74 rokov. The New York Times . Získané 23.08.2020 .
  27. ^ Kurzweil, Raymond (2005). Singularita je blízko . Knihy o tučniakoch . ISBN 978-0-14-303788-0.
  28. ^ Taylor, Paul (2009). Syntéza textu na reč . Cambridge, UK: Cambridge University Press. p. 3. ISBN 9780521899277.
  29. ^ Alan W. Black , Perfektná syntéza pre všetkých ľudí po celú dobu. Workshop IEEE TTS 2002.
  30. ^ John Kominek a Alan W. Black . (2003). CMU ARCTIC databázy pre syntézu reči. CMU-LTI-03-177. Inštitút jazykových technológií, School of Computer Science, Carnegie Mellon University.
  31. ^ Julia Zhang. Tvorba jazyka a syntéza reči v dialógoch pre učenie sa jazykov, diplomová práca, časť 5.6 na strane 54.
  32. ^ William Yang Wang a Kallirroi Georgila. (2011). Automatická detekcia neprirodzených segmentov na úrovni slov v syntéze reči s výberom jednotiek, IEEE ASRU 2011.
  33. ^ "Syntéza synchrónneho prekrývania a pridávania výšky tónu (PSOLA)". Archivované z originálu 22. februára 2007 . Získané 28.05.2008 .
  34. ^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. Projekt MBROLA: Smerom k súboru vysokokvalitných syntetizátorov reči na nekomerčné účely. Zborník ICSLP , 1996.
  35. ^ Muralishankar, R; Ramakrishnan, AG; Prathibha, P (2004). „Úprava výšky tónu pomocou DCT v zdrojovej doméne“. Rečová komunikácia . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
  36. ^ "Vzdelávanie: Marvel of The Bronx". čas . 1974-04-01. ISSN  0040-781X . Získané 28.05.2019 .
  37. ^ "1960 - Robot Rudy - Michael Freeman (Američan)". cyberneticzoo.com . 2010-09-13 . Získané 23.05.2019 .
  38. ^ New York Magazine. New York Media, LLC. 1979-07-30.
  39. ^ Futurista. Svetová spoločnosť budúcnosti. 1978. str. 359, 360, 361.
  40. ^ LF Lamel , JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generovanie a syntéza vysielaných správ, zborník Workshop ESCA-NATO a aplikácie technológie reči , september 1993.
  41. ^ Dartmouth College: Hudba a počítače archivované 2011-06-08 na Wayback Machine , 1993.
  42. ^ Príklady zahŕňajú Astro Blaster , Space Fury a Star Trek: Strategic Operations Simulator
  43. ^ Príklady zahŕňajú Star Wars , Firefox , Return of the Jedi , Road Runner , The Empire Strikes Back , Indiana Jones and the Temple of Doom , 720° , Gauntlet , Gauntlet II , APB , Paperboy , RoadBlasters , Vindicators Part II, Escape from the Planéta robotických príšer .
  44. ^ John Holmes a Wendy Holmes (2001). Syntéza a rozpoznávanie reči (2. vydanie). CRC. ISBN 978-0-7484-0856-6.
  45. ^ ab Lucero, JC; Schoentgen, J.; Behlau, M. (2013). "Fyzikálne založená syntéza neusporiadaných hlasov" (PDF) . Interspeech 2013 . Lyon, Francúzsko: Medzinárodná asociácia rečovej komunikácie: 587–591. doi :10.21437/Interspeech.2013-161. S2CID  17451802 . Získané 27. augusta 2015 .
  46. ^ ab Englert, Marina; Madazio, Glaucya; Gielow, Ingrid; Lucero, Jorge; Behlau, Mara (2016). „Identifikácia chýb vnímania ľudských a syntetizovaných hlasov“. Journal of Voice . 30 (5): 639.e17–639.e23. doi :10.1016/j.jvoice.2015.07.017. PMID  26337775.
  47. ^ "Systém syntézy reči založený na HMM". Hts.sp.nitech.ac.j . Získané 22. 2. 2012 .
  48. ^ Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22. mája 1981). „Vnímanie reči bez tradičných rečových znakov“ (PDF) . Veda . 212 (4497): 947–949. Bibcode :1981Sci...212..947R. doi :10.1126/science.7233191. PMID  7233191. Archivované z originálu (PDF) dňa 2011-12-16 . Získané 2011-12-14 .
  49. ^ Valle, Rafael (2020). "Mellotron: Viacreproduktorová expresívna hlasová syntéza podmienená rytmom, výškou a globálnymi štýlmi". arXiv : 1910.11997 [eess].
  50. ^ Chandraseta, Rionaldi (2021-01-19). „Generujte hlasové linky svojich obľúbených postáv pomocou strojového učenia“. Smerom k Data Science . Archivované z originálu dňa 2021-01-21 . Získané 23.01.2021 .
  51. ^ Kurosawa, Yuki (2021-01-19). ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『フャャャャャャャャャを言ってもらえる". AUTOMATON . Archivované z originálu dňa 2021-01-19 . Získané 2021-01-19 .
  52. ^ Yoshiyuki, Furushima (2021-01-18). 『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文竁悄ンズがテキストを読み上げてくれる。文サンズサンズステキストを読み上げてくれる。文竁悄に文章悄現することを目指すサービス「15.ai」が話題に". Denfaminicogamer . Archivované z originálu dňa 2021-01-18 . Získané 2021-01-18 .
  53. ^ „Generatívna umelá inteligencia prichádza pre dabovanie do kina: Startup ElevenLabs v oblasti umelej inteligencie zvyšuje predbežné začiatky“. Preosiate . 23. januára 2023 . Získané 2023-02-03 .
  54. ^ Ashworth, Boone (12. apríla 2023). „AI dokáže klonovať hlas vášho obľúbeného hostiteľa podcastu“. Drôtové . Získané 25.04.2023 .
  55. ^ WIRED Personál. „Tento podcast nie je hostiteľom AI Voice Clones. Prisaháme“. Drôtové . ISSN  1059-1028 . Získané 25.07.2023 .
  56. ^ Wiggers, Kyle (20. 6. 2023). „Platforma ElevenLabs na generovanie hlasu vyzbierala 19 miliónov dolárov, spúšťa detekčný nástroj“. TechCrunch . Získané 25.07.2023 .
  57. ^ Bonk, Lawrence. „Výkonný nový nástroj AI od ElevenLabs vám umožní vytvoriť celú audioknihu za pár minút“. Lifewire . Získané 25.07.2023 .
  58. ^ Zhu, Jian (25. 5. 2020). "Skúšanie fonetických a fonologických znalostí tónov v modeloch TTS v mandarínčine". Prozódia reči 2020 . ISCA: ISCA: 930–934. arXiv : 1912.10915 . doi :10.21437/speechprozódia.2020-190. S2CID  209444942.
  59. ^ Lyu, Siwei (2020). „Deepfake Detection: Aktuálne výzvy a ďalšie kroky“. Medzinárodná konferencia IEEE o multimediálnych a výstavných workshopoch 2020 (ICMEW) . s. 1–6. arXiv : 2003.09234 . doi : 10.1109/icmew46912.2020.9105991. ISBN 978-1-7281-1485-9. S2CID  214605906 . Získané 29.06.2022 .
  60. ^ Diakopoulos, Mikuláš; Johnson, Deborah (jún 2020). „Predvídanie a riešenie etických dôsledkov deepfakes v kontexte volieb“. Nové médiá a spoločnosť (zverejnené 2020-06-05). 23 (7): 2072–2098. doi : 10.1177/1461444820925811. ISSN  1461-4448. S2CID  226196422.
  61. ^ Murphy, Margi (20. februára 2024). „Deepfake Audio Boom využíva AI startupu v hodnote jednej miliardy dolárov“. Bloomberg.
  62. ^ Čadha, Anupama; Kumar, Vaibhav; Kashyap, Sonu; Gupta, Mayank (2021), Singh, Pradeep Kumar; Wierzchoń, Sławomir T.; Tanwar, Sudeep; Ganzha, Maria (eds.), "Deepfake: An Overview", Zborník z druhej medzinárodnej konferencie o počítačoch, komunikáciách a kybernetickej bezpečnosti , Poznámky z prednášok v sieťach a systémoch, Singapur: Springer Singapore, zv. 203, s. 557–566, doi :10.1007/978-981-16-0733-2_39, ISBN 978-981-16-0732-5, S2CID  236666289 , získané 29.06.2022
  63. ^ "AI vrátila Valovi Kilmerovi jeho hlas. Kritici sa však obávajú zneužitia technológie." Washington Post . ISSN  0190-8286 . Získané 29.06.2022 .
  64. ^ Etienne, Vanessa (19. augusta 2021). „Val Kilmer získa svoj hlas späť po boji proti rakovine hrdla pomocou technológie AI: Vypočujte si výsledky“. PEOPLE.com . Získané 2022-07-01 .
  65. ^ Newman, Lily Hay. „Hlasové deepfakes generované AI nie sú strašidelne dobré – zatiaľ“. Drôtové . ISSN  1059-1028 . Získané 25.07.2023 .
  66. ^ "Syntéza reči". World Wide Web organizácie.
  67. ^ "Blizzard Challenge". Festvox.org . Získané 22. 2. 2012 .
  68. ^ "Usmej sa - a svet ťa počuje." Univerzita v Portsmouthe. 9. januára 2008. Archivované z originálu 17. mája 2008.
  69. ^ „Usmejte sa – a svet vás počuje, aj keď sa skrývate“. Vedecký denník . januára 2008.
  70. ^ Drahota, A. (2008). "Vokálna komunikácia rôznych druhov úsmevu" (PDF) . Rečová komunikácia . 50 (4): 278-287. doi :10.1016/j.specom.2007.10.001. S2CID  46693018. Archivované z originálu (PDF) dňa 2013-07-03.
  71. ^ Muralishankar, R.; Ramakrishnan, AG; Prathibha, P. (február 2004). „Úprava výšky tónu pomocou DCT v zdrojovej doméne“. Rečová komunikácia . 42 (2): 143–154. doi :10.1016/j.specom.2003.05.001.
  72. ^ Prathosh, AP; Ramakrishnan, AG; Ananthapadmanabha, TV (december 2013). "Epochálna extrakcia založená na integrovanom lineárnom predikčnom rezíduí pomocou plosion indexu". IEEE Trans. Spracovanie jazyka zvukovej reči . 21 (12): 2471–2480. doi :10.1109/TASL.2013.2273717. S2CID  10491251.
  73. ^ EE Times. "TI opustí špecializované čipy na syntézu reči a prenesie produkty do Sensory Archived 2012-05-28 na Wayback Machine ." 14. júna 2001.
  74. ^ "Špecifikácia externého referenčného nástroja 1400XL/1450XL" (PDF) . Archivované z originálu (PDF) dňa 24.03.2012 . Získané 22. 2. 2012 .
  75. ^ "Určite je skvelé vyjsť z tej tašky!". folklore.org . Získané 24. 3. 2013 .
  76. ^ "Amazon Polly". Amazon Web Services, Inc. Získané 28.04.2020 .
  77. ^ Baník, Jay ; a kol. (1991). Amiga Hardware Reference Manual (3. vydanie). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-56776-2.
  78. ^ Devitt, Francesco (30. júna 1995). "Knižnica prekladateľov (verzia pre viacjazyčnú reč)". Archivované z originálu 26. februára 2012 . Získané 9. apríla 2013 .
  79. ^ „Návody na zjednodušenie ovládania pre Windows XP: Používanie Moderátora“. Microsoft. 2011-01-29. Archivované z originálu 21. júna 2003 . Získané 29.01.2011 .
  80. ^ „Ako nakonfigurovať a používať prevod textu na reč v systéme Windows XP a Windows Vista“. Microsoft. 2007-05-07 . Získané 2010-02-17 .
  81. ^ Jean-Michel Trivi (2009-09-23). „Úvod do prevodu textu na reč v systéme Android“. Android-developers.blogspot.com . Získané 2010-02-17 .
  82. ^ Andreas Bischoff, The Pediaphon – Speech Interface k bezplatnej encyklopédii Wikipédie pre mobilné telefóny, PDA a MP3 prehrávače, Zborník z 18. medzinárodnej konferencie o databázových a expertných systémových aplikáciách, strany: 575–579 ISBN 0-7695-2932-1 , 2007 
  83. ^ "gnuspeech". Gnu.org . Získané 2010-02-17 .
  84. ^ „Projekt histórie syntézy Smithsonovej reči (SSSHP) 1986–2002“. Mindspring.com. Archivované z originálu dňa 2013-10-03 . Získané 2010-02-17 .
  85. ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (2018-06-12), "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558
  86. ^ Arık, Sercan Ö.; Chen, Jitong; Peng, Kainan; Ping, Wei; Zhou, Yanqi (2018), "Klonovanie neurálneho hlasu s niekoľkými vzorkami", Pokroky v systémoch spracovania neurálnych informácií , 31 , arXiv : 1802.06006
  87. ^ „Falošné hlasy ‚pomáhajú kybernetickým podvodníkom ukradnúť hotovosť‘“. bbc.com . BBC . 2019-07-08 . Získané 2019-09-11 .
  88. ^ Drew, Harwell (2019-09-04). "Najskôr umelá inteligencia: Softvér napodobňujúci hlas údajne použitý pri veľkej krádeži." Washington Post . Získané 2019-09-08 .
  89. ^ Thies, Justus (2016). „Face2Face: Zachytenie tváre v reálnom čase a rekonštrukcia RGB videí“. Proc. Počítačové videnie a rozpoznávanie vzorov (CVPR), IEEE . Získané 2016-06-18 .
  90. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync od Audio, University of Washington , získané 2018-03-02
  91. ^ Ng, Andrew (2020-04-01). „Klonovanie hlasu pre masy“. deeplearning.ai . The Batch. Archivované z originálu dňa 2020-08-07 . Získané 2020-04-02 .
  92. ^ Brunow, David A.; Cullen, Theresa A. (2021-07-03). „Vplyv prevodu textu na reč a ľudského čítania na počúvanie s porozumením u študentov s poruchami učenia“. Počítače v školách . 38 (3): 214–231. doi : 10.1080/07380569.2021.1953362. hdl : 11244/316759 . ISSN  0738-0569. S2CID  243101945.
  93. ^ Triandafilidi, Ioanis I.; Tatarniková, TM; Poponin, AS (2022-05-30). „Systém syntézy reči pre ľudí so zdravotným postihnutím“. 2022 Wave Electronics a jej aplikácie v informačných a telekomunikačných systémoch (WECONF) . Petrohrad, Ruská federácia: IEEE. s. 1–5. doi :10.1109/WECONF55058.2022.9803600. ISBN 978-1-6654-7083-4. S2CID  250118756.
  94. ^ Zhao, Yunxin; Pieseň, Minguang; Yue, Yanghao; Kuruvilla-Dugdale, Mili (27.07.2021). „Prispôsobenie hlasov TTS pre progresívnu dysartriu“. 2021 Medzinárodná konferencia IEEE EMBS o biomedicínskej a zdravotníckej informatike (BHI) . Atény, Grécko: IEEE. s. 1–4. doi : 10.1109/BHI50953.2021.9508522. ISBN 978-1-6654-0358-0. S2CID  236982893.
  95. ^ „Vývoj čítacích strojov pre nevidomých: Výskum Haskinsových laboratórií ako história prípadov“ (PDF) . Journal of Rehabilitation Research and Development . 21 (1). 1984.
  96. ^ „Oznámený softvér na syntézu reči pre Anime“. Anime News Network . 2007-05-02 . Získané 2010-02-17 .
  97. ^ "Služba syntetizátora reči Code Geass ponúkaná v Japonsku". Animenewsnetwork.com. 2008-09-09 . Získané 2010-02-17 .
  98. ^ Chandraseta, Rionaldi (2021-01-19). „Generujte hlasové linky svojich obľúbených postáv pomocou strojového učenia“. Smerom k Data Science . Archivované z originálu dňa 2021-01-21 . Získané 23.01.2021 .
  99. ^ Kurosawa, Yuki (2021-01-19). ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『フャャャャャャャャャを言ってもらえる". AUTOMATON . Archivované z originálu dňa 2021-01-19 . Získané 2021-01-19 .
  100. ^ Yoshiyuki, Furushima (2021-01-18). 『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文竁悄ンズがテキストを読み上げてくれる。文サンズサンズステキストを読み上げてくれる。文竁悄に文章悄現することを目指すサービス「15.ai」が話題に". Denfaminicogamer . Archivované z originálu dňa 2021-01-18 . Získané 2021-01-18 .
  101. ^ „Teraz si vypočujte toto: Startup ElevenLabs s umelou inteligenciou s hlasovým klonovaním získal 19 miliónov dolárov od a16z a iných ťažkých útočníkov“. VentureBeat . 2023-06-20 . Získané 25.07.2023 .
  102. ^ "Sztuczna inteligencja czyta głosem Jarosława Kuźniara. Rewolucja w radiu a podcastach". Press.pl (v poľštine). 9. apríla 2023 . Získané 25.04.2023 .
  103. ^ Ashworth, Boone (12. apríla 2023). „AI dokáže klonovať hlas vášho obľúbeného hostiteľa podcastu“. Drôtové . Získané 25.04.2023 .
  104. ^ Knibbs, Kate. „Generatívne AI podcasty sú tu. Pripravte sa na nudu“. Drôtové . ISSN  1059-1028 . Získané 25.07.2023 .
  105. ^ Suciu, Peter. „Paródia na zatknuté dedičstvo na YouTube obsahuje „rozprávanie“ od Rona Howarda generovaného AI. Forbes . Získané 25.07.2023 .
  106. ^ Fadulu, Lola (2023-07-06). "Môže byť AI zábavná? Táto skupina si to myslí." The New York Times . ISSN  0362-4331 . Získané 25.07.2023 .
  107. ^ Kanetkar, Riddhi. "Hot AI startup ElevenLabs, ktorý založili bývalí zamestnanci Google a Palantir, je pripravený získať 18 miliónov dolárov v hodnote 100 miliónov dolárov. Pozrite si 14-slajdový prezentačný balík, ktorý použil na svoje predbežné nasadenie vo výške 2 milióny dolárov." Business Insider . Získané 25.07.2023 .
  108. ^ „Hlas generovaný AI sa upína po tom, čo 4chan vytvára hlasy celebrít na zneužívanie“. www.vice.com . 30. januára 2023 . Získané 2023-02-03 .
  109. ^ „Použitie prevodu textu na reč pri generovaní videa AI“. elai.io . Získané 10. augusta 2022 .
  110. ^ "AI prevod textu na reč pre videá". synthesia.io . Získané 12. októbra 2023 .
  111. ^ Bruno, Chelsea A (2014-03-25). Vokálna syntéza a hlboké počúvanie (magisterská diplomová práca). Florida International University. doi : 10.25148/etd.fi14040802 .

vonkajšie odkazy

  • Syntéza reči u Curlieho
  • Simulovaný spev so spievajúcim robotom Pavarobotti alebo popis od BBC, ako robot syntetizoval spev.
Prevzaté z „https://en.wikipedia.org/w/index.php?title=Speech_synthesis&oldid=1209218239“