Teknologi TTS merupakan teknologi dalam bidang akustik / suara yang mengubah tulisan menjadi suara.
Perkembangan teknologi ini sudah dimulai pada waktu yang sangat lama.Salah satu hal yang mendasari terciptanya teknologi ini adalah ucapan dari seorang Engineer dan matematikawan terkenal bernama LEONARD EULER pada tahun 1761 yang mengatakan bahwa adalah mungkin untuk membuat sebuah mesin yang bisa menirukan ucapan manusia (kutipan lengkapnya “It would be a considerable invention indeed, that of a machine able to mimic speech, with its sounds and articulations. I think it is not imposible” ).
SEJARAH dan PERKEMBANGAN TTS
Pada masa perkembangannya belum dikenal istilah Text to Speech. Yang dikenal adalah PENSINTESA UCAPAN (Speech Synthesizer) dan Text to Speech ini merupakan salah satu produknya.Perkembangan dari pensintesa ucapan ini dibagi ke dalam 3 kurun waktu yang akan dijelaskan di bawah.
A.KURUN WAKTU PERTAMA (…-1930)
Awal dari penelitian suara manusia telah dilakukan sejak dulu.Pada awal penelitian, hal yang terutama diteliti adalah mengenai pemahaman tentang sinyal ucapan.
Tahun 1779, Imperial Academy of St Petersburg mangadakan sebuah kompetisi untuk mengetahui 2 hal mengenai suara yaitu mengenai karakter suara dari vocal(a,i,u,e,o) yang membuatnya berbeda untuk setiap orang dan untuk mengetahui apakah ada sebuah instrument yang bisa merepresentasikan suara manusia. Kompetisi ini dimenangkan oleh seorang peneliti dari Rusia yang bernama Christian Gottlieb Kratzenstein .Dia membuat satu set resonator suara yang terbuat dari 5 tabung seperti gambar di samping dengan setiap tabung merepresenatasikan satu vocal..
Pada tahun 1829, seorang peneliti bernama Robert Willis berhasil membuat sebuah alat dengan prinsip Kratzenstein tetapi dengan menggunakan satu silinder saja yang panjangnya bisa diubah-ubah.
Antara tahun 1769-1790, Wolfgang Ritter von Kempelen telah menghasilkan speaking machine yang lengkap.Mesin ini dirancang untuk menghasilkan beberapa resonansi pada beberapa frekuensi yang berbeda untuk mencapai berbagai suara berlainan yang diinginkan.Kempelen mengklaim bahwa mesin ini bisa mengeluarkan vocal a,u, dan o serta konsonan p,m,dan l .Jadi mesin ini bisa mengeluarkan bunyi monoton seperti mama atau papa.Tetapi ada 2 kendala utama yang dihadapi yaitu suara vokal yang dihasilkan mengandung bunyi yang sifatnya eksplosif yang mirip bunyi “k”, dan terdapat transisi antara dua bunyi yang berdekatan yang tidak smooth seperti suara alami.Untuk mengatasinya digunakan kulit halus pada mesinnya.
Lalu Kempelen juga membuat mesin yang lebih sempurna di mana cara kerjanya menggunakan prinsip pernafasan manusia. Paru-paru disimulasikan dengan pompa yang digerakan dengan bahu yang secara kontinyu dapat menghembuskan udara. Vokal dapat dihasilkan dengan cara menutup “nostrils” mesin tersebut dengan tangan kanan sambil menghembuskan udara dari simulator paru-paru. Sementara itu, tangan kiri harus mengatur resonansi melalui alat berbentuk bel. Hanya orang yang terlatih memainkannya yang dapat menghasilkan bunyi-bunyi yang diharapkan. Suara seperti F, H, V, W dan beberapa lainnya adalah suara-suara yang juga dapat dihasilkan dengan mesin tersebut.
Kempelen mengklaim bahwa mesin ketiga buatannya dapat menghasilkan semua suara vokal serta sembilan belas konsonan. Meskipun mesin tersebut memiliki kapasitas menghasilkan udara sekitar enam kali lebih besar dari kapasitas paru-paru manusia, tetapi mesin ini hanya mampu mengucapkan kalimat yang pendek sebelum kehabisan udara.
Lalu generasi berikutnya adalah dari Sir Charles Wheatstone yang terkenal dengan jembatan Wheatstone-nya.Wheatstone tumbuh sambil membantu bisnis penjualan perangkat musik keluarganya di
Alexander Graham Bell si penemu telepon pada tahun 1863, pada usia 19tahun memiliki dugaan bahwa suara apapun bisa dirambatkan / ditransmisikan secara elektrik.Hal inilah yang merupakan cikal bakal lahirnya telpon.
B.KURUN WAKTU KEDUA (1930-ditemukannya komputer digital)
Sejak 1930, pendekatan dengan model elektrik untuk analisis dan menirukan ucapan mulai dipergunakan. Pensintesa elektrik yang sukses pertama kali untuk mensintesa ucapan adalah
Suara bersumber dari dua buah sumber bunyi, yaitu : noise dan osilator. Sumber noise disediakan untuk mensintesa ucapan yang menyerupai noise, sedangkan osilator untuk ucapan lainnya. Frekuensi osilator dikendalikan oleh pedal. Frekuensi yang dihasilkan akan menentukan pitch dari bagian ucapan yang dihasilkan. Sumber yang dihasilkan akan dilewatkan pada sepuluh bandpass filter yang dihubungkan secara parallel dan masing-masing frekuensinya dapat diatur. Tiga pengatur lainnya disediakan untuk mengatur proses transien, yaitu untuk reproduksi konsonan stop, yaitu t, d, p, b, k, g. Mesin ini berhasil membangkitkan suara yang intelligible. Mesin ini harus dimainkan oleh seorang operator yang sangat terlatih.
C.KURUN WAKTU KETIGA (ditemukannya komputer digital – sekarang).
Penemuan komputer digital memberikan andil yang sangat besar terhadap perkembangan dari pensintesa suara.Pada era ini, pembangkitan ucapan dilakukan dengan algoritma-algoritma pemrosesan sinyal digital dan menggunakan software.Pensintesa digital yang pertama berkembang adalah formant synthesizer yang bekerja dengan mensimulasikan komponen frekwensi utama pembentuk suara yang disebut formant. Pensintesa formant tidak dapat menghasilkan suara dengan tingkat kealamian yang tinggi, sehingga perkembangannya mengarah pada pencarian alternatif untuk mencari pendekatan yang dapat menghasilkan ucapan yang lebih alami. Seiring dengan kecepatan prosesor serta media penyimpanan komputer yang semakin tinggi, pendekatan tersebut mengarah pada sistem yang melakukan penggabungan segmen-segmen ucapan yang direkam sebelumnya. Berdasarkan berbagai pertimbangan teknis dan kualitas yang ingin dicapai, bentuk segmen yang dianggap paling optimum dan banyak digunakan adalah diphone atau dua fonem yang berurutan. Pendekatan dengan cara penyusunan ucapan dari diphone ini disebut diphone concatenation. Pada pengembangan teknik ini kendala yang paling utama ditemui adalah algoritma untuk penggabungan satu diphone dengan diphone lainnya, serta algoritma memanipulasi diphone.
Semua pensintesa suara dengan menggunakan bantuan komputer digital inilah yang disebut dengan pensintesa suara TEXT TO SPEECH (TTS) atau cukup TTS saja.Dan TTS yang paling umum dipergunakan dan dikembangkan saat ini adalah TTS dengan teknik diphone concatenation.
CARA KERJA TTS
Ada 2 langkah yang harus dilakukan dan merupakan prinsip dasar dari TTS yaitu :
1.konverter TEXT ke FONEM, dan
2.konverter FONEM ke UCAPAN (speech).
Konverter Teks ke Fonem berfungsi untuk mengubah kalimat masukan dalam bentuk teks dengan bahasa tertentu yang menjadi rangkaian kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya. Bagian ini bersifat sangat language dependant yang artinya sangat tergantung kepada bahasa yang digunakan. Untuk suatu bahasa baru, bagian ini harus dikembangkan secara lengkap khusus untuk bahasa tersebut.Hal ini terjadi karena perbedaan setiap jenis bahasa yang ada dalam pelafalannya dan system TTS harus bisa mengetahuinya untuk memberikan output suara yang sesuai diinginkan.
Konverter Fonem ke Ucapan akan menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan oleh konverter text ke fonem.. Berdasarkan kode-kode tersebut, bagian Konverter Fonem ke Ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan.
Telah dijelaskan sebelumnya bahwa ada 2 teknik yang digunakan untuk mensintesa suara yaitu teknik formant dan teknik diphone.Perbedaannya adalah bahwa Formant synthesizer bekerja berdasarkan suatu model matematis yang akan melakukan komputasi untuk menghasilkan sinyal ucapan yang diinginkan. tetapi tidak dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.Sedangkan synthesizer yang menggunakan teknik diphone concatenation bekerja dengan cara menggabung-gabungkan segmen-segmen bunyi berupa diphone (gabungan 2 fonem)yang telah direkam sebelumnya.dan synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat kealamian (naturalness) yang tinggi.Oleh karena perbedaan tingkat kealamian ini maka biasanya teknik yang digunakan adalah teknik diphone dengan hasil yang lebih baik daripada teknik formant.
Gambar di samping menjelaskan secara keseluruhan mengenai konversi dari text menjadi ucapan.
Tahap Text Normalization merupakan tahapan untuk mengubah semua teks kalimat yang ingin diucapkan menjadi teks yang secara lengkap memperlihatkan cara pengucapannya.
Pada tahapan selanjutnya adalah konversi teks yang sudah merepresentasikan kalimat yang ingin diucapkan secara jelas menjadi urutan fonem.Terdapat 2 cara yang dilakukan, yaitu exception dictionary lookup dan letter to phone conversion.Kedua cara ini dibedakan berdasarkan keteraturan yang ada dalam kalimat tersebut.Kondisi yang teratur ditangani oleh Letter-to-Phone Conversion sedangkan untuk kondisi yang tidak teratur ditangani oleh bagian Exception-dictionary-lookup.Yang dimaksud dengan keteraturan di sini adalah keadaan di mana cara membaca kalimat tersebut berbeda dengan cara penulisannya.Misalkan dalam bahasa Indonesia untuk membaca huruf e dikenal ada 2 macam e yaitu e pepet dan e taling.Jadi untuk menangani masalah ini diserahkan pada bagian Exception Dictionary Lookup.Bahasa Indonesia memiliki keteraturan yang tinggi dan jelas aturan konversinya walaupun memang masih ada sebagian kecil yang belum seperti pada contoh di atas. Sangat berbeda dengan bahasa Inggris , keteraturannya sangat rendah. Bisa kita perhatikan bahwa pengucapan dalam bahasa Inggris sangat banyak yang berbeda dengan penulisannya.Hal-hal seperti ini menyebabkan kesulitan untuk membuat algoritma dari sistemnya.
Tahapan berikutnya adalah prosody generator yang akan melengakapi setiap unit fonem yang dihasilkan dengan data berupa pitch serta durasi pengucapan. Data ini diolah berdasarkan data data yang telah ada,kombinasi antara database (seperti diphone) dengan data teks masukan.
Dan tahap berikutnya merupakan perbaikan di tingkat bunyi yaitu Phonetic Analysis yang bisa dikatakan sebagai tahap penyempurnaan.Sebenarnya tahap prosody generator sudah bisa menghasilkan informasi yang cukup untuk menghasilkan ucapan yang diinginkan.Tetapi tahapan Phonetic Analysis akan menganalisis lagi dan akan melakukan perbaikan jika ditemukan kekurangan.Contohnya.dalam bahasa Indonesia fonem /k/ dalam kata bapak tidak pernah diucapkan secara tegas, atau adanya sisipan fonem /y/ dalam pengucapan kata alamiah antara fonem /i/ dan /a/.
Dan untuk tahapan konversi fonem ke ucapan sudah tidak menemukan masalah lagi.Bagian ini hanya akan menyesuaikan antara fonemnya dengan database suara/pengucapan yang telah tersimpan.
Di bawah merupakan gambar dari contoh proses konversi Text-to-Speech secara total.
APLIKASI TEXT TO SPEECH
1. Dalam bidang hiburan : aplikasi ini telah banyak digunakan dalam bidang entertainment dalam bidang games,animasi, ataupun sejenisnya.Tahun 2007 , Animo Limited mengumumkan aplikasi software yang berbasiskan pensintesa ucapan(TTS) FINESPEECH yang ditujukan untuk industri entertainment yang bisa meng-generate narasi dan sebaris dialog sesuai dengan spesifikasi pengguna.Dan pada tahun 2008 NEC BIGLOBE mempublikasikan sebuah web service yang memperbolehkan penggunanya membuat frasa dari suara dari karakter Code Geass: Lelouch of the Rebellion R2.
2. Dalam bidang News Service : situs web seperti ANANOVA telah menggunakan TTS/pensintesa ucapan untuk mengkonversi berita tertulis menjadi suara, yang juga bisa diaplikasikan dalam perangkat mobile.
3. Dalam hidup sehari-hari : TTS bisa digunakan untuk orang yang memiliki kesulitan dalam berbicara.Seperti orang gagap, hanya dengan menuliskan apa yang dia inginkan tanpa harus membuang energi untuk berbicara.TTS tidak hanya bisa digunakan orang yang kesulitan berbicara tetapi juga bisa digunakan oleh orang yang bisu.
Referensi :
- http://indotts.melsa.net.id
- http://teknologibahasa.wordpress.com
- http://one.indoskripsi.com/judul-skripsi/teknik-informatika/aplikasi-text-speech-tts-berbahasa-indonesia-sebagai-pembaca-sms
- http://en.wikipedia.org
Tidak ada komentar:
Posting Komentar