Istilah “global sprint” mungkin masih terdengar asing bagi banyak orang. Lebih jelasnya, event ini merupakan event online yang diadakan secara global di banyak negara. Di Indonesia sendiri, Mozilla Community mengadakannya pada hari ini (10 Mei 2018). Tujuannya untuk mengerahkan tenaga untuk menyempurnakan proyek-proyek Mozilla yang bersifat nirlaba.
Salah satu proyek yang bersifat open sourcedan nirlaba itu ialah Common Voice. Proyek Common Voice adalah inisiatif Mozilla untuk membantu mengajari mesin bagaimana manusia sebenarnya berbicara. Produk lain yang memiliki kesamaan dengan Common Voice ialah Google Voice.
Di sini kita bisa berkontribusi dengan mengumpulkan dan membaca teks. Mulanya ada dalam bahasa Inggris. Sementara bahasa Indonesia baru ada akhir-akhir ini sehingga masih memerlukan banyak kontribusi dari pengguna web di Indonesia. Intinya kita berdonasi kalimat dan suara di sini.
Dalam Common Voice kita bisa menjadi kontributor suara untuk memperbanyak database suara dalam Common Voice. Dengan bank data yang terkumpul ini, kita akan bisa membantu pihak-pihak yang ingin mengadakan penelitian yang beranggaran terbatas dan bersifat nirlaba.
Kita bisa membaca teks kemudian dengan fitur STT (speech to text), bunyi suara kita akan dijadikan teks. Makin banyak sumber yang membaca teks dan memberi masukan, mesin akan makin bisa mengenalinya dengan akurat. Bila ada kesalahan, bisa dikoreksi.
Dalam Global Sprint kali ini, kita memasukkan sebanyak mungkin kalimat dalam bank data Common Voice agar kinerja mesinnya dapat terus disempurnakan.
Bagaimana cara mendapatkan kalimat? Caranya mudah yakni dengan menulis kalimat sendiri dan menemukan kalimat yang sudah ada dalam domain publik seperti situs pemerintah atau sumber terbuka umum yang bisa dijadikan sumber tanpa harus meminta izin resmi.
Untuk membuat kalimat sendiri yang Anda bisa sumbangkan ke Common Voice, syaratnya sebagai berikut:
- Idealnya jika dibaca kalimat itu hanya membutuhkan waktu 5 detik dan maksimal 10 detik. Dengan kata lain, durasi baca sebuah kalimat yang kita sumbangkan 5-1o detik.
- Satu atau dua kalimat tidak masalah tetapi tidak untuk semua kalimat. Cobalah memberikan kalimat dengan panjang yang relatif sedikit dan sedang namun tetap durasi bacanya maksimal 10 detik.
- Coba pakai sebanyak mungkin kata. Ini untuk membuat mesin memperkaya kosakatanya.
- Memasukkan tanda baca seperti koma atau tanda tanya juga bagus tapi tidak perlu memaksakan harus ada.
- Jika bahasa Anda menggunakan lambang khusus, itu juga diperkenankan. Menggunakan lambang khusus ini membantu mesin membedakan suara-suara berbeda.
- Cobalah memasukkan kata benda umum [proper nouns] seperti nama orang, nama jalan, nama tempat.
- Angka juga diperbolehkan untuk dimasukkan tapi ejalah angka itu, misalnya 21 ditulis “duapuluh satu”.
Sejumlah kiat untuk menemukan teks yang perlu Anda ketahui:
- Sumber terbaik yang bisa Anda pakai yakni podcast, transkrip, naskah film dan apapun yang mengandung percakapan sehari-hari.
- Makalah pemerintah, buku dan artikel juga boleh dimasukkan asal gaya bahasanya formal.
- Hindari memasukkan teks dari Wikimedia. Jadi jangan salin rekat dari situs tersebut.
- Dua sumber yang juga berguna yakni Common Crawl dan Open Subtitles. Akan lebih baik jika bisa menemukan situs serupa di dalam bahasa Indonesia. Bagikan sumber tersebut juga pada relawan lain agar mereka dapat menggunakannya.
Berikut ialah tautan-tautan penting yang bisa dikunjungi untuk dipelajari lebih lanjut:
- tentang deksripsi umum Mozilla Global Sprint: https://foundation.mozilla.org/opportunity/global-sprint/
- tentang Mozilla Global Sprint: https://mzl.la/global-sprint
- tentang Mozilla Common Voice Project: https://voice.mozilla.org/id
- tentang Mozilla Community Voice Sprint: https://voice-sprint.mozilla.community/contributing/
- Laman untuk mengunggah kalimat Anda: https://voice-sprint.mozilla.community/upload/