- Source: Soundex
Soundex atau Russell Soundex ialah sistem penyandian berbasis bunyi bahasa, diterapkan dalam pemrosesan bahasa alami mencakup pengambilan informasi terhadap kesalahan penulisan secara ejaan, tetapi serupa secara bunyi. Menjadi algoritme pertama kepada memadankan susunan karakter berdasar bunyi. Sebab itu, Soundex diketahui sebagai algoritme fonetik yang paling dikenal luas.
Secara sebagian besar, Soundex banyak dihubungkan pada hal yang berurusan dengan pencarian nama individu terutama nama keluarga, sebagai contoh pada pendataan sensus dan tugas tertentu yang terdapat kesalahan penulisan disebabkan kesamaan bunyi.
Penggunaan Soundex hingga kini masih terdapat pada Arsip Nasional Amerika Serikat terhadap penyelidikan atas tujuan sensus. Pula dilestarikan dalam catatan historis yang menunjukkan penelitian dan pengembangan algoritme modern.
Sejarah
Soundex awal dikembangkan tahun 1900-an oleh Robert C. Russell dan Margaret King Odell. Russell memperoleh paten pertama pada tahun 1918, sebelum komputer dikenal luas, kala itu Soundex menangani persoalan sensus Amerika Serikat yaitu menemukan individu bersumber nama mereka.
Sistem Soundex berguna terutama bagi mereka yang mencari leluhur di Amerika. Pada tahun 1930-an, berbagai variasi Russell Soundex yang dikenal Soundex "Amerika" telah digunakan kepada beberapa federal rekam sensus Amerika Serikat. Digunakan pada seluruh sensus antara tahun 1880, 1900 dan 1920, sementara pada tahun 1910 hanya digunakan di beberapa wilayah. Mereka yang mencari leluhur dalam rekam sensus perlu familier dengan sistem penyandian Soundex.
Dikembangkan berdasarkan pengucapan dalam bahasa Inggris, pada tahun 1997, Soundex diperluas mengikuti tata bahasa dalam bahasa Indonesia.
Semasa abad ke-20, kode Soundex secara primer terdapat dalam referensi atas dokumen oleh federal dan Lembaga Negara Amerika Serikat.
Algoritme
Soundex bekerja dengan mengubah susunan karakter ke dalam kode bunyi atau fonetik yang konsisten sebanyak empat karakter. Meskipun susunan karakter berbeda, tetapi terjadi pengucapan serupa maka akan menjadi kode bunyi yang sama. Sebagian besar sistem Soundex bergantung pada konsonan, sementara tidak menyertakan huruf vokal pengecualian terletak di huruf pertama. Sebagai contoh, kata dengan ejaan bervariasi yang merepresentasi nama seperti Sherman, Sharman, Sirman akan diubah menjadi kode S-655. Susunan karakter yang dapat diubah ke kode bunyi tidak wajib merepresentasi sebuah nama, contoh lain seperti kata 'laper' yang dapat diidentifikasi sebagai kata 'lapar'.
Pencantuman kode bunyi atas algoritme Soundex pada Bahasa Indonesia telah mengalami pengembangan yaitu dengan aturan:
Salah satu penerapan algoritme Soundex dapat melalui proses yakni:
Mengganti seluruh susunan karakter kecuali huruf pertama ke dalam kode bunyi
Menghapus kode repetitif yang bersebelahan
Menghilangkan semua kode 0 yang bertujuan meniadakan huruf vokal
Mengembalikan empat karakter pertama dari susunan karakter yang dihasilkan
Kala kode bunyi tidak mencapai empat karakter, maka kode yang lain ialah 0.
Adaptasi berbeda terhadap Soundex dapat diterapkan bergantung pada studi bahasa. Bila pada bahasa tertentu belum terdapat struktur secara bunyi bahasa pula dapat diusulkan kepada sistem.
Limitasi
Soundex dimulai atas rancangan pengucapan bahasa Inggris yang hanya mendukung 26 karakter huruf A ke Z, akan tetapi dalam bahasa tertentu seperti pada bahasa Sindhi yang banyak melibatkan abjad Arab memerlukan pengembangan berlainan.
Selain itu, string atau susunan karakter yang diperkirakan jauh dari kemiripan dapat menghasilkan kode Soundex yang sama, seperti 'Smith', 'Saint', 'Snead'.
Beberapa sistem penyandian, seperti algoritme Metaphone ialah pengembangan dari Soundex.
Aplikasi
Penerapan yang sudah banyak dikenal atas Soundex ialah pada federal sensus Amerika Serikat. Lebih dari itu, penerapan paling umum terhadap sistem Soundex ialah pada aplikasi pemeriksa ejaan yang diterapkan pada bahasa Inggris dan sejumlah bahasa lain. Pada bahasa Sindhi, diketahui satu faktor kesalahan ejaan paling banyak berlangsung pada kata dengan bunyi yang serupa. Merupakan satu keuntungan dari penerapan Soundex.
Awal kala perangkat seluler mulai masif, diikuti pertumbuhan pemakaian layanan pesan SMS yang menimbulkan analisa terhadap pesan teks menjadi cukup penting. Soundex pula dapat meningkatkan pencarian antara teks SMS hubungan dengan kosakata standar pada bahasa Inggris maupun bahasa Spanyol.
Salah satu aplikasi pemeriksa ejaan melibatkan akan pencarian nama dalam pangkalan data dengan jumlah besar, sebagai contoh, dalam hal operator telekomunikasi yang mewakili operator telepon dalam mendapati nomor telepon pelanggan berdasarkan atas perkiraan ejaan nama pelanggan. Menjadi lumrah saat Soundex masih sangat populer di antara berbagai vendor pangkalan data, antara lain mencakup karakteristik standar pada Oracle, MySQL, dsb.
Implementasi pencarian akan Soundex terdapat pada situs web Ancestry atas pangkalan data silsilah keluarga milik mereka dan beberapa program konversi ke kode Soundex, satu di antara yaitu SoundEx Converter Form Diarsipkan 2020-06-13 di Wayback Machine..
Referensi
Kata Kunci Pencarian:
- Soundex
- Dorothy Green (pemeran film bisu)
- Laurette Taylor
- Daftar kata yang dilindungi di SQL
- Daftar algoritme
- Soundex
- Daitch–Mokotoff Soundex
- Phonetic algorithm
- Metaphone
- International Soundex Reunion Registry
- New York State Identification and Intelligence System
- Error-tolerant design
- Ht-//Dig
- Census
- Family reunion