Penganalisis Frekuensi Karakter (huruf, semua karakter, atau kata)

Tempel teks apa pun untuk mendapatkan tabel frekuensi yang diurutkan. Tiga mode: semua karakter, huruf/angka saja, atau seluruh kata. Berguna untuk kriptanalisis, analisis tulisan, dan pembersihan dataset.

Teks

Peka huruf besar-kecil

Alat terkait

Cara kerjanya

Kegunaannya

Kriptanalisis: sandi klasik (Caesar, substitusi) mempertahankan frekuensi huruf. Teks bahasa Indonesia memiliki frekuensi karakter yang khas. Jika Anda melihat distribusi tertentu dalam teks sandi, Anda memiliki substitusi. Bahasa CJK memiliki distribusi yang sangat berbeda tetapi masih dapat dikenali.

Analisis tulisan: menemukan kata yang terlalu sering digunakan adalah salah satu cara tercepat untuk memperbaiki draf. Jika 'sangat' atau 'sangat sekali' muncul 50 kali dalam esai 1.000 kata, Anda telah menemukan kebiasaan yang perlu diperbaiki.

Pembersihan dataset: memindai kolom CSV dengan alat ini mengungkapkan karakter liar, kesalahan encoding, dan kapitalisasi yang tidak terduga. Berguna sebelum mengimpor data ke sistem yang lebih ketat.

Tiga mode

Semua karakter: mencakup spasi, tanda baca, jeda baris, emoji. Terbaik untuk analisis teks mentah. Berguna saat Anda menduga karakter tersembunyi (zero-width space, BOM) merusak file.

Huruf dan angka: memfilter hanya huruf dan angka Unicode. Terbaik untuk analisis frekuensi huruf tradisional (kriptanalisis, identifikasi bahasa).

Kata: membagi berdasarkan spasi dan menghitung seluruh kata. Terbaik untuk analisis tulisan dan pemeriksaan gaya.

Apa yang dilakukan 'peka huruf besar-kecil'

Nonaktif (default): 'A' dan 'a' dihitung bersama. Terbaik untuk frekuensi huruf pada teks alami di mana case tidak relevan.

Aktif: 'A' dan 'a' dihitung secara terpisah. Berguna saat case bermakna — identifier pemrograman, istilah bermerek, atau menganalisis pola kapitalisasi. Catatan: pelipatan case-insensitive menggunakan aturan huruf kecil lokal; untuk sebagian besar bahasa ini adalah pelipatan case Unicode konvensional.

Pertanyaan umum

›Apakah ini bekerja untuk teks Jepang, Cina, Korea?

Ya. Mode huruf memperlakukan setiap ideograf sebagai satu 'huruf', sehingga Anda mendapatkan frekuensi hanzi/kanji. Mode kata membagi berdasarkan spasi, yang berarti teks CJK tanpa spasi muncul sebagai satu kata besar — gunakan mode huruf untuk teks tersebut.

›Apa huruf bahasa Inggris yang paling umum?

'E' (sekitar 12,7%), kemudian T (9,1%), A (8,2%), O (7,5%), I (7,0%), N (6,7%). Mengetahui ini adalah dasar memecahkan sandi substitusi sederhana.

›Apakah emoji dihitung?

Ya dalam mode 'semua karakter'. Mode huruf memfilternya (mereka bukan huruf menurut klasifikasi Unicode).

›Mengapa emoji terkadang terbagi menjadi beberapa karakter?

Beberapa emoji adalah beberapa code point Unicode (mis., bendera = dua huruf indikator regional). Penghitung mengikuti iterasi string JavaScript yang menghormati code point tetapi tidak semua kluster grafem. Untuk sebagian besar analisis ini tidak masalah.

›Bisakah saya mengekspor tabelnya?

Belum — salin-tempel tabel yang dirender untuk saat ini. Ekspor CSV ada dalam roadmap.

›Berapa banyak entri yang ditampilkan?

50 teratas dalam tabel. Jumlah ekor dirangkum di bagian bawah.

›Mengapa hasil case-insensitive Yunani/Turki tidak sesuai harapan saya?

Beberapa bahasa memiliki aturan case yang tidak biasa (I bertitik/tidak bertitik Turki; ß ↔ SS Jerman). Kami menggunakan toLowerCase() JavaScript yang mengikuti pelipatan case Unicode default — biasanya baik-baik saja tetapi bisa mengejutkan pada kasus tepi.

›Apakah data meninggalkan browser saya?

Tidak. Semua penghitungan berjalan secara lokal.