Karakter Frekans Analizörü (harfler, tüm karakterler veya kelimeler)
Herhangi bir metin yapıştırarak sıralı frekans tablosu al. Üç mod: tüm karakterler, yalnızca harfler/rakamlar veya tam kelimeler. Kriptanaliz, yazı analizi ve veri seti temizliği için kullanışlıdır.
Nasıl çalışır
Ne işe yarar?
Kriptanaliz: klasik şifreler (Sezar, ikame) harf frekanslarını korur. İngilizce metinlerde en yaygın harf her zaman E'dir, ardından T, A, O, I, N gelir. Şifreli metinde bu dağılımı görürseniz, ikame şifresiyle karşı karşıyasınız demektir. Türkçede en sık kullanılan harf A'dır, ardından E, İ, N, R gelir.
Yazı analizi: aşırı kullanılan kelimeleri tespit etmek taslakları iyileştirmenin en hızlı yollarından biridir. 1000 kelimelik bir makalede 'çok' veya 'gerçekten' 50 kez geçiyorsa, düzeltilmesi gereken bir alışkanlık buldunuz demektir.
Veri seti temizliği: bu araçla bir CSV sütununu taramak, gizlenmiş karakterleri, kodlama hatalarını ve beklenmedik büyük-küçük harf kullanımını ortaya çıkarır. Veriyi daha katı bir sisteme aktarmadan önce kullanışlıdır.
Üç mod
Tüm karakterler: boşluklar, noktalama işaretleri, satır sonları, emojiler dahil. Ham metin analizi için en iyisi. Bir dosyayı bozan gizli karakterleri (sıfır genişlikli boşluk, BOM) şüphelendiğinizde kullanışlıdır.
Harfler ve rakamlar: yalnızca Unicode harfleri ve sayıları filtreler. Geleneksel harf-frekans analizi (kriptanaliz, dil tanımlama) için en iyisi.
Kelimeler: boşlukta böler ve tam kelimeleri sayar. Yazı analizi ve üslup kontrolü için en iyisi.
'Büyük-küçük harf duyarlı' ne yapar?
Kapalı (varsayılan): 'A' ve 'a' birlikte sayılır. Büyük-küçük harfin tesadüfi olduğu doğal metinde harf-frekans analizi için en iyisi.
Açık: 'A' ve 'a' ayrı sayılır. Büyük-küçük harfin anlamlı olduğu durumlarda kullanışlıdır — programlama tanımlayıcıları, markalı terimler veya büyük-küçük harf kalıplarını analiz etme. Not: büyük-küçük harf duyarsız katlama, yerel ayarın küçük harf kurallarını kullanır; Türkçe için I/ı ve İ/i çiftleri önemlidir.
Sık sorulan sorular
›Japonca, Çince, Korece metin için çalışıyor mu?
Evet. Harf modu her ideografı bir 'harf' olarak değerlendirir; dolayısıyla hanzi/kanji frekansı alırsın. Kelime modu boşlukta böler; bu da boşluksuz CJK metni tek bir dev kelime olarak gösterebilir — bunlar için harf modunu kullan.
›Türkçede en yaygın harf hangisi?
Türkçede en sık kullanılan harf 'A' (yaklaşık %12,9), ardından E, İ, N, R gelir. Basit ikame şifrelerini kırmak için bu bilgi temel oluşturur.
›Emojiler sayılıyor mu?
'Tüm karakterler' modunda evet. Harf modu bunları filtreler (Unicode sınıflandırmasına göre harf değiller).
›Emojiler neden bazen birden fazla karaktere bölünüyor?
Bazı emojiler birden fazla Unicode kod noktasından oluşur (örn. bayraklar = iki bölgesel gösterge harfi). Sayaç, kod noktalarına saygı gösteren JavaScript dizi yinelemesini takip eder. Çoğu analiz için bu sorun değildir.
›Tabloyu dışa aktarabilir miyim?
Henüz değil — şimdilik işlenmiş tabloyu kopyala-yapıştır kullan. CSV dışa aktarma yol haritasında var.
›Kaç giriş gösteriyor?
Tabloda en yüksek 50. Kuyruk sayısı altta özetleniyor.
›Büyük-küçük harf duyarsız Türkçe sonuçları neden beklentimi karşılamıyor?
Türkçede alışılmadık büyük-küçük harf kuralları var (noktalı İ/i ve noktasız I/ı). JavaScript'in toLowerCase() işlevi varsayılan Unicode büyük-küçük harf katlamayı kullanır; bu genellikle doğrudur ama kenar durumlarda sürpriz yapabilir.
›Veriler tarayıcımı terk ediyor mu?
Hayır. Tüm sayım yerel olarak yapılır.
İlgili araçlar
Son güncelleme: