Анализатор частоты символов (буквы, все символы или слова)

Вставьте любой текст и получите отсортированную таблицу частот. Три режима: все символы, только буквы/цифры или целые слова. Полезно для криптоанализа, анализа текста и очистки данных.

Текст

Учитывать регистр

Как это работает

Для чего это нужно

Криптоанализ: классические шифры (Цезарь, замена) сохраняют частоты букв. В русском тексте чаще всего встречается О, затем Е, А, И, Н, Т. Если вы видите примерно такое распределение в шифротексте — перед вами шифр замены. CJK-языки имеют очень другое распределение, но тоже распознаваемое.

Анализ текста: выявление навязчивых слов — один из самых быстрых способов улучшить черновик. Если «просто» или «очень» встречается 50 раз в эссе на 1 000 слов — вот тик, который стоит исправить.

Очистка данных: анализ столбца CSV этим инструментом выявляет лишние символы, ошибки кодировки и неожиданные регистры. Полезно перед импортом данных в более строгую систему.

Три режима

Все символы: включает пробелы, знаки препинания, переносы строк, эмодзи. Лучший выбор для сырого анализа текста. Удобен, когда подозреваете скрытые символы (неразрывный пробел нулевой ширины, BOM), портящие файл.

Буквы и цифры: фильтрует только буквы и цифры Unicode. Лучший выбор для традиционного частотного анализа букв (криптоанализ, определение языка).

Слова: разбивает по пробелам и подсчитывает целые слова. Лучший выбор для анализа текста и стилистической проверки.

Что делает «учитывать регистр»

Выключено (по умолчанию): «А» и «а» считаются вместе. Лучший вариант для частотного анализа естественного текста, где регистр случаен.

Включено: «А» и «а» считаются отдельно. Полезно, когда регистр значим — программные идентификаторы, фирменные термины или анализ паттернов капитализации. Примечание: регистронезависимый анализ использует правила приведения к нижнему регистру для данной локали; для большинства языков это стандартное Unicode-приведение.

Частые вопросы

›Работает ли с японским, китайским, корейским текстом?

Да. В режиме «Буквы» каждый иероглиф считается одной «буквой», что даёт частоту кандзи/ханьцзы. Режим «Слова» разбивает по пробелам, поэтому CJK-текст без пробелов воспринимается как одно гигантское слово — для него используйте режим «Буквы».

›Какая буква встречается в русском языке чаще всего?

«О» (около 10,97%), затем Е/Ё (8,45%), А (8,01%), И (7,35%), Н (6,7%), Т (6,26%). Знание этого — основа взлома простых шифров замены.

›Считаются ли эмодзи?

Да, в режиме «Все символы». Режим «Буквы» их исключает (они не являются буквами согласно классификации Unicode).

›Почему некоторые эмодзи разбиваются на несколько символов?

Некоторые эмодзи состоят из нескольких кодовых точек Unicode (например, флаги = две буквы-индикаторы региона). Счётчик следует итерации строк JavaScript, которая учитывает кодовые точки, но не все кластеры графем. Для большинства анализов это несущественно.

›Можно ли экспортировать таблицу?

Пока нет — скопируйте и вставьте отображённую таблицу. Экспорт в CSV запланирован.

›Сколько записей отображается?

Топ-50 в таблице. Количество оставшихся суммируется внизу.

›Почему регистронезависимые результаты для некоторых языков не совпадают с ожиданием?

В некоторых языках необычные правила регистра (турецкий I с точкой/без точки; немецкий ß ↔ SS). Используется JavaScript's toLowerCase(), следующий Unicode-приведению по умолчанию — обычно подходит, но может удивить в пограничных случаях.

›Данные покидают браузер?

Нет. Весь подсчёт выполняется локально.