เครื่องวิเคราะห์ความถี่ตัวอักษร

วางข้อความใดก็ได้เพื่อรับตารางความถี่แบบเรียงลำดับ สามโหมด: ทุกอักขระ เฉพาะตัวอักษร/ตัวเลข หรือคำทั้งคำ เหมาะสำหรับการวิเคราะห์รหัสลับ การวิเคราะห์การเขียน และการทำความสะอาดชุดข้อมูล

ข้อความ

แยกตัวพิมพ์เล็ก-ใหญ่

วิธีการทำงาน

มีไว้เพื่ออะไร

การวิเคราะห์รหัสลับ: cipher แบบคลาสสิก (Caesar, substitution) รักษาความถี่ตัวอักษร ข้อความภาษาอังกฤษมี E เป็นตัวอักษรที่พบบ่อยที่สุดเสมอ ตามด้วย T, A, O, I, N ถ้าคุณเห็นการกระจายนั้นคร่าวๆ ในข้อความรหัส คุณมี substitution cipher CJK มีการกระจายที่ต่างกันมากแต่ก็ยังจดจำได้

การวิเคราะห์การเขียน: การระบุคำที่ใช้มากเกินไปเป็นหนึ่งในวิธีที่เร็วที่สุดในการปรับปรุงร่างงาน ถ้า 'ก็' หรือ 'มาก' ปรากฏ 50 ครั้งในบทความ 1000 คำ คุณพบ 'tics' ที่ต้องแก้ไข

การทำความสะอาดชุดข้อมูล: การสแกนคอลัมน์ CSV ด้วยเครื่องมือนี้เผยให้เห็นอักขระที่ไม่พึงประสงค์ ข้อผิดพลาดในการเข้ารหัส และตัวพิมพ์ที่ไม่คาดคิด เหมาะก่อนนำเข้าข้อมูลไปยังระบบที่เข้มงวดกว่า

สามโหมด

ทุกอักขระ: รวมช่องว่าง เครื่องหมายวรรคตอน การขึ้นบรรทัด อีโมจิ ดีที่สุดสำหรับการวิเคราะห์ข้อความดิบ เหมาะเมื่อสงสัยว่ามีอักขระซ่อนอยู่ (zero-width space, BOM) ทำลายไฟล์

ตัวอักษรและตัวเลข: กรองเฉพาะตัวอักษร Unicode และตัวเลข ดีที่สุดสำหรับการวิเคราะห์ความถี่ตัวอักษรแบบดั้งเดิม (การวิเคราะห์รหัสลับ การระบุภาษา)

คำ: แยกที่ช่องว่างและนับคำทั้งคำ ดีที่สุดสำหรับการวิเคราะห์การเขียนและการตรวจสอบรูปแบบ

'แยกตัวพิมพ์เล็ก-ใหญ่' ทำอะไร

ปิด (ค่าเริ่มต้น): 'A' และ 'a' นับรวมกัน ดีที่สุดสำหรับความถี่ตัวอักษรในข้อความธรรมชาติที่ตัวพิมพ์เป็นเรื่องรอง

เปิด: 'A' และ 'a' นับแยกกัน เหมาะเมื่อตัวพิมพ์มีความหมาย เช่น ตัวระบุในการเขียนโปรแกรม คำในชื่อแบรนด์ หรือการวิเคราะห์รูปแบบการใช้ตัวพิมพ์ใหญ่ หมายเหตุ: การพับตัวพิมพ์แบบ case-insensitive ใช้กฎตัวพิมพ์เล็กของ locale สำหรับภาษาส่วนใหญ่นี่คือ Unicode case folding ทั่วไป

คำถามที่พบบ่อย

›ใช้งานกับภาษาญี่ปุ่น จีน เกาหลีได้หรือไม่?

ได้ โหมดตัวอักษรถือว่าแต่ละอักษรภาพเป็น 'ตัวอักษร' หนึ่งตัว ดังนั้นคุณจะได้ความถี่ของ hanzi/kanji โหมดคำแยกที่ช่องว่าง ซึ่งหมายความว่าข้อความ CJK ที่ไม่มีช่องว่างจะแสดงเป็นคำเดียว ให้ใช้โหมดตัวอักษรสำหรับภาษาเหล่านั้น

›ตัวอักษรภาษาอังกฤษที่พบบ่อยที่สุดคืออะไร?

'E' (ประมาณ 12.7%) ตามด้วย T (9.1%), A (8.2%), O (7.5%), I (7.0%), N (6.7%) การรู้สิ่งนี้เป็นพื้นฐานของการถอดรหัส substitution cipher อย่างง่าย

›อีโมจินับหรือไม่?

ใช่ ในโหมด 'ทุกอักขระ' โหมดตัวอักษรกรองออก (ตาม Unicode classification อีโมจิไม่ใช่ตัวอักษร)

›ทำไมอีโมจิบางตัวจึงถูกแบ่งเป็นหลายอักขระ?

อีโมจิบางตัวเป็น Unicode code point หลายตัว (เช่น ธงประเทศ = ตัวระบุภูมิภาคสองตัว) ตัวนับใช้ string iteration ของ JavaScript ซึ่งเคารพ code point แต่ไม่ใช่ grapheme cluster ทั้งหมด สำหรับการวิเคราะห์ส่วนใหญ่ไม่เป็นปัญหา

›สามารถ export ตารางได้หรือไม่?

ยังไม่ได้ คัดลอกวางตารางที่แสดงผลไปก่อนได้ การ export CSV อยู่ใน roadmap

›แสดงรายการกี่รายการ?

50 อันดับต้นในตาราง ส่วนหางสรุปที่ด้านล่าง

›ทำไมผลลัพธ์ภาษากรีก/ตุรกีแบบ case-insensitive จึงไม่ตรงตามที่คาดหวัง?

บางภาษามีกฎตัวพิมพ์ที่ผิดปกติ (ตุรกี dotted/dotless I; เยอรมัน ß ↔ SS) เราใช้ toLowerCase() ของ JavaScript ซึ่งใช้ Unicode case folding ค่าเริ่มต้น ส่วนใหญ่ปกติแต่อาจแปลกใจในกรณีพิเศษ

›ข้อมูลออกไปจากเบราว์เซอร์หรือไม่?

ไม่ การนับทั้งหมดทำงานในเครื่อง

เครื่องมือที่เกี่ยวข้อง

อัปเดตล่าสุด: 2026-05-06

ลองพรอมต์ AI ของเรา →