เครื่องวิเคราะห์ความถี่ตัวอักษร
วางข้อความใดก็ได้เพื่อรับตารางความถี่แบบเรียงลำดับ สามโหมด: ทุกอักขระ เฉพาะตัวอักษร/ตัวเลข หรือคำทั้งคำ เหมาะสำหรับการวิเคราะห์รหัสลับ การวิเคราะห์การเขียน และการทำความสะอาดชุดข้อมูล
วิธีการทำงาน
มีไว้เพื่ออะไร
การวิเคราะห์รหัสลับ: cipher แบบคลาสสิก (Caesar, substitution) รักษาความถี่ตัวอักษร ข้อความภาษาอังกฤษมี E เป็นตัวอักษรที่พบบ่อยที่สุดเสมอ ตามด้วย T, A, O, I, N ถ้าคุณเห็นการกระจายนั้นคร่าวๆ ในข้อความรหัส คุณมี substitution cipher CJK มีการกระจายที่ต่างกันมากแต่ก็ยังจดจำได้
การวิเคราะห์การเขียน: การระบุคำที่ใช้มากเกินไปเป็นหนึ่งในวิธีที่เร็วที่สุดในการปรับปรุงร่างงาน ถ้า 'ก็' หรือ 'มาก' ปรากฏ 50 ครั้งในบทความ 1000 คำ คุณพบ 'tics' ที่ต้องแก้ไข
การทำความสะอาดชุดข้อมูล: การสแกนคอลัมน์ CSV ด้วยเครื่องมือนี้เผยให้เห็นอักขระที่ไม่พึงประสงค์ ข้อผิดพลาดในการเข้ารหัส และตัวพิมพ์ที่ไม่คาดคิด เหมาะก่อนนำเข้าข้อมูลไปยังระบบที่เข้มงวดกว่า
สามโหมด
ทุกอักขระ: รวมช่องว่าง เครื่องหมายวรรคตอน การขึ้นบรรทัด อีโมจิ ดีที่สุดสำหรับการวิเคราะห์ข้อความดิบ เหมาะเมื่อสงสัยว่ามีอักขระซ่อนอยู่ (zero-width space, BOM) ทำลายไฟล์
ตัวอักษรและตัวเลข: กรองเฉพาะตัวอักษร Unicode และตัวเลข ดีที่สุดสำหรับการวิเคราะห์ความถี่ตัวอักษรแบบดั้งเดิม (การวิเคราะห์รหัสลับ การระบุภาษา)
คำ: แยกที่ช่องว่างและนับคำทั้งคำ ดีที่สุดสำหรับการวิเคราะห์การเขียนและการตรวจสอบรูปแบบ
'แยกตัวพิมพ์เล็ก-ใหญ่' ทำอะไร
ปิด (ค่าเริ่มต้น): 'A' และ 'a' นับรวมกัน ดีที่สุดสำหรับความถี่ตัวอักษรในข้อความธรรมชาติที่ตัวพิมพ์เป็นเรื่องรอง
เปิด: 'A' และ 'a' นับแยกกัน เหมาะเมื่อตัวพิมพ์มีความหมาย เช่น ตัวระบุในการเขียนโปรแกรม คำในชื่อแบรนด์ หรือการวิเคราะห์รูปแบบการใช้ตัวพิมพ์ใหญ่ หมายเหตุ: การพับตัวพิมพ์แบบ case-insensitive ใช้กฎตัวพิมพ์เล็กของ locale สำหรับภาษาส่วนใหญ่นี่คือ Unicode case folding ทั่วไป
คำถามที่พบบ่อย
›ใช้งานกับภาษาญี่ปุ่น จีน เกาหลีได้หรือไม่?
ได้ โหมดตัวอักษรถือว่าแต่ละอักษรภาพเป็น 'ตัวอักษร' หนึ่งตัว ดังนั้นคุณจะได้ความถี่ของ hanzi/kanji โหมดคำแยกที่ช่องว่าง ซึ่งหมายความว่าข้อความ CJK ที่ไม่มีช่องว่างจะแสดงเป็นคำเดียว ให้ใช้โหมดตัวอักษรสำหรับภาษาเหล่านั้น
›ตัวอักษรภาษาอังกฤษที่พบบ่อยที่สุดคืออะไร?
'E' (ประมาณ 12.7%) ตามด้วย T (9.1%), A (8.2%), O (7.5%), I (7.0%), N (6.7%) การรู้สิ่งนี้เป็นพื้นฐานของการถอดรหัส substitution cipher อย่างง่าย
›อีโมจินับหรือไม่?
ใช่ ในโหมด 'ทุกอักขระ' โหมดตัวอักษรกรองออก (ตาม Unicode classification อีโมจิไม่ใช่ตัวอักษร)
›ทำไมอีโมจิบางตัวจึงถูกแบ่งเป็นหลายอักขระ?
อีโมจิบางตัวเป็น Unicode code point หลายตัว (เช่น ธงประเทศ = ตัวระบุภูมิภาคสองตัว) ตัวนับใช้ string iteration ของ JavaScript ซึ่งเคารพ code point แต่ไม่ใช่ grapheme cluster ทั้งหมด สำหรับการวิเคราะห์ส่วนใหญ่ไม่เป็นปัญหา
›สามารถ export ตารางได้หรือไม่?
ยังไม่ได้ คัดลอกวางตารางที่แสดงผลไปก่อนได้ การ export CSV อยู่ใน roadmap
›แสดงรายการกี่รายการ?
50 อันดับต้นในตาราง ส่วนหางสรุปที่ด้านล่าง
›ทำไมผลลัพธ์ภาษากรีก/ตุรกีแบบ case-insensitive จึงไม่ตรงตามที่คาดหวัง?
บางภาษามีกฎตัวพิมพ์ที่ผิดปกติ (ตุรกี dotted/dotless I; เยอรมัน ß ↔ SS) เราใช้ toLowerCase() ของ JavaScript ซึ่งใช้ Unicode case folding ค่าเริ่มต้น ส่วนใหญ่ปกติแต่อาจแปลกใจในกรณีพิเศษ
›ข้อมูลออกไปจากเบราว์เซอร์หรือไม่?
ไม่ การนับทั้งหมดทำงานในเครื่อง
เครื่องมือที่เกี่ยวข้อง
อัปเดตล่าสุด: