ในปัจจุบันการทำงานที่เกี่ยวข้องกับเอกสารยังคงมีอยู่มาก และมีเอกสารจำนวนไม่น้อยที่มีต้นฉบับอยู่ในรูปแบบของกระดาษ ซึ่งการนำเข้าสู่ระบบคอมพิวเตอร์นั้นจะต้องทำด้วยวิธีการสแกนเก็บไว้ในรูปแบบของรูปภาพเท่านั้น โดยไม่สามารถแก้ไขข้อความและยากต่อการค้นหาข้อมูลอีกด้วย และหากใช้วิธีการพิมพ์ก็จะทำให้เสียเวลาไม่น้อย การใช้เทคโนโลยี OCR จึงเป็นทางเลือกหนึ่งที่ช่วยให้การสร้างข้อมูลจากเอกสารทำได้อย่างรวดเร็วและมีประสิทธิภาพมากยิ่งขึ้น
?
OCR ย่อมาจากคำว่า Optical Character Recognition เป็นกระบวนการที่ใช้ในการแปลง สื่อสิ่งพิมพ์ที่อยูในรูปแบบของกระดาษ ให้กลายเป็นข้อความซึ่งสามารถทำการบันทึกเป็นไฟล์ข้อมูล และนำไปใช้ร่วมกับโปรแกรมอื่น ๆ ในคอมพิวเตอร์ได้ เช่น โปรแกรมประมวลผลคำ เป็นต้น หลักการทำงานของ OCR นั้นจะทำงานเหมือนกับเครื่องสแกนเนอร์ ซึ่งทำงานโดยใช้แสงและเลนส์ หรือที่เรียกกันว่า Optical Scanner ทำการสแกนข้อความบนหน้ากระดาษ แล้วแตกข้อมูลตัวอักษรมาสู่อนุกรมแบบจุด ซึ่งเรียกว่า Bitmap แล้วแปลไปเป็นข้อความคอมพิวเตอร์
การใช้งานซอฟต์แวร์ประเภท OCR ยังมีข้อจำกัดในเรื่องของรูปแบบตัวอักษรอยู่ คือหากมีการใช้ร่วมกับเอกสารที่เขียนด้วยลายมือ หรือแบบอักษรที่มีลักษณะคล้ายลายมือ จะใช้งานได้ไม่ดีเท่ากับเอกสารที่ใช้แบบอักษรมาตรฐาน