عصر رایانه

(فناوری - شبکه - اینترنت - نرم/سخت افزار )

OCR‏ چیست؟
ساعت ۱:۳۸ ‎ق.ظ روز ۱۳۸٧/٥/۱٠  
OCR ‎‏ مخفف ‏Optical Character Recognition‏ و یا ‏Optical Character Reader‏ می باشد و آن در ‏واقع نرم افزار متن خوانی است که برای تشخیص و بازیابی الفبا و نوشته های دست نویس یا تایپ شده طراحی ‏شده است.‏
پس با این نرم افزار می توان متن های دست نویس یا متونی را که قبلا با ماشین تحریر تایپ شده و یا نوشته های ‏چاپ شده را به صورت خودکار به متن های کامپیوتری تبدیل نموده و در آن ذخیره کرد. یعنی تبدیل تصاویر ‏کلمات به کدهای کلمات (قابل ذخیره در داخل کامپیوتر) و می دانیم هر متنی که در کامپیوتر ذخیره شد می توان ‏روی آن پردازش های دلخواه انجام داد. مثلا آن را می توان ویرایش کرد. یا به عنوان مثال یکی از کاربردهای آن ‏را می توان تبدیل حروف و نوشته های خطی، به خط بریل (مخصوص نابینایان) دانست و به این ترتیب همه ‏نوشته های بشر توسط نابینایان قابل خوانده شدن است.‏ البته استفاده از ‏OCR‏ تنها برای تبدیل تصویر متون تایپ شده به متن تایپی نیست. بلکه هر جا شما عکسی داسته ‏باشید که در قسمتی از آن حرف یا شماره ای وجود داشته باشد، نرم افزار ‏OCR‏ آن را تشخیص می دهد. به ‏عنوان مثال می توان از آن در دوربین های هوشمند سرعت سنج جاده ها استفاده کرد. دوربین سرعت سنج؛ به ‏صورت مستمر؛ سرعت خودرو ها را اندازه گیری می کند و بعد از شناسائی خودروی متخلف، از پلاک خودرو ‏عکس می گیرد و حالا با استفاده از همین نرم افزار ‏OCR‏ و بدون دخالت انسان می توان شماره پلاک ماشین را ‏شناسایی کرده و در سیستم ذخیره نمود و یا آن را به مرکز پلیس اطلاع داد.‏ بعد از آنکه تصویر حاوی متن را اسکن می کنیم رایانه پردازشی را بر روی تصویر انجام می دهد. ابتدا تصویر را ‏به قسمت ها یا ‏Partition‏ های مجزا تقسیم می کند. بعد با استفاده از الگوریتم های پردازش تصویر و هوش ‏مصنوعی حروف کاراکترهایی را از درون متن استخراج می کند. اما ممکن است متن شما هنگام عکسبرداری ‏چرخیده باشد. در نتیجه کامپیوتر عکس را چند درجه می چرخاند و باز عمل قبل را بر روی آن انجام می دهد و ‏نتیجه را به دست می آورد. البته در اکثر موارد کار به همین راحتی که گفته می شود نیست و کلی عملیات پیچیده ‏دیگر باید روی تصویر انجام بگیرد.‏ انواع ‏OCR‏ ‏ ‎ ‎در خط های دیگر؛ به ویژه زبان هایی که با حروف لاتین نوشته می شوند؛ سالهاست که از ‏OCR‏ استفاده می ‏شود. اما در ایران چند سالی است که استفاده از آن شروع شده است. ‏OCR‏ چند نوع است: ‏OCR‏ برای متون ‏تایپی و ‏OCR‏ برای متون دست نویس. یعنی نوعی که یک متن قبلا تایپ شده (مثل کتاب یا روزنامه) را می توان ‏وارد کامپیوتر کرد و نوعی که متن دست نویس را می تواند بخواند.‏ متن های دست نویس هم به دو صورت گسسته و پیوسته وجود دارند: متن دست نویس پیوسته مثل همان چیزهایی ‏است که ما هر از گاهی که دلمان تنگ می شود روی کاغذ می نویسیم، یا یک نامه، یا یک شعر و غیره. اما متن ‏دست نویس گسسته همان نوشته هایی است که حروف آن جدا از هم و به صورت گسسته نوشته شده اند مثل نام و ‏نام خانوادگی که در فرم های آزمون ثبت نام،‌ به صورت هر حرف داخل یک کادر نوشته می شوند یا مثل اعداد.‏ خوشبختانه طراحی نرم افزار ‏OCR‏ گسسته فارسی در ایران مدتی است که طراحی و نوشته شده و در بعضی ‏جاها استفاده می شود. اما به دلیل شباهت حروف فارسی و رسم الخط مشکل حروف پیوسته، مدت زمان زیادی ‏طول خواهد کشید تا نرم افزار ‏OCR‏ پیوسته برای خط فارسی نوشته شود.‏
کلمات کلیدی: فناوری