OCR فارسي

Farsi OCRبرنامه تشخيص دهنده متن كه به آن OCR نيز گفته مي‌شود (مخفف Optical Character Recognition – به معناي تشخيص نوري حروف) برنامه‌اي است كه با استفاده از روش‌هاي گوناگون هوش مصنوعي، تصاوير حاوي متن را به متن قابل ويرايش تبديل مي‌نمايد.

همانگونه كه مي‌دانيم تصاوير كامپيوتري از ميليون‌ها نقطه (Pixel) تشكيل شده‌اند و رايانه دركي نسبت به محتواي تصوير نداشته و تنها رنگ و شدت روشنايي نقاط تصوير به عنوان عناصر تشكيل دهنده تصوير براي رايانه تعريف شده است. حال اگر اين تصاوير حاوي متن باشند (مثلاً صفحات كتابي را كه چاپ شده است اسكن نموده و بصورت تصوير به كامپيوتر منتقل نمائيم) بدون استفاده از برنامه تشخيص دهنده متن، كامپيوتر قادر به شناسايي متن درون تصاوير نبوده و بنابراين عملياتي همانند جستجوي كلمات كتاب و يا ويرايش متن درون كتاب امكان پذير نخواهد بود. حال آنكه با بكارگيري برنامه تشخيص دهنده متن، تصاوير صفحات كتاب به متن كامپيوتري تبديل شده و امكان ويرايش متن، جستجوي متن، چاپ مجدد متن با كيفيت بالا و انتقال الكترونيكي سريع آن (با توجه به آنكه حجم اطلاعات متني بسيار كمتر از اطلاعات تصويري است) فراهم مي‌گردد.

از برنامه تشخيص دهنده متن مي توان در كتابخانه‌هاي ديجيتال، سيستم‌هاي مكاتبات اداري، مراكز مكانيزه ورود اطلاعات، سيستم‌هاي آرشيو اسناد و بسياري از سيستم‌هاي مكانيزه ديگر استفاده كرد.  

تشخيص دهنده متن مديانيك

طراحي و پياده‌سازي اين برنامه از سال 1382 (در ابتدا با نام تشخيص دهنده متن روژاوه) بر اساس تجربيات بسيار زياد گذشته در زمينه پردازش تصوير و سيستم‌هاي هوشمند ابتدا در شركت روژاوه رايانه آغاز گرديد و سپس در شركت مديانيك ادامه يافت. نخستين حامي اين پروژه طرح تكفا بود و حاصل كار شبانه‌روزي بر روي اين پروژه، برنامه‌اي است كه با توجه به آزمايشات گوناگون انجام شده، از نظر دقت تشخيص بسيار برتر از كليه نمونه‌هاي عربي و فارسي موجود مي‌باشد. اين برنامه قابليت تشخيص متون پيوسته تايپي فارسي را با دقت بسيار بالا دارا مي‌باشد.

اين پروژه موفق به احراز رتبه منتخب در نخستين دوره حمايت از محصولات ICT بخش خصوصي و تعاوني شده و در ميان OCR هاي ارائه شده با توجه به دقت تشخيص بسيار بالا و ويژگي‌هاي منحصر به فرد خود به عنوان OCR برتر شناخته شده است. همچنين "OCR مديانيك" در سال 2005 از سوي هيات داوران نخستين جشنواره دستاوردهاي رايانه‌اي ايران، انتخابي جشنواره جهاني WSIS-Award، حائز شرايط دريافت جايزه ويژه هيات داوران شناخته شد.

با توجه به آنكه سيستم هوشمند تشخيص دهنده متن در اين برنامه تماماً توسط متخصصان داخلي طراحي و پياده سازي گشته است، برنامه تشخيص دهنده متن مديانيك انطباق كامل با نحوه نگارش فارسي داشته و علاوه بر دارا بودن پشتيباني كامل، بر اساس نيازهاي خاص مشتريان قابل سفارشي سازي است.

ويژگيهاي فني برنامه تشخيص دهنده متن مديانيك

برخي از ويژگي‌هاي برنامه تشخيص دهنده متن مديانيك عبارتند از:

  1. قابليت تشخيص با دقت بسيار بالا (بيش از 98% حروف و بيش از 99% كلمات براي متون با اسكن مناسب)
  2. سرعت بازشناسي بالا
  3. قابليت اصلاح خودكار زاويه چرخش (تا 360 درجه)
  4. آموزش پذيري دوگانه (هم از طريق تصوير اسكن شده و هم از طريق فايل فونت)
  5. پس پردازش هوشمند مبتني بر خطاهاي متداول در بازشناسي حروف فارسي
  6. سازگار با كليه اسكنرهاي پشتيبان پروتوكل Twain
  7. قابليت پردازش دسته‌اي بر روي مجموعه‌اي از فايلهاي ورودي
  8. قابليت تعريف مجموعه واژه نامه به منظور غلطيابي و تصحيح املايي خروجي
  9. قابليت تعريف مجموعه فونت به منظور بازشناسي با سرعت و دقت بالا
  10. امكان تعريف گردش كار منطبق بر نيازهاي كاربر و ذخيره سازي آن براي ارجاعات بعدي
  11. قابليت تشخيص متون چند فونتي و ايجاد خروجي با قالب rtf. و txt. و ارسال خروجي به Microsoft Word