OCR فارسي
برنامه تشخيص دهنده متن كه به آن OCR نيز گفته ميشود (مخفف Optical Character Recognition
– به معناي تشخيص نوري حروف) برنامهاي است كه با استفاده از روشهاي گوناگون هوش مصنوعي،
تصاوير حاوي متن را به متن قابل ويرايش تبديل مينمايد.
همانگونه كه ميدانيم تصاوير كامپيوتري از ميليونها نقطه (Pixel) تشكيل شدهاند و
رايانه دركي نسبت به محتواي تصوير نداشته و تنها رنگ و شدت روشنايي نقاط تصوير به عنوان
عناصر تشكيل دهنده تصوير براي رايانه تعريف شده است. حال اگر اين تصاوير حاوي متن باشند
(مثلاً صفحات كتابي را كه چاپ شده است اسكن نموده و بصورت تصوير به كامپيوتر منتقل
نمائيم) بدون استفاده از برنامه تشخيص دهنده متن، كامپيوتر قادر به شناسايي متن درون
تصاوير نبوده و بنابراين عملياتي همانند جستجوي كلمات كتاب و يا ويرايش متن درون كتاب
امكان پذير نخواهد بود. حال آنكه با بكارگيري برنامه تشخيص دهنده متن، تصاوير صفحات
كتاب به متن كامپيوتري تبديل شده و امكان ويرايش متن، جستجوي متن، چاپ مجدد متن با
كيفيت بالا و انتقال الكترونيكي سريع آن (با توجه به آنكه حجم اطلاعات متني بسيار كمتر
از اطلاعات تصويري است) فراهم ميگردد.
از برنامه تشخيص دهنده متن مي توان در كتابخانههاي ديجيتال، سيستمهاي مكاتبات اداري،
مراكز مكانيزه ورود اطلاعات، سيستمهاي آرشيو اسناد و بسياري از سيستمهاي مكانيزه
ديگر استفاده كرد.
تشخيص دهنده متن مديانيك
طراحي و پيادهسازي اين برنامه از سال 1382 (در ابتدا با نام تشخيص دهنده متن روژاوه)
بر اساس تجربيات بسيار زياد گذشته در زمينه پردازش تصوير و سيستمهاي هوشمند ابتدا
در شركت روژاوه رايانه آغاز گرديد و سپس در شركت مديانيك ادامه يافت. نخستين حامي اين
پروژه طرح تكفا بود و حاصل كار شبانهروزي بر روي اين پروژه، برنامهاي است كه با توجه
به آزمايشات گوناگون انجام شده، از نظر دقت تشخيص بسيار برتر از كليه نمونههاي عربي
و فارسي موجود ميباشد. اين برنامه قابليت تشخيص متون پيوسته تايپي فارسي را با دقت
بسيار بالا دارا ميباشد.
اين پروژه موفق به احراز رتبه منتخب در نخستين دوره حمايت از محصولات ICT بخش خصوصي
و تعاوني شده و در ميان OCR هاي ارائه شده با توجه به دقت تشخيص بسيار بالا و ويژگيهاي
منحصر به فرد خود به عنوان OCR برتر شناخته شده است.
همچنين "OCR مديانيك"
در سال 2005
از سوي هيات داوران نخستين جشنواره دستاوردهاي رايانهاي ايران، انتخابي جشنواره جهاني WSIS-Award، حائز شرايط دريافت جايزه ويژه هيات داوران شناخته شد.
با توجه به آنكه سيستم هوشمند تشخيص دهنده متن در اين برنامه تماماً توسط متخصصان داخلي
طراحي و پياده سازي گشته است، برنامه تشخيص دهنده متن مديانيك انطباق كامل با نحوه
نگارش فارسي داشته و علاوه بر دارا بودن پشتيباني كامل، بر اساس نيازهاي خاص مشتريان
قابل سفارشي سازي است.
ويژگيهاي فني برنامه تشخيص دهنده متن مديانيك
برخي از ويژگيهاي برنامه تشخيص دهنده متن مديانيك عبارتند از:
- قابليت تشخيص با دقت بسيار بالا (بيش از 98% حروف و بيش از 99% كلمات براي متون
با اسكن مناسب)
- سرعت بازشناسي بالا
- قابليت اصلاح خودكار زاويه چرخش (تا 360 درجه)
- آموزش پذيري دوگانه (هم از طريق تصوير اسكن شده و هم از طريق فايل فونت)
- پس پردازش هوشمند مبتني بر خطاهاي متداول در بازشناسي حروف فارسي
- سازگار با كليه اسكنرهاي پشتيبان پروتوكل Twain
- قابليت پردازش دستهاي بر روي مجموعهاي از فايلهاي ورودي
- قابليت تعريف مجموعه واژه نامه به منظور غلطيابي و تصحيح املايي خروجي
- قابليت تعريف مجموعه فونت به منظور بازشناسي با سرعت و دقت بالا
- امكان تعريف گردش كار منطبق بر نيازهاي كاربر و ذخيره سازي آن براي ارجاعات بعدي
- قابليت تشخيص متون چند فونتي و ايجاد خروجي با قالب rtf. و txt. و ارسال خروجي
به Microsoft Word