OCR چیست و چه کاربردی در تبدیل دیجیتال دارد؟
OCR یا تشخیص نوری حروف: فرض کنید می خواهید مقالات نسخه های قبلی روزنامه، مجله، پرونده های بیمارستان، اسناد وام و تراکنش های مالی بانک یا قراردادهای چاپ شده و فیزیکی خود را دیجیتال کنید. یکی از راه های آن تایپ مجدد تمامی اسناد و سپس ویرایش و غلط گیری است که بسیار زمانبر و مستلزم هزینه انرژی، مالی و نیروی کار فراوان است.
راه دیگر تبدیل تمامی اسناد و مدارک به نسخه دیجیتال از طریق اسکن کردن است. اسکن پرونده و اسناد دو حالت به خود می گیرد: اسکن و ذخیره به صورت عکس که قابل جستجو نبوده و صرفا می توان با استفاده از اسم فایل روی آنها مدیریت داشت. هرچند در این مدل حجم داده های اسکن شده فوق العاده زیاد می شود و به ظرفیت ذخیره خیلی بالایی نیاز دارد.
حالت دوم اسکن و خواندن همزمان متن است که به آن OCR یا تشخیص نوری حروف (Optical Character Recognition) اطلاق می شود و نرم افزار حین اسکن پرونده یا مدرک کاغذی و فیزیکی به خواندن محتوای آن می پردازد. بزرگترین کیفیت دیجیتال سازی پرونده های قدیمی با استفاده از OCR در قابل جستجو بودن آن است.
در این مقاله می خوانیم:
- تشخیص اپتیکال یا نوری حروف (OCR) چیست؟
- فناوری های زمینه ای OCR چیست؟؟
- اصول زمینه ای OCR چیست؟
- شناسایی تصاویر دوربین دیجیتال
- طریقه استفاده از نرم افزار OCR
- فواید اجرای OCR در دیجیتال سازی
تشخیص نوری حروف (OCR) چیست؟
مکانیسم واقعی که توسط آن بشر می تواند اشیا را شناسایی و تشخیص دهد، هنوز بخوبی معلوم نیست اما سه اصل پایه آن بخوبی شناخته شده می باشد و دانشمندان آن را تمامیت، هدفمندی و سازش پذیری (IPA) می نامند. این سه اصل محور نرم افزارهای OCR را تشکیل می دهد که تشخیص طبیعی یا شبه انسانی را ممکن کرده است.
اما نرم افزار OCR چطوری متن را تشخیص می دهد. ابتدا نرم افزار به تجزیه و تحلیل ساختار تصویر سند می پردازد. سپس صفحه عکس را به اجزای تشکیل دهنده آن از قبیل بلوک های متن، جداول، تصاویر و غیره تقسیم می کند. پس از تشخیص بلوک های متن، آنها را به جملات و کلمات تقسیم کرده و سپس حروف را تشخیص می دهد.
وقتی حروف مشخص شد و برنامه حروف را شناسایی کرد، مجموعه حروف موجود در تصویر را از نظر الگو با هم مقایسه می کند. سپس فرضیه های متعدد تعبیه شده در مورد حروف را اعمال می کند. برنامه براساس این فرضیه ها انتهای جملات و خطوط و پاراگراف را تشخیص می دهد و سپس متن را به متن دیجیتال تبدیل می کند.
نرم افزارهای OCR غالبا حاوی دیکشنری زبان های مختلف هستند به آنها امکان تجزیه و تحلیل ثانویه اجزای متن در سطح کلمه به کلمه را می دهد. نرم افزار با استفاده از فرضیه ها و پشتیبانی فرهنگ لغت خود صحیح ترین تجزیه و تحلیل و تشخیص متن را انجام می دهد تا بهترین نتیجه کیفی را داشته باشد.
فناوری زمینه ای OCR چیست؟
تشخیص نوری حروف یا OCR فناوری است که امکان تبدیل انواع اسناد، پرونده و مدارک به قالب دیجیتال را فراهم ساخته است، از قبیل اسناد کاغذی اسکن شده، فایل pdf یا تصاویر گرفته شده با دوربین دیجیتال. فناوری OCR امکان تبدیل این اسناد، پرونده، مدارک و تصاویر به داده قابل ویرایش و قابل جستجو را فراهم ساخته است.
تصور کنید مقداری اسناد کاغذی دارید (مثل مقاله مجله، داستان روزنامه، بروشور، برگه قرارداد pdf ارسال شده از طریق ایمیل و سایر انواع مدارک، پرونده و اسناد کاغذی یا اسکن شده). مسلم است که اسکن کردن این اطلاعات برای استفاده های بعدی کافی نیست. اطلاعات زمانی ارزش استفاده دارد که قابل ویرایش و جستجو باشد و بتوان در هر لحظه آن را بازیافت کرده و مشخصات خاص مورد نظر را بدست آورد.
تمام کاری که با اسکن اسناد و مدارک انجام می شود، بدست آوردن تصویری از اسناد و مدارک است که به صورت یک مجموعه از تصاویر سیاه و سفید یا رنگی در هارد دیسک ذخیره می شود و تحت عنوان تصویر لکه ای (raster image) شناخته می شود.
استخراج اطلاعات و هدفمندی داده های بدست آمده از اسکن اسناد، تصاویر دوربین یا فایل های pdf زمانی امکانپذیر است که تحت تشخیص نوری متن (OCR) قرار گیرند و متن داخل تصاویر استخراج شده و در یک پایگاه داده یا انواع دیگر ذخیره اطلاعات جمع آوری شود.
بدین ترتیب اسناد یا مدارکی که تحت OCR قرار گرفته است را می توان به مایکروسافت ورد یا واژه پردازهای دیگر برای ویرایش ارسال نمود. همچنین امکان جستجوی کامل و پیشرفته اسناد و محتوای جمع آوری شده وجود دارد.
اصول زمینه ای OCR چیست؟
سیستم های خیلی پیشرفته تشخیص نوری حروف از قبیل ABBYY FineReader OCR روی تقلید و تکرار فرآیند طبیعی یا شبه انسانی تشخیص متن تمرکز دارند. اصول زمینه ای و بنیادین این سیستم ها عبارتست از: یکپارچگی، هدفمندی و سازش پذیری.
اصل یکپارچگی بدین معنی است که شی مشاهده شده بایستی همیشه به عنوان یک کل در نظر گرفته شود و تمامی بخش های مربوط و نامربوط تشکیل دهنده آن شناسایی و تبدیل شود.
اصل هدفمندی می گوید تفسیر داده ها بایستی همیشه برای لحاظ اهداف کاربر باشد. اصل سازش پذیری بدین معنی است که برنامه بایستی توانایی یادگیری داشته و خود را آموزش دهد. بدین معنی که با هر بار تکرار پروسه، فرضیه های مربوط به شناسایی بخش ها، پاراگراف، جمله و کلمه و حروف تشکیل دهنده اسناد را تقویت و به روز رسانی کند.
تجربه و مشاهده مزایای برنامه های OCR ساخته شده براساس این سه اصل (IPA) نیازمند تخصص و مهارت خاصی نیست: این اصول به برنامه حداکثر انعطاف پذیری، هوش و توانایی را می بخشد و هر چه بیشتر عملکرد OCR برنامه را به تشخیص طبیعی انسان نزدیکتر می کند.
شناسایی تصاویر دوربین دیجیتال
تصاویر گرفته شده با دوربین دیجیتال با اسناد اسکن شده یا فایل های pdf فقط تصویری (غیر قابل ویرایش) تفاوت دارد. تصاویر دوربین دیجیتال همیشه نقص هایی دارد مثلا حاشیه های عکس کشیده می شود یا کج است، نور پردازی ممکن است باعث درخشندگی و کمرنگ شدن بخشی از متن و محتوای عکس شده باشد.
اجرای OCR برای تشخیص محتوای عکس های دوربین دیجیتال و شناسایی صحیح متن داخل عکس سخت است. هرچند نسخه های جدیدتر برنامه های OCR توانایی بالایی داشته و بسیاری از این متغیرهای مخدوش کننده پروسه را رفع کرده اند.
طریقه استفاده از نرم افزار OCR
استفاده از نرم افزارهای OCR نسبتا ساده و سرراست است. این پروسه در سه مرحله انجام می شود. باز کردن عکس یا اسکن کردن اسناد، شناسایی محتوای عکس و ذخیره محتوا به فرمت مناسب مورد نظر (DOC, RTF, XLS, PDF, HTML, TXT و غیره) یا اکسپورت مستقیم محتوا به برنامه های واژه پرداز و دفتری مثل مایکروسافت ورد، اکسل، ادوبی آکروبات. گاهی نتیجه OCR مستقیما در بانک اطلاعاتی (پایگاه داده) شرکت بارگذاری می شود.
نسخه های جدید بعضی از نرم افزارهای OCR از حالت اجرای وظیفه خودکار (Automated Tasks) پشتیبانی می کنند که برای اجرای کارهای روزانه و تکرار شونده ضروری است. در این روش اجرای OCR و تشخیص متن بطور خودکار و بدون اجرای دستی مراحل فوق انجام می شود.
فواید اجرای OCR
نتیجه پروسه OCR بخصوص در بعضی از نرم افزارها مثل FineReader OCR دقیقا مشابه نسخه اولیه سند یا محتوا است. این نرم افزارهای پیشرفته به ما کمک می کنند در ایجاد، پردازش، تغییر کاربری و دیجیتال سازی اسناد و مدارک، در انرژی، نیروی کار، هزینه صرفه جویی کرده و عدم رضایت کاربران را کاهش دهیم.
می توان از کتاب ها، مجلات و روزنامه های قدیمی و کاغذی استفاده کرده، بخش های مورد نظر محتوا را اسکن و OCR کرده و در تکالیف دانشجویی و کاری خود استفاده کنیم، بدون اینکه به تایپ و حروفچینی مجدد نیاز شود. بدین ترتیب محتوای ویراستاری شده با قالب مناسب به تکلیف اضافه می شود.
با استفاده از نرم افزار OCR و دوربین دیجیتال حتی می توان متن بنرها، آگهی های تبلیغاتی، نوشته های روی در و دیوار شهر را تبدیل، ویرایش و ذخیره کرد. پروسه OCR کارآمدی و هزینه-اثربخشی دیجیتال سازی پرونده ها و مدارک سازمانی و نهادها را چندین برابر کرده است.
می توان از نرم افزار OCR برای تهیه نسخه قابل ویرایش و جستجو محتوا در قالب فایل pdf استفاده کرد. می توان پرونده ها، حساب های مالی، آرشیو اسناد قدیمی، محتوای موجود در دبیرخانه فیزیکی را با استفاده از OCR دیجیتال کرده و به صورت فایل هایی با قالب متنوع یا به صورت یک پایگاه داده ذخیره کرد.
کل فرآیند تبدیل داده اسناد، تصاویر و فایل های تصویری قدیمی و در دسترس به محتوای دیجیتال قابل ویرایش و جستجو زمان خیلی کمی طول می کشد و نتیجه حاصل از دیجیتال سازی و OCR دقیقا شبیه به سند اولیه خواهد بود.
خلاصه مطلب
رشد تکنولوژی و بخصوص فناوری اطلاعات موجب دنیای بی کاغذ شده است. امروزه شرکت ها، سازمان ها، نهادهای خصوصی و دولتی و حتی افراد به تدریج کتاب ها، پرونده ها، اسناد، مدارک و تصاویر خود را دیجیتال می کنند و نسخه دیجیتال آنها را به صورت نسخه فعال و نسخه پشتیبان ذخیره می کنند.
وقتی انرژی و هزینه ای صرف می شود و اسناد و پرونده ها اسکن و دیجیتال می شود، بهتر است از یک نرم افزار تشخیص متن مثل نرم افزارهای OCR استفاده کرده و تبدیل را به صورت محتوای قابل ویرایش و قابل جستجو انجام داد.
پروسه تبدیل و دیجیتال کردن همراه با پروسه OCR بهترین گزینه برای دیجیتال سازی و ذخیره اطلاعات کاغذی است. بهتر است حاصل اسکن و OCR در یک پایگاه داده یا بانک اطلاعاتی ذخیره شود تا امکان تلفیق در برنامه بومی شرکت یا استفاده آنلاین و چند کاربری به راحتی فراهم شود.
توجه: مطلب زیر ماشینی بوده و با هدف سئو و بهینه سازی بازدید سایت درج شده است. نیازی به خواندن آن نیست
نحوه دیجیتال سازی – لذا گزینه کارآمد، دیجیتالسازی اسناد و تبدیل بایگانی کاغذی به الکترونیکی و مدیریت صحیح آن است. تحلیل وضعیت دیجیتال سازی منابع شنیداری در آرشیوهای سازمان – تبدیل منابع آنالوگ به دیجیتال و دیجیتال به دیجیتال
دیجیتالسازی: یکی از روشهای عمده، ساخت آثار دیجیتالی است. به زبان ساده، دیجیتالسازی تبدیل هر نوع محمل ثابت یا آنالوگ (مانند کتاب، مقالههای نشریات، عکس) به داده و متن دیجیتال اطلاق می شود.
دیجیتال سازی اسناد – با تبدیل همه اسناد کاغذی و دیجیتال به محتوای دیجیتالی قابل استفاده و ارسال مستقیم آن به برنامه های دارای قابلیت جستجو و ویرایش اسناد به بهینه شدن بهره وری سازمان شما کمک می شود.
نحوه دیجیتال سازی
تبدیل بایگانی سنتی به محتوای کارآمد دیجیتال – دیجیتال سازی دفتر اسناد قدیمی، تبدیل و دیجیتال سازی پرونده های مدارس، بانک ها، ادارات و سازمان ها، تجربه دیجیتال روی مطالب کاغذی، مراحل اسکن اسناد و مدارک و پرونده ها، استفاده از OCR برای دیجیتال کردن و تبدیل اسناد بحث می شود.
مراحل اسکن اسناد و مدارک از کاغذی تا دیجیتالی | گردآوری – آماده سازی – اسکن – فرآیند های پس از اسکن – نمونه اسکن – انتقال فایل ها – بازگرداندن اوراق فیزیکی. … مراحل اسکن اسناد و مدارک که ما برای تبدیل کاغذ به فایل دیجیتالی انجام می دهیم.
دلایل دیجیتال سازی پرونده های بایگانی – فایل های دیجیتال نسبت به اسناد فیزیکی در مواردی مناسب تر است و دیجیتالی سازی پرونده های بایگانی برای ایجاد امکان جستجو ویرایش مدارک و دستری راحتتر انجام می شود و دبیرخانه کاغذی و فیزیکی را به فایل های دیجیتالی تبدیل و مدیریت خدمات اسناد الکترونیکی راحتتر می شود.
اما در مجموع در همه بایگانی ها ساماندهی اسناد در دو بخش فیزیکی و الکترونیک وجود دارد و در این بخش اسناد بصورت فیزیکی دریافت و پس از انجام عملیات آماده سازی و اسکن اسناد و مدارک، پرونده ها تبدیل به فایل دیجیتال می گردند و در صورت لزوم میکروفیلم اسناد نیز تهیه میگردد.
نحوه دیجیتال سازی کتاب و مدارک
تبدیل و دیجیتال کردن پرونده ها و اطلاعات فیزیکی امکان اعمال سطح دسترسی و میزان دسترسی به پرونده ها و پوشه ها را فراهم می سازد و آرشیو الکترونیک پرونده های پزشکی برای دسترسی سریع به اطلاعات مهم است. این تغییر در سیستم پاسخگویی به بیماران می تواند بسیار کارآمد باشد.
فرآیندهای فیزیکی مقدار قابل توجهی از زمان روزانه یک دفتر پزشکی را دربرمی گیرند و هزینه های اجرایی را افزایش می دهد؛ اسکن و دیجیتال سازی پرونده های پزشکی موجب دسترسی سریعتر به اطلاعات بیماران می شود و اسکن اسناد و مدارک برای دیجیتال کردن اسناد لازم است و از نرم افزار OCR برای تبدیل متن کاغذی به متن دیجیتال استفاده می شود.
اسکن مدارک و آرشیو دیجیتال. اسکن اسناد، مدارک و پرونده های واحدهای مختلف هر شرکت و سازمانی در هر ابعاد فعالیتی, علاوه بر حفظ اطلاعات موجب دسترسی راحتتر می شود و عمده مشکل شرکت ها و سازمان ها دسترسی به مکاتبات فیزیکی گذشته است که با اسکن و دیجیتال سازی رفع می شود.
تبدیل پرونده فیزیکی به دیجیتال سازی – خدمات آرشیو الکترونیک لازم است بنابراین آرشیو دیجیتال آرشیوی است که اسناد الکترونیک به منظور حفاظت و نگهداری دائمی در مخزن دیجیتال و امکان دسترسی کاربران در هر لحظه به اسناد با تعیین حقوق دسترسی مناسب; افزایش ایمنی فیزیکی پرونده ها و اسناد; حفظ و پاکیزگی محیط زیست می گردد.
دیجیتال سازی آرشیو
دیجیتال سازی – اطلاعات یکی از ارزشمندترین منابع سازمانها بوده و روند رو به رشد آن، لزوم حفظ، دیجیتال سازی و دسترس پذیری سریع از طیق OCR را ایجاد کرده است و در چنین شرایطی هزینه رجوع به برگی از اسناد در میان انبوه پرونده ها کم شده و لذا گزینه کارآمد، دیجیتالسازی اسناد و تبدیل بایگانی کاغذی به الکترونیکی و قابل جستجو و ویرایش می گردد.
تبدیل پرونده فیزیکی به دیجیتال سازی، اسکن مدارک با کامپیوتر، نمونه قرارداد اسکن پرونده ها، اسکن اسناد، اسکن مدارک چیست، نرم افزار بایگانی دیجیتال، اسکن پرونده های اداری، نرم افزار بایگانی اسناد اسکن شده، پروژه اسکن اسناد از واژه های کلیدی جستجو شده در مورد تبدیل دیجیتال است.
مدیریت مستندات – این تعریف سازمانی، ناشی از تئوری سازی اولیه بایگانیها و سیستمهای ثبت دیجیتال است که شامل کنترلهای دسترسی مبتنی برسطح دسترسی است و ازینرو مدیریت هر سوابق فیزیکی و الکترونیکی را مد نظر دارد همچنین در طول چرخه عمر پرونده، مسائل مربوط به امنیت، حفظ حریم خصوصی، دسترسی سریع و دسترس پذیری، OCR و تبدیل دیجیتال انجام می شود.
اسکن اسناد پزشکی
پس از اسکن اسناد، به طور خیلی ساده مدارک کاغذی طی پروسه ای اسکن و به تصاویر دیجیتال تبدیل می شوند. سپس تصاویر دیجیتال پرونده های پزشکی با OCR به متن قابل ویرایش و جستجو تبدیل می شود که می تواند سبب کاهش مقدار ذخیره سازی پرونده های فیزیکی شود و در پایگاه داده مربوطه ذخیره می شود.
تدوین راهبرد مدیریت اسناد الکترونیکی: برنامه دولت الکترونیکی، طراحی و پیاده سازی سامانه مدیریت. اسناد، پیش نیازهای تبدیل و پردازش منابع دیجیتال، تضمین می شود که همه پرونده های فیزیکی در دفتر ثبت اسناد ذخیره و سپس اسکن و تبدیل OCR شده و به صورت متن قابل ویرایش و جستجو در بانک اطلاعاتی ذخیره می شود.
اسکن اسناد و پرونده های وام بانک ها از طریق اسکن اسناد و مدارک که ابتدا پرونده های وام و تراکنش های مشتری بانک اسکن شده، سپس OCR می شود و به صورت فایل متنی و قابل ویرایش در صفحه گسترده اکسل ذخیره می شود. سپس فایل های اکسل به بانک اطلاعاتی اکسس منتقل می شود و به برنامه بانک وصل می شود.
پرونده های کاغذی بیمار در مقایسه با پرونده های دیجیتال (اسکن شده) به صورت تبدیل اسناد پزشکی کاغذی به دیجیتال تبدیل می شود. آماده سازی اسناد پزشکی برای شروع فرآیند پروژه اسکن اسناد پزشکی، با تبدیل OCR موجب دسترس پذیری بالا و امکان جستجوی پرونده های بیمارستانی با واژه های کلیدی مختلف می شود.
سند بانکداری و تحول دیجیتال
تبدیل اسناد بانکداری، پرونده های وام و جعاله، ضمان های مالی و خیارات و اسناد بانکی به پرونده های دیجیتال انجام می شود. تحول دیجیتال در حوزه بانکداری، مدل کسب و کار، نحوه ارتباط و تعامل با مشتری، فرآیندهای است که با دیجیتال سازی موجب تسریع فعالیت می شود.
خدمات اسکن – فرآیند تبدیل داده های فیزیکی به داده های دیجیتالی، داده های خام را تولید نموده که این داده ها از طریق اسکن اسناد کاغذی و تبدیل OCR به اسناد و متن دیجیتال قابل جستجو انجام می شود. خدمات تخصصی اسکن و تصویربرداری از پرونده ها، اسناد و مدارک در سازمان های مختلف با استفاده از اسکنرهای الران خودکار با سایز مختلف و ذخیره سازی و تحویل مستندات اسکن شده در بانک های اطلاعاتی و تلفیق با برنامه اختصاصی بانک و شرکت ها و تحویل برروی CD ، DVD و یا Hard انجام می شود.
مدیریت آرشیو الکترونیکی – تبدیل الکترونیک | مدیریت آرشیو الکترونیکی, یکپارچه سازی, اتوماسیون اداری, دورکاری مهم است و ضرورت حفظ و نگهداری فیزیکی و الکترونیکی این اسناد موجب به وجود آمدن تبدیل دیجیتال می شود و پسازآنکه یک ساختار و یا پرونده در سیستم آرشیو طراحی شد، برای ورود داده سندها و فرم نمایش تنها برای دیدن اسناد است بدون آنکه بتوان آنها را تغییر داد.
اسکن اسناد
اسکن نقشه, اسکن کتاب, اسکن طولی, ایجاد آرشیو دیجیتال, بایگانی الکترونیکی, ارائه خدمات اسکن پرونده های پزشکی ، مالی ، حقوقی و تحصیلی و تبدیل OCR برای تبدیل به متن قابل ویرایش و جستجو انجام می شود. خدمات اسکن حرفه ای اسکن اسناد و مدارک پرسنلی. اسکن اسناد و مدارک پزشکی. اسکن اسناد و مدارک حقوقی. اسکن اسناد و مدارک مالی. اسکن اسناد و مدارک آموزشی. اسکن اسناد و مدارک پژوهشی.
اسکن اسناد و مدارک -خدمات اسکن اسناد – اسکن اسناد و مدارک با رعایت اصول و کیفیت عالی. اسکن اسناد اداری، مالی، پزشکی و سایر مدارک با دستگاه های مجهز و پرسنل مجرب و تبدیل محتوای فیزیکی به محتوای دیجیتال قابل ویرایش و جستجو انجام می شود. خدمات اسکن اسناد شامل ایجاد اسناد دیجیتال و کامپیوتری برای دسترس پذیری بهتر، جستجو و بهره وری بالاتر است.
خدمات اسکن مورد نیاز در هر شرکت و سازمانی
معمولا” شامل اسکن اسناد و پرونده پرسنلی و اسکن مدارک و پرونده های مختلف فیزیکی است و اسکنر های پیشرفته مدارک (Document Scanner) آماده ارایه خدمات اسکن به شما می باشد.
خدمات اسکن، خدمات اسکن کتاب، اسکن اسناد، قیمت اسکن مدارک، خدمات اسکن سه بعدی، اسکن پرونده های اداری، اسکن و تبدیل مدارک فیزیکی به دیجیتال، تبدیل پرونده فیزیکی به پرونده دیجیتال، تبدیل مدارک و کتاب های کاغذی به متن کامپیوتری قابل جستجو ویرایش از واژه های کلیدی مهم است که پوشش داده می شود.