Tamil Page Scan

Multimedia Editing
Tools
Typography
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

This is probably one of my favourite techincal post of all times because this post addresses a requirement whose solution which I had been searching for years. Before I proceed further I would like to tell about OCR to the readers who are not aware of it. We all are familiar with scanning the documents and saving them as PDF / JPG. But we can't edit the document in any word processing software like MS Word or Wordpad. So to edit a scanned document, it has to be converted into "editable" document. Here is where the OCR comes in.

Most of the scanners have inbuilt Optical Character Recognition (OCR) software in-built which scans the physical document into editable soft document with MS Word or any equivalent word processing software. However the problem is that the OCRs are capable of recognizing English language but I am yet to come across any commercial OCR that can recognise Indian languages.

I have been searching for a Tamil OCR since 2006 as I wanted to convert by physical book collection into soft copies. There was an Open Source OCR which specified the image file should be in BMP file of minimum 200 dpi and I even tried that but unsuccessful in getting it worked. I even spoke to the developer team over the phone and they said that it is working fine for them. I gave up...

Yesterday when I intuitively searched for Google OCR because Google is developing an e-library, so they must have some solution for Indian language books scanning. As expected, there was a simple solution and when I tested it with a page of Sujatha's "Aaa..!" novel scanned copy which I downloaded from Scribd.com, my eyes popped out with surprise / shock that I was able to "convert" the *.jpg image file into an editable text file... That too without the need of installing additional software and more of ease.. it was online straight from the Google Drive.

I tested the same for another Indian Language which I can read & write - Malayalam and the result was perfect. The OCR translation is as good as the scan quality but it assured a minimum of 95% accuracy and an additional effort to format the text.
I am enclosing the screenshots of the image file and the converted text here.

Tamil Image

Tamil text

Tamil Text

“அவங்களைப் பொறுத்த வரையிலும் இந்தப் பிரதேசத்துக்கு பிராஜக்ட் ஆபிஸர்தான், ராஜா மாதிரி. அதனால் கொஞ்ம் கர்வம் இருக்கலாம். கொஞ்சம் கர்வத்தை மத்த எல்லாரும் சகிச்சுக்கத்தான் வேணும். ஆனா அப்பனைச் சந்துச்சு அவரோட பேசிருக்கேனே! அப்படி ஒண்ணும் அகராதி பிடிச்ச ஆளாத் தெரியலையே."

"பொண்ணு சுகமில்லை.”

தோட்டத்துக்குப் போய் வாழை இலை அறுத்துவந்து அலம்பித் தரையில் போடுவதற்கு முன் வாயிற் கதவைத் தட்டும் சப்தம் கேட்டது. “யாரு பாரு, சாப்பிடற வேளையில், பிரேக் டவுன்னா நான் வீட்டில இல்லைன்னு சொல்லிரு. இப்பதான் நிம்மதியா வந்து உட்கார்ந்தேன்."
ரகு வாயிற் பக்கம் சென்றான். கதவைத் திறந்ததும் இரண்டு சைக்கிளைப் பார்த்தான். மதுமிதாவும் சுதாகரும் நின்றுக்கொண்டிருந்தார்கள். இவனைப் பார்த்ததும் சற்றுத் தயக்கத்துடன் ஒருவரை ஒருவர் பார்த்துக்கொண்டு அந்தப் பையன் மென்று விழுங்கி "அங்கிள் ஐம் ஸாரி”

Malayalam Image

Malayalam Image
Malayalam Text

കടലിനരിക്കരയുള്ള നാട്ടിൽ മലയാളം പാട്ടുകൾ പാടി പാറിനടക്കുന്ന കുഞ്ഞുകുട്ടികളുടെ ഒരു വലിയ കൂട്ടം തന്നെയുണ്ട്. അക്കൂട്ടത്തിലൊരാളാണ് ഷാർജയിൽ നിന്നുള്ള അശ്വതി നായർ എന്ന പത്തു വയസുകാരി. മിനുങ്ങും മിന്നാമിനുങ്ങേ എന്ന പാട്ടു കേൾക്കുമ്പോൾ ശ്രേയ കുട്ടിയുടെ എപ്പോഴും ചിരിക്കുന്ന ആ മുഖത്തിനൊപ്പം ഓർമ വരും അശ്വതിയേയും.

Procedure:-
1. Get all the pages in a good quality image files. This can be done via any desktop Scanner in case of physical documents. In case of converting Tamil PDF documents to editable text, you can use the online services like PdgfToImage.com or Zamzaar.com

PDF to Image

2. Upload the page images to Google Drive using your Google id.

3. Right click the page image as choose "Open with" and point to "Google Docs"

4. In the new window / tab, you can see the image embeded followed by the converted text, which you can copy and paste in the word editor.



Depending on the quality of the scan, you can find the texts and formatting in the proportional quality. You might need manual formatting / removal of cryptic characters before you use the text.