Tesseract (software)

Tesseract
Tesseract
	Tesseract 4.1.1 reading an image.
Original authors	Ray Smith, Hewlett-Packard
Developers	Google and others
Stable release	5.5.2 / 26 December 2025
Written in	C++
Operating system	Linux, Windows, and macOS
Available in	Interface: English ; Recognition: Afrikaans, Albanian, Amharic, Arabic, Armenian, Assamese, Azerbaijani, Basque, Belarusian, Bengali, Bosnian, Breton, Bulgarian, Burmese, Catalan, Cebuano, Cherokee, Chinese, Corsican, Croatian, Czech, Danish, Dutch, Dzongkha, English, Esperanto, Estonian, Faroese, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Inuktitut, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Korean, Kurdish, Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish. Malayalam, Macedonian, Maltese, Malay, Maori, Marathi, Mongolian, Nepali, Norwegian, Occitan, Oriya, Pashto, Persian, Polish, Portuguese, Punjabi, Quechua, Romanian, Russian, Sanskrit, Scottish Gaelic, Serbian, Sindhi, Sinhala, Slovak, Slovenian, Spanish, Sundanese, Swahili, Swedish, Syriac, Tagalog, Tajik, Tamil, Tatar, Telugu, Thai, Tibetan, Tigrinya, Tongan, Turkish, Ukrainian, Urdu, Uyghur, Uzbek, Vietnamese, Welsh, West Frisian, Yiddish, Yoruba (more can be added using included training files)
Type	Optical character recognition
License	Apache License 2.0
Website	github.com/tesseract-ocr
Repository	github.com/tesseract-ocr/tesseract.git ;

Tesseract is an optical character recognition engine for various operating systems. It is free software, released under the Apache License. Originally developed by Hewlett-Packard as proprietary software in the 1980s, it was released as open source in 2005 and development was sponsored by Google in 2006.

In 2006, Tesseract was considered one of the most accurate open-source OCR engines available.