PythonOCR文字识别教程_Tesseract使用详解_技术教程_南昌市广照天下广告策划有限公司

新闻动态

PythonOCR文字识别教程_Tesseract使用详解

需先安装Tesseract引擎再安装pytesseract库；Windows下载安装包并勾选“Add to PATH”，macOS用brew install tesseract，Linux用apt install tesseract-ocr；随后pip install pytesseract，并按需配置tesseract_cmd路径。

安装Tesseract和pytesseract

要让Python调用OCR功能，得先装好Tesseract引擎本身，再装Python封装库pytesseract。

Windows用户可去Tesseract官方Wiki页面下载安装包（推荐带训练数据的完整版），安装时勾选“Add to PATH”；macOS用户用Homebrew执行brew install tesseract；Linux（如Ubuntu）运行sudo apt install tesseract-ocr libtesseract-dev。

接着在终端或命令行中安装Python接口：

pip install pytesseract
如果提示找不到tesseract命令，需手动指定路径，例如在代码开头加：
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'（Windows）
或pytesseract.pytesseract.tesseract_cmd = '/usr/local/bin/tesseract'（macOS/Linux）

基础文字识别：从图片读取文本

最常用场景是把一张清晰截图或扫描图转成字符串。支持格式包括PNG、JPG、BMP等。

示例代码：

from PIL import Image
import pytesseract
打开图片
img = Image.open('receipt.png')
直接识别，默认使用eng语言包
text = pytesseract.image_to_string(img)
print(text)

注意点：

图片越清晰、文字越规整，识别越准；模糊、倾斜、低对比度会明显降低效果
默认识别英文，若处理中文，需额外下载中文训练数据（chi_sim或chi_tra），并传入lang='chi_sim'
可加config='--psm 6'参数提升单行/规则文本识别率（PSM模式详见下节）

调整OCR识别精度：PSM和OEM参数

Tesseract提供Page Segmentation Mode（PSM）和OCR Engine Mode（OEM）两个核心配置项，直接影响结果质量。

常用PSM值说明：

PSM 3：自动检测页面结构（默认值，适合普通文档）
PSM 6：假设为单块均匀文本（推荐用于截图、票据、标题等）
PSM 7：一行文字（适合验证码、标签、短语）
PSM 8：单词（极少用）
PSM 10：单个字符（用于特殊识别任务）

调用方式：

text = pytesseract.image_to_string(
    img, 
    lang='chi_sim', 
    config='--psm 6 --oem 3'
)

OEM推荐始终用--oem 3（LSTM神经网络引擎，Tesseract 4+默认），老版本才考虑OEM 0/1。

预处理图像提升识别率

Tesseract对输入图像很敏感。原始图片常需简单预处理：

转灰度：去掉颜色干扰，img.convert('L')
二值化：增强文字与背景对比，可用PIL的point函数或OpenCV的threshold
去噪：小斑点可用ImageFilter.MedianFilter()；大面积噪点建议用OpenCV的形态学操作
缩放：文字太小（如8px以下）易漏字，建议将字体高度放大到20–30px再识别
矫正倾斜：用OpenCV检测文字角度后旋转校正，或用skimage.transform.rotate

一个轻量预处理示例：

from PIL import Image, ImageEnhance
def preprocess(img):
img = img.convert('L')  # 灰度
enhancer = ImageEnhance.Contrast(img)
img = enhancer.enhance(2.0)  # 提高对比度
return img.point(lambda x: 0 if x < 128 else 255, '1')  # 二值化
clean_img = preprocess(Image.open('id_card.jpg'))
text = pytesseract.image_to_string(clean_img, lang='chi_sim', config='--psm 6')

获取更详细识别信息：box、data和confidence

除了纯文本，Tesseract还能返回每个字符/单词的位置、置信度等结构化数据。

image_to_boxes(img)：返回字符级坐标（左下角x,y + 右上角x,y + 字符）
image_to_data(img)：返回DataFrame格式，含level、page_num、block_num、par_num、line_num、word_num、left、top、width、height、conf、text等字段，conf即识别置信度（-1表示跳过）
过滤低置信度结果：df = df[df.conf != -1]，再用df[df.conf > 60]['text'].str.cat(sep=' ')拼接高可信文本

这些输出可用于构建带定位的OCR系统，比如提取发票中的“金额”“日期”字段，或做图文对齐。

17370845950

安装Tesseract和pytesseract

基础文字识别：从图片读取文本

调整OCR识别精度：PSM和OEM参数

预处理图像提升识别率

获取更详细识别信息：box、data和confidence

关于我们

服务项目

广告推广

案例欣赏