Сканирование текста и распознавание образов


О вводе текста в ПЭВМ следует сказать особо. Мы определили сканер как устройство ввода графической информации. Введенный рисунок записывается на внешний носитель информации в специальном формате и может быть отредактирован посредством графического редактора и (или) отпечатан принтером в медленном графическом режиме. Текст же, хотя по внешнему виду и является частным случаем изображения, в ПЭВМ обрабатывается иначе. Эти особенности перечислены ниже:

· тексты хранятся в текстовых форматах, которые требуют существенно меньше внешней памяти (байт на символ, а не байт на точку при 256-битовом сканировании);

· тексты обрабатываются текстовыми, а не графическими редакторами;

· текст может быть напечатан принтером в гораздо более быстром текстовом режиме;

· с текстом можно производить манипуляции, недоступные для изображений (проверка орфографии).

Обеспечить ввод напечатанного или рукописного текста можно одним из следующих способов:

· использовать специальное устройство оптического распознавания символов;

· применить сканер с программными средствами для распознавания символов.

Устройства оптического распознавания символов весьма дороги и обладают ограниченными возможностями. Проблемы возникают даже при вводе текстов с пропорциональными шрифтами (с переменной шириной символа), не говоря уже о рукописных текстах.

При втором способе сканер, как обычно, вводит изображение. Затем оно читается специальными программными средствами и преобразуется в текстовый формат. Здесь не обойтись без методов искусственного интеллекта, в частности, теории распознавания образов. Такое ПО достаточно сложно, но в этой области достигнуты заметные успехи. В качестве примеров таких программ можно отметить продукцию отечественных фирм FineReader и СuneiForm.

Одним из основных показателей качества системы ввода текстов является точность идентификации вводимых символов, или вероятность ошибок при вводе.

Загрузка...