Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ИССЛЕДОВАНИЕ АЛГОРИТМОВ И МЕТОДИКИ ДЛЯ «АВТОМАТИЧЕСКОЙ КОРРЕКЦИИ ТЕКСТА»

Авторы:
Город:
Зеленоград
ВУЗ:
Дата:
14 мая 2016г.

Объектом исследования данной работы является корректировка текста, а именно обработка, редактирование текста. Представление текста в правильном синтаксическом и грамматическом виде.

Предметом исследования является создание программного обеспечения, позволяющего корректировать текст в удобном для пользователя виде.

Проблемная ситуация в области объекта исследования. В настоящее время услуги профессионального корректора текста стоят не малых денег. Множеству людей, которые связанны с наукой, приходиться писать большое количество статей и каждая из них должна быть оформлена корректно. Для того чтобы автоматизировать этот процесс нужно разработать программное обеспечение, опирающееся на алгоритмы анализа и корректировки текста.

В ходе анализа предметной области обнаружены следующие готовые решения AfterScan, WhiteSmoke Writer,сайты вида correctly.ru.

AfterScan — универсальный автоматический корректор текстов. Часто в работу переводчика, а в особенности корректора может входить обязанность сканирования текста предназначенного для перевода, полученного от заказчика. Еще чаще качество полученных текстов бывает плохое, что отрицательно влияет и на качество распознавания. Программа AfterScan берет на себя самую трудоемкую часть работы над текстом - коррекцию и исправление ошибок. AfterScan скрупулезно проверяет каждую букву, каждое слово, каждый пробел и знак препинания с недостижимой для человека скоростью и точностью. В основе AfterScan лежит многолетний опыт профессиональных наборщиков и корректировщиков вкупе с алгоритмами, позволяющими использовать эти знания с максимальной отдачей и эффективностью.

Возможности программы:

-   Проверка орфографии и анализ текста

-   Автоматическое исправление ошибок сканирования/распознавания (OCR) и ошибок ручного ввода.

-   Чистка отступов, пробелов и пунктуации. Приведение к типографским нормам.

-   Переформатирование старых текстов с фиксированными переносами строк, переносами слов и отбивкой пробелами.

-   Автоматическая работа без вмешательства пользователя в пакетном режиме.

-   Возможность легкой проверки и исправления ошибок через Журнал Исправлений.

WhiteSmoke Writer – программный продукт компании «WhiteSmoke», который позволяет проверять правильность написания текста на английском языке, включая орфографию, грамматику, стилистику ( в т.ч. академическую), что дает возможность не англоговорящим авторам готовить публикации на английском языке на высоком уровне.

Correctly.ru - Проверка орфографии онлайн. Для проверки орфографии просто впишите или вставьте текст в поле и нажмите кнопку «Проверить орфографию». Недостатком такого рода сайтов, является очень скудные функциональные возможности. Так как продукт изначально не нацелен на многофункциональное использование.

Из всех представленных решений только WhiteSmoke корректирует текст с грамматической точки зрения, но нет поддержки русского языка, нет единообразия в тексте (не проверяются скобки, знаки тире, дефис и т.д.) Поэтому возникает необходимость в разработке собственного ПО.

Готовое программное решение должно быть построено на тщательно составленных и проверенных алгоритмах анализа и синтеза, и иметь следующие функциональные возможности: распознавание текста, проверка и исправление орфографических, синтаксических, пунктуационных ошибок, исправление знаков по единым принятым стандартам (тире, дефис, кавычки и т.д.). Большая часть функционала может быть реализована подключением большой базы словарей. Особенность алгоритма автоматической коррекции текста обусловлено тем, что  готовое программное решение должно уметь корректно  обрабатывать текст не только  на наличие орфографических и пунктуационных ошибок, что само по себе является распространенным для анализаторов текста. Также программа должна уметь определять ошибки с грамматической точки зрения. А это уже требует анализировать текст со смысловой точки зрения.

Синтаксический анализатор должен распознать структуру предложения, а именно синтаксические зависимости слов. В результате должно быть либо построено синтаксическое дерево, либо выявлены составляющие. Обычно грамматика строится так, чтобы на выходе получалось синтаксическое дерево, позволяющее выполнять разнообразные трансформации лексического содержания с пересогласованием зависимых слов, а также легко выделять семантику, в частности - применять алгоритм взвешивания альтернативных вариантов построения дерева. Анализируемые предложения могут иметь разную сложность, включать неизвестные слова или отступления от нормативного синтаксиса. Чтобы эффективно справляться с разными задачами, синтаксический анализатор применяет несколько разных алгоритмов, включая структурный нисходящий анализ и восходящий анализ, а также применяет семантический анализ для уточнения результатов в случае неоднозначностей.

Для более точной работы планируется разработать алгоритм, который будет совмещать в себе достоинства восходящего и нисходящего вероятностного парсинга предложения. Нисходящий синтаксический анализ, или анализ через синтез, начинает с выдвижения предположений о крупномасштабной структуре предложения, а затем уточняет и детализирует это предположение, рекурсивно опускаясь на уровень конкретных слов. Другими словами, этот алгоритм инициирует разбор с начального нетерминала S. Восходящий синтаксический анализ начинает разбор с конкретных слов, связывая сначала пары слов, затем подсоединяет к этим парам новые слова или другие связанные пары. Постепенно процесс связывания доходит до начального нетерминала S - то есть все слова в предложения оказываются, связаны в единую структуру.

Для того чтобы разрабатываемый автоматический корректор текста был наиболее точен, будет использована большая база словарей, оптимизирован алгоритм синтаксического анализа текста. Важно учитывать и парсить не только смысловую часть, но и знаковую (убирать двойные пробелы, использовать правильно тире, дефисы, расставлять кавычки единообразно и т.д.)

 

Список литературы

1.     Яцко В.А. Алгоритмы и программы автоматической обработки текста.

2.     Чувилин К.В. Автоматический синтез правил коррекции текстовых документов формата LaTeX.

3.     Основы машинного перевода (Интернет-ресурс).

4.     Бочкин А.И., Пушкарев А.В. Алгоритмы редактирования текста при помощи языка регулярных выражений.

5.     Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика