Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АВТОМАТИЗАЦИЯ ПРОВЕРКИ СОГЛАСОВАННОСТИ ДОКУМЕНТОВ УЧЕБНО- МЕТОДИЧЕСКИХ КОМПЛЕКСОВ НА ОСНОВЕ ТЕХНОЛОГИИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Авторы:
Город:
Санкт-Петербург
ВУЗ:
Дата:
04 марта 2016г.

В сфере образования на сегодняшний день остается много бумажной работы, которая отнимает у сотрудников много времени и сил. Одной из таких проблем является тот факт, что при разработке учебно- методических комплексов (УМК), преподавателю приходится создавать большое количество документов, которые должны подчиняться одним нормативным документам, а так же все документы должны быть согласованы между собой. Разработка УМК требует внимательного изучения нормативных документов. Инструменты интеллектуального анализа данных могут быть применены для упрощения этого процесса.

Под учебно-методическим комплексом понимается совокупность учебно-методической документации, средств контроля процесса обучения, средств обучения. УМК должен содержать информацию, которая является достаточной для изучения дисциплины и должен быть доступен всем желающим.

Учебно-методические комплексы включают в себя большое количество различных модулей (документов), таких как:

·учебные пособия;

·различные задачники;

·рабочую программу дисциплины и другие.

·план-график распределения учебного материала;

·методические указания для преподавателя к выполнению лабораторных работ;

·методические указания для студента к выполнению лабораторных работ;

·темы курсовых работ;

·темы рефератов;

·темы для самостоятельных заданий;

·вопросы к экзамену.

Существует ряд параметров, по которым эти документы должны быть согласованы. К таким параметрам относятся, например:

·наименование учебной дисциплины;

·код учебной дисциплины;

·направление (специальность) подготовки студентов;

·место дисциплины в системе дисциплин учебного плана;

·разделы дисциплины и виды занятий;

·содержание разделов дисциплины;

·объем дисциплины по видам занятий и формы контроля;

·курсовой проект, курсовая работа,(наличие в рамках дисциплины)

·рекомендуемая литература;

·материально-техническое обеспечение дисциплины;

·методические рекомендации по организации изучения дисциплины;

·сведения об авторах-разработчиках УМК.

Так же учебно-методические комплексы разрабатываются по каждой дисциплине, составляют основную образовательную  программу  (ООП),  которая  должна  соответствовать  федеральному  государственному образовательному стандарту (ФГОС). ФГОС это набор требований, которые должны быть учтены при разработке ООП. Тут возникают свои сложности, так как периодически ФГОС обновляется, вносятся корректировки. УМК всегда должен соответствовать самой последней версии государственного стандарта. Так же учитывая развитие науки, технических средств, экономики и т.д., ООП должны обновляться ежегодно, УМК должны всегда соответствовать всем регламентируемым государством требованиям. В связи со сказанным актуальной является задача разработки системы, которая будет помогать авторам следить за изменениями в стандартах.

Данная задача может быть решена при помощи машинного обучения [1]. Основой для этого могут служить средства интеллектуального анализа данных образовательного процесса (EDM – Educational data mining). С помощью этих средств можно обрабатывать и анализировать данные, получаемые из образовательного процесса. Это область науки, связанная с разработкой методов для изучения уникальных типов данных, поступающих из образовательной сферы и использование этих методов для улучшения образовательного процесса. Основными направлениями в этой области являются использование анализа данных для поддержки интеллектуальных систем обучения (Intelligence Tutoring Systems), а так же анализ образовательных процессов и визуализация данных образовательного процесса.

Цель работы заключается в исследовании механизмов интеллектуального анализа данных для решения задач в сфере образования. Данные, которые используются в EDM данные, имеют очень сложную семантику (различные типы данных, соответствующие методы их хранения и обработки, различные структуры данных и др.).

Наша задача требует от компьютера понимания естественного языка. С начала 90-х годов начали появляться различные методы обработки естественного Языка (Natural Language Processing) и извлечения информации (Information Retrieval), стали развиваться новые подходы. NLP – это множество вычислительных методов для анализа естественного языка [2]. До работы в области NLP-метода системы использовали вероятностные и статистические подходы. Эти подходы фокусируются в основном на общем содержании. Семантический смысл текста не оценивается, оценивается положение определенных слов и/или фраз, и число вхождений каждого слова в тексте. Разработки в области Извлечения информации (Information extraction) сделали большие достижения в определении смысла в тексте. Существует несколько лингвистических подходов, которые фокусируются на фактическом понимании текста. Основные методы и их описание представлены в Табл.1.

 

Таблица 1

Метод

Описание метода

Простой анализ по ключевым словам

Метод, состоит в поиске совпадающих слов или n-грамм между текстом одного документа и тестом другого. Этот метод не может извлекать ни смысл из текста, ни работать с синонимами и многозначными терминами.

Поверхностный лингвистический анализ

В эту подкатегорию включены системы, которые требуют (а) списка особенностей, которые будут измеряться, (б) подготовительной фазы для нахождения весов для каждой из них, (в) фазы калибровки для приведения весов к оптимальным значениям.

Скрытый семантический анализ (LatentSemanticAnalysis)

Это сложный статистический метод, который был разработан для индексации документов и извлечения информации. Выполняет поиск скрытых связей между словами, которые могут быть в различных документах.

 

Методы, представленные, в таблице относятся к статистическим и вероятностным методам. Так же существуют методы извлечения информации (Information extraction) [3]. Извлечение информации состоит в приобретении структурированной информации из свободного текста, например, выявление именованных сущностей из свободного текста и заполнения шаблона. Этот подход можно считать неглубокой техникой NLP, так как обычно IE не требует глубокого анализа текста. Методы извлечения информации могут использоваться для выявления зависимостей между ключевыми словами. В начале, текст разбивается на ключевые слова и их связи. Затем найденные зависимости сравниваются с указанными терминами.

Многие методы извлечения информации включают методы выделения корня (stemming), разбиения на части (chuncking) и удаления стоп-слов из текста. Выделение корня  – это метод, который удаляет из слов суффиксы для того, чтобы определить корень слова. Разбиение на части – это процесс разделения предложения на глагольные группы (VP) и группы существительных (NP). Например, в предложении «Пользователь устанавливает соединение с сервером Oracle» будут выделены следующие части: {Пользователь} = (NP) {устанавливает} = (VP) {соединение с сервером Oracle} = (NP). Далее каждая полученная часть предложения может быть разобрана по частям речи.

Стоп-словами являются слова, которые не оказывают большого влияния на смысловую нагрузку, такие, как предлоги, прилагательные, наречия и частицы. Убирая лишнюю нагрузку на систему в виде обработки стоп- слов, данный подход работает быстрее.

В отличие от простого подсчета слов, методы анализа взаимного расположения слов, полного анализа на их соответствие, и подобные техники, используемые, при извлечении информации фокусируются, в первую очередь на смысле текста.

Существует много инструментов, применяемых в текстовом семантическом анализе с использованием методов извлечения информации. Общие, а также предметно-ориентированные онтологии разработаны для выявления синонимов слов. Также, Part-of-Speech («Часть речи») тегирование широко используется для определения частей речи компонент предложения и помогает лучше анализировать его смысл.

К сожалению, данные разработки существуют в большинстве для европейских языков, но в России также предпринимаются попытки сделать аналоги для русского языка. Среди них было несколько попыток создать русскоязычные онтологии для поиска синонимов, но завершенных успешных проектов в данном направлении пока нет. Это объясняется тем, что в виду богатства русского языка, представить его в виде общей онтологии является очень сложной задачей

Part-of-Speech тегирование – это  метод, выполняющий разбиение документов на параграфы,  и далее, разбиение параграфов на предложения и фразы.  Каждое слово в каждом  предложении  помечается тегом  с соответствующей частью речи, например, существительное, глагол, причастие и т.д. Существует некоторое количество инструментов, в том числе отечественных разработок, выполняющих Part-of-Speech («Часть речи») тегирование с текстом, написанном на русском языке. Этот метод выполняет разбиение документов на параграфы, далее параграфы разбивает на предложения и фразы. Каждое слово в каждом предоложении помечается тегом с соответствующей частью речи, к примеру: существительное, причасти, глагол и т.д.

Таким образом, одним из перспективных подходов к разработке системы автоматизации проверки согласованности документов учебно-методических комплексов является подход, основанный на методах извлечения информации, в основе которых лежат принципы семантического текста с учетом его лингвистических особенностей. Наиболее подходящими инструментами для решения такой задачи являются те, которые выполняют Part-of-Speech тегирование русскоязычного текста, например, такие как AOT (Автоматическая обработка текста) и Tomita-парсер от Яндекса.

 

Список литературы

1.     Андрианова Е.Е., Сабинин О.Ю. методы и алгоритмы data mining для решения задач образования Научно- образовательная информационная среда XXI века: материалы VIII Международной научно-практической конференции. (15-18 сентября 2014 года). – Петрозаводск, 2014. – 226 с.

2.     Cowie, J. and Wilks, Y. (2000). Information Extraction. In R. Dale, H. Moisl, and H. Somers, editors, Handbook of Natural Language Processing, chapter 10, pages 241–260. Marcel Dekker, New York City, New York, first edition.

3.     D. Perez. Automatic evaluation of users’ short essays. – Escuela Politecnica Superior, Universidad Autonoma de Madrid, 2004. 1-83 с