Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АВТОМАТИЗИРОВАННАЯ ИНФОРМАЦИОННАЯ СИСТЕМА «ЭЛЕКС», ВЕРСИЯ 2.0.: ОСОБЕННОСТИ РЕАЛИЗАЦИИ

Авторы:
Город:
Москва
ВУЗ:
Дата:
30 марта 2016г.

Для обеспечения автоматизированного лексического контроля нами с 2014 года ведутся работы по созданию и совершенствованию автоматизированной информационной системы «Элекс» [1, 2].

В настоящее время нами завершена версия 2.0 системы «Элекс».

При реализации нами второй версии автоматизированной системы лексического контроля был исследован новый подход к обработке русскоязычных медицинских текстов, включающий комплекс методов, как хорошо проверенных при решении сходных задач в других областях, так и перспективных подходов – поиск с учетом семантико-синтаксических структур предложений с учетом медицинской терминологии и специфичной лексики.

При проведении исследований в рамках нашей работы мы в начале рассматривали возможности применения известных методов выявления нечётких дубликатов и заимствований, приведённые в работах [3] и [4]. Известны программы, способные осуществлять поиск заимствований в текстах: «Программа Плагиата.НЕТ» [5], «Программа Etxt Антиплагиат» [6], ресурс Антиплагиат.РУ [7]. Однако ни одно из этих решений не ориентировано на анализ текстов медицинской тематики. При этом в этих программах не учитывается тот факт, что в медицинских документах присутствуют повторяющиеся текстовые элементы, определяющие не содержание, а структуру текста (заголовки разделов, названия столбцов таблиц, граф и полей и т.п.). Это значит, что во многих документах, схожих по структуре, будут обнаружены заимствования, что негативно скажется на точности процедуры лексического контроля. По этим причинам применение метода шинглирования следует признать ограниченно применимым для решения поставленных в проекте задач. Данную проблему мы обошли за счёт создания и дальнейшего использования специализированного словаря медицинской лексики.

При разработке критериев оценки количественного содержания медицинской информации в текстовом документе был учтён опыт исследователей, представленный в работе [8]. С опорой на известные результаты и опыт анализа медицинских текстов было принято решение применить подход к выделению терминологии на основе анализа синтаксических структур предложений, с применением частотного анализа к составным терминам-кандидатам, относящимся к медицинской лексике для оценки доли содержания медицинской информации в текстовом документе.

В настоящее время в области анализа текстов наблюдается переход от векторного представления текстовой информации (в виде «мешка слов») к более сложным представлениям. В этой связи для повышения качества решения аналитических задач (в том числе, на автоматизацию решения которых направлен настоящий проект) применяют методы синтаксического и семантического анализа. Это позволяет, в частности, выделять составные термины [9], [10].

При выработке критериев оценки уникальности текстового содержания медицинских текстов нами был учтён опыт систем обнаружения текстовых заимствований: Chimpsky; CitePlag; CopyTracker; eTBLAST; Plagium; SeeSources; The Plagiarism Checker; Attributor; Copyscape; PlagTracker; Iparadigms: Ithenticate, Turnitin; PlagiarismDetect; PlagScan; VeriGuide.

В этих системах применяются различные методы: от классического чешуйчатого алгоритма [11] до методов на основе извлечения концептов [12]. В литературе также описаны высокопроизводительные методы, например, на основе полиномов Карпа-Рабина [13] и поиска совпадающих вхождений строк [14]. Эти методы находят своё применения в некоторых задачах выявления «почти полных дубликатов» текстов, однако их применимость в задаче лексического контроля текстов медицинских документов вызывает сомнения. Как отмечалось ранее, при анализе медицинских документов необходимо учитывать структурные элементы, повторяющиеся в различных вариантах от одного документа к другому. Это означает, что при сопоставлении текстов МЭД необходимо учитывать эти элементы с минимальным весом (или не учитывать вовсе). Также для решения задачи нашего исследования не применимы методы на основе анализа библиографических ссылок [15], являющиеся эффективными в сфере обнаружения плагиата в научных публикациях.

В свете применения методов семантического анализа текстовой информации для представления результатов её анализа в виде неоднородной семантической сети (НСС) были рассмотрены методы семантического анализа предложений.  В известных на  сегодняшних день  системах семантического анализа медицинских текстов [16], [17] реализуются подходы, позволяющие строить семантическую сеть текста, используя принципы семантической разметки – semantic role labeling [18]. Эти решения учитывают специфику медицинских текстов на английском языке, заключающуюся в использовании специфичной терминологии и специфичных глаголов.

Для проведения морфологического анализа расширяют словари, пополняя их часто употребляемыми медицинскими терминами. Также формируют аннотированные корпуса текстов медицинской тематики и проводят дополнительное обучение анализаторов или их перенастройку, что позволяет проводить анализ медицинских текстов с приемлемым качеством [19].

Более сложной задачей является выявление в тексте семантических отношений между выделенными сущностями, например, таких как, причина – следствие. Для решения этой задачи применяют глубокий анализ текста, включающий синтаксический и семантический анализ [20], [21]. Из текста выбираются предложения, которые могут содержать некоторые востребованные отношения (например, по ключевым словам). В отобранных предложениях с помощью семантического анализа строятся предикатно-аргументные отношения, которые затем используются для определения необходимых отношений между сущностями в предложении. Полученные отношения используются для пополнения онтологий и баз знаний. Они также могут быть использованы для решения задач информационного поиска.

Таким образом, ссе разработанные нами и реализованные во второй версии автоматизированной системы «Элекс» подходы являются новыми и оригинальными в части анализа медицинских текстов на русском языке.

 

 

Список литературы

1.     Берсенева Е.А., Седов А.А., Голухов Г.Н. Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов. // Врач и информационные технологии. – 2014. - № 1. – С. 11-17.

2.     Берсенева Е.А., Седов А.А. Автоматизированный лексический контроль медицинских документов: предлагаемые подходы. // Современная медицина: актуальные вопросы и перспективы развития. Выпуск II.: Сборник научных трудов по итогам международной научно-практической конференции (10 сентября 2015 г.). – г. Уфа, 2015. – С.83-85.

3.     Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007: Сб. работ участников конкурса/ Переславль-Залесский, Россия, 2007.

4.     Косинов, Д.И. Использование статистической информации при выявлении схожих документов / Д. И. Косинов // Интернет-математика 2007: сборник работ участников конкурса. — Екатеринбург: Изд-во Урал. ун-та, 2007. — С. 84—91

5.     http://www.mywebs.ru/plagiatanet.html

6.     http://www.etxt.ru/antiplagiat

7.     http://www.antiplagiat.ru

8.     Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. - С. 67-74.

9.     Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms. the c-value/nc-value method //International Journal on Digital Libraries. – 2000. – Т. 3. – №. 2. – С. 115-130.

10. Clouet E., Daille B. Compound Terms and Their Multi-word Variants: Case of German and Russian Languages//Computational Linguistics and Intelligent Text Processing. – Springer Berlin Heidelberg, 2014. – С. 68-78.

11.    Broder, Glassman, Manasse, and Zweig. Syntactic Clustering of the Web. SRC Technical Note. 1997.

12. Yuen-Hsien Tseng, "Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol.37, No. 3, 15 March 2010, pp. 2247-2254.

13.    David Andersen. Exploiting Similarity for Multi-Source Downloads using File Handprints, 2007.

14. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Document Overlap Detection System for Distributed Digital Libraries", Proceedings of the fifth ACM conference on Digital libraries, ACM, pp. 226–227.

15. Bela, Gipp; Norman, Meuschke; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (Jul. 28 - Aug. 1 2013), "Demonstration of Citation Pattern Analysis for Plagiarism Detection", Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM.

16. Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK. Towards comprehensive syntactic and semantic annotations of the clinical narrative //Journal of the American Medical Informatics Association. – 2013.

17. Savova G., Masanz J., Ogren P., Zheng J., Sohn S., KipperSchuler K., Chute C. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications //Journal of the American Medical Informatics Association. – 2010. – Т. 17. – №. 5. – С. 507-513.

18.    Pham X. Q., Le M. Q., Ho B. Q. A Hybrid Approach for Biomedical Event Extraction //ACL 2013. – 2013. – С.121.

19. Pakhomov S. V., Coden A., Chute C. G. Developing a corpus of clinical notes manually annotated for part-of- speech //International journal of medical informatics. – 2006. – Т. 75. – №. 6. – С. 418-429.

20.    Aggarwal C. C., Zhai C. X. (ed.). Mining text data. – Springer, 2012. – 522 c.

21. J.-D. Kim, T. Ohta, N. Nguyen, S. Pyysalo, R. Bossy, and J. Tsujii. Overview of BioNLP shared task 2011. In Proceedings of the BioNLP Shared Task 2011 Workshop, pages 1–6, 2011.