ООО "Диктум"

Проект:

Разработка компьютерной системы извлечения цитат из текстов на естественном языке

О компании:

Компания Диктум – занимается исследованиями в области компьютерной лингвистики и разработкой компьютерных технологий автоматической обработки текстов с целью организации общения между человеком и компьютером.

Компания – разработчик патентованной поисковой системы, основанной на извлечении цитат из документов различных баз данных. Разработки ведутся в рамках Соглашения с Фондом содействия развитию малых форм предприятий в научно-технической сфере (www.fasie.ru).

О проекте:

Система извлечения цитат ориентирована на поиск информации в сложноструктурированных текстах большого объема, например, в текстах кодексов и законов. Результатом поиска является набор цитат, релевантных запросу пользователя. Под цитатой здесь понимается точная дословная выдержка из текста, имеющая смысловую законченность. Как правило, размер цитаты составляет доли процента от исходного текста, что значительно уменьшает время на осмысление найденной информации и принятие решения.

Как и в других системах, поиск производится по ключевым словам. Поиск можно вести как в коллекции документов, так и в тексте одного документа. При поиске подсчитывается общее количество найденных цитат и дается их разбивка по документам. Для каждого документа формируется схематическая карта, на фоне которой выводится список цитат. На этой карте скрытые фрагменты текста, не вошедшие ни в одну из цитат, представлены графическими элементами. Любой фрагмент текста можно развернуть для ознакомления и свернуть обратно, если он не нужен.

Для быстрого уточнения запроса система формирует облако подсказок, содержащее набор слов, семантически связанных с запросом.

Формирование запроса:

Запрос формируется в строке запроса и может представлять собой как набор ключевых слов, так и словосочетание или предложение. По нажатию клавиши «Enter» или кнопки «Поиск» будет произведена обработка поискового запроса. Независимо от того, в какой форме указано ключевое слово, система учитывает все его возможные формы.

Для быстрого уточнения запроса система формирует облако подсказок, содержащее набор слов, семантически связанных с запросом.

Поиск в коллекции документов:

Для поиска в коллекции документов на закладке «Коллекция» можно выбрать документы из иерархического списка, в которых будет производиться поиск. По умолчанию выбраны все документы.

Результатом поиска, который доступен на закладке «Результат поиска», будет список документов с указанием общего количества найденных цитат и отдельно для каждого документа (в скобках). При большом количестве цитат имеет смысл уточнить запрос с помощью облака подсказок или с помощью поисковой строки. Для просмотра цитат необходимо перейти по ссылке, при этом будет активирована закладка «Документ». Цитаты выводятся на фоне схематической карты документа. Искать в документе также можно с помощью поисковой строки или облака подсказок.

Произвести повторный поиск по коллекции можно вернувшись на закладку «Коллекция».

Поиск и навигация в документе:

Документ можно выбрать заранее в иерархическом списке под строкой запроса, при этом пользователь перейдет на закладку «Документ». В этом случае область поиска будет ограничена выбранным документом. Кроме того, документ можно выбрать из результатов поиска по коллекции.

Документ будет представлен на экране в виде схематической карты, на которой скрыты все фрагменты текста, кроме цитат. Если по запросу найдено много цитат, на фоне схематической карты отображаются первые несколько. Задать количество выводимых цитат можно с помощью выпадающего списка, расположенного справа от строки поиска. Перейти к следующей группе цитат можно по нажатию на стрелку «вправо» или «влево». Ключевые слова подсвечены. Скрытые предложения обозначены квадратными скобками […], а скрытые абзацы – фигурными {…}, скрытые фрагменты (главы, пункты, статьи) - прямоугольником оранжевого цвета, если фрагмент содержит релевантные цитаты, и серого в противном случае. Все скрытые фрагменты по щелчку мыши разворачиваются. Свернуть фрагмент можно, щелкнув по его номеру (или маркеру).

Наиболее удобным инструментом поиска в документе большого размера является поисковая строка в сочетании с облаком подсказок.

Облако подсказок:

Для быстрого уточнения запроса система формирует облако подсказок, содержащее набор слов, семантически связанных с запросом. Облако подсказок – графический элемент управления, расположенный между строкой запроса и результатами поиска. Часто встречающиеся слова выделены более крупным шрифтом. В центре облака находятся ключевые слова из запроса.

Для уточнения запроса необходимо щелчком мыши выбрать одно из слов. Это слово будет добавлено к запросу, если в запросе этого слова нет. В противном случае выбранное слово будет исключено из запроса. Система автоматически проведет новый поиск, выдаст его результаты и сформирует новое облако подсказок.

Дельта реки и синтаксический анализ: что общего?

Многие крупные реки, впадая в море, разветвляются на многочисленные протоки, веером расходясь по выдающемуся в море участку суши, который называется дельтой. Это название ввел в V веке до н.э. древнегреческий историк Геродот, заметивший сходство между треугольной формой устья Нила и заглавной греческой буквой "дельта" (Δ).

Для моделирования ветвящихся объектов и процессов в математике используется абстрактная структура - дерево. Оказывается, предложение естественного языка также имеет ветвящуюся иерархическую структуру: синтаксические связи слов образуют дерево.

река Нил, Африка
© WeatherStreet.com

 

река Инд, Пакистан
© NASA

 

река Нигер, Африка
© NASA

 

 

река Волга, Россия
© Image courtesy of USGS National Center
for EROS and NASA Landsat Project Science Office

река Колорадо, Мексика
© Trent University

 

река Урал, Россия
© NASA

 

 

река Миссисипи, США
© Courtesy NASA/JPL-Caltech

 

река Северная Двина, Россия
© The Norwegian Barents Secretariat

 

реки Ганг и Брахмапутра, Индия
© NASA

 

река Юкон, Канада
© NASA

 

река Нарсарсук, Гренландия
© Stephen Codrington

 

река Лена, Россия
© Image courtesy of USGS National Center
for EROS and NASA Landsat Project Science Office

На данном этапе проекта разработан демонстрационный прототип. Вы можете ознакомиться с ним на официальном сайте компании (www.dictum.ru). Следует подчеркнуть, что прототип не является готовой системой, а лишь демонстрирует предлагаемые подходы к поиску. В настоящее время доступна коллекция правовых документов, включающая отдельные кодексы и законы Российской Федерации.