Новости

Фотки
Надписи на партах
Под гармошку
Обои для рабочего стола

Downloads
Компьютерные магазины
Фуфло

ЕЯС
НКС
ООП
СЦОД

Гостевая

Я ВКонтакте

Естественные языковые системы

Синтаксический анализ

При подготовке раздела были частично использованы материалы диссертации Евдокимовой И. С. "Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы"

Синтаксический анализ будет проходить в три этапа.

1 этап (предобработка)

На этом этапе следует произвести обработку данных морфологического анализа, с целью группировки некоторых слов друг с другом. Группироваться будут, например, рядом стоящие фамилия, имя и отчество, или же два рядом стоящих глагола, если один из них инфинитив. Ниже описаны и другие возможные группы. Всё это требуется для того, чтобы получить корректный граф зависимостей на выходе синтаксического анализа, и, следовательно, облегчить задачу семантического анализа.

Ещё на этом этапе должны быть удалены все междометия, не должно быть предлогов, не распределённых в словогруппы.

1. Правило построения группы ПС предлог+существительное
Предлог может стоять перед самим существительным или перед другими словами, после которых следует согласуемое существительное. (например: на совещании, в международной научной конференции). Группировку следует производить основываясь на знаниях о падежах, которыми может управлять предлог, и о том падеже, в котором стоит существительное.
Замечу, что предлог+существительное - это образное название. Надо учитывать, что предлог может быть связан так же и с местоимением (если группа - местоимение-существительное), и с числительным (в некоторых случаях).

2. Правило построения группы ФИО
Правило ищет три или два контактно стоящих слова, каждое из которых представляет собой фамилию, имя или отчество. Группу ФИО собирается по одной из пяти схем: Ф-И-О, И-О-Ф, Ф-И, И-Ф, И-О. (например: Иванов Петр Сергеевич, Иванов Петр, Петр Иванов, Петр Сергеевич, Петр Сергеевич Иванов). Здесь надо учитывать то, что все слова в группе должны иметь одинаковые род, число и падеж.

3. Правило построения группы СЧ - составное числительное
Все непрерывные последовательности из числительных объединяются в одну группу. (например: четыре тысячи триста двадцать первому) Группа приобретает характеристики самого правого числительного.

4. Правило для построения группы ДАТА (в разработке)
Определимся с понятиями:

  • числом может быть натуральное число (извините за тавтологию :) ) от 1 до 31;
  • месяцем может быть одно из слов: январь, февраль, ..., декабрь;
  • годом может быть опять же натуральное число, но уже от 1900 до 31;
  • словоформой может быть слово "год" или "г".

Правило ищет два, три или четыре контактно стоящих слова, которые соответствуют одной из следующих схем:

  • число-месяц-год-словоформа (например: 5 мая 2004 года, 5 мая 04 г);
  • число-месяц (например: 5 сентября);
  • год-словоформа (например: 2003 года);
  • месяц-год-словоформа (например: сентября 2003 года);
  • число-месяц-год-словоформа (например: 6 сентября 02 года).

2 этап

На этом этапе осуществляется поиск зависимостей одних слов (словогрупп) от других. Правила для связей со словогруппами я не описывал. Ничего страшного в этом нет, так как все словогруппы можно отнести к базовым частям речи. Итак, существительное с предлогом, фамилия-имя-отчество, дата будем относить к существительному, а составное числителное - к числительному.

3 этап

Это этап формирования итогового графа зависимостей, в котором все вершины и дуги будут упорядочены и распределены по уровням. Нумерация и распределение по уровням вершин и дуг графа должны начинаться с корневой вершины. Итоговый граф зависимостей должен быть остовным и не содержать циклов.

^^ наверх ^^

Дизайн: Красиков Виктор, kv630@mail.ru, ICQ - 319227
Местонахождение: Россия, респ. Бурятия, г. Улан-Удэ
Время на сервере: 20.10.21 23:38
Время в Улан-Удэ: 21.10.21 04:38
Время генерации страницы 0.002606 сек.