Морфологический анализ слов. Программа морфологического анализа для русского языка. Бесплатно - Бесплатные словари - Раздел Программы для ПК - Каталог файлов - БЕСПЛАТНО Английский Разговорный Клуб с носителями язык
Твой Английский Разговорный Клуб! ENGLISH-CLUBS.NET
| Суббота, 03.12.2016, 07:37
Приветствую Вас Гость | RSS
Главная WWW.ENGLISH-CLUBS.NET | Каталог файлов | Регистрация | Выход
FREE ENGLISH CLUBS Site Menu

Это интересно!
  • Тренинг "Пинатор" Бесплатно – КАК ПОБОРОТЬ ЛЕНЬ, больше заниматься АНГЛИЙСКИМ и всегда добиваться других желаемых целей!

  • Бесплатный онлайн-семинар по эффективному изучению английского ОТ РЕКОРДСМЕНА ПО ЗАПОМИНАНИЮ! Курс подойдет как студентам и школьникам, так и всем желающим!

  • Реклама
    (недорогие б/у ноутбуки)



    http://english-clubs.net/
    Главная » Файлы » Раздел Программы для ПК » Бесплатные словари

    Морфологический анализ слов. Программа морфологического анализа для русского языка. Бесплатно
    13.03.2010, 13:04



    Программа морфологического анализа для русского языка
    lemm.zip (1.5 Мб)
    Состав:
    Морфологический словарь
    Библиотека DLL, содержащая функцию морфологического анализа
    Пример использования (проект Microsoft Visual C++ 6.0)

    Русские слова и их словоформы в текстовом виде: stems.zip (80.000 слов)


    Инструкция по установке

    библиотеки Visual C++, которые могут понадобиться для запуска программы из lemm.zip: dll.zip  (800 кб)

    Описание некоторых файлов архива lemm.zip

    Multitran_dev\Test_Mtlemm\Debug\mtlemm.dll - DLL морфологического анализа

    Multitran_dev\Test_Mtlemm\Debug\Database\*.* - файлы морфологического словаря

    Multitran_dev\Test_Mtlemm\Test_mtlemm.dsw - проект с диалоговым интерфейсом для обращения к DLL морфологического анализа. Данный проект можно скомпилировать в среде Microsoft Visual C++ 5.0 - 6.0

    Предлагаемая версия словаря включает 150.000 русских слов. В ней также снято ограничение на скорость обработки запросов.

    Удачи!


    Возможности морфологического модуля русского языка

    Общие сведения

    Морфология Мультитрана первоначально была основана на словаре Зализняка, но с течением времени претерпела некоторые изменения (для примера см. таблицу морфологических классов и описание характеристик частей речи)

    В основе алгоритма лежат (псевдо)основы и (псевдо)окончания. Для любого слова русского языка анализируются все его формы, и наименьшая общая подстрока в начале слова считается основой (основа может быть нулевой). Оставшаяся часть каждой формы считается окончанием. Таким образом создаются базы основ и окончаний. В настоящее время в системе насчитывается около 300.000 основ и 15.000 окончаний для русского языка.

    Регистр слов
    В словаре различаются слова, которые пишутся в нижнем регистре ('стол'), с заглавной буквы ('Москва'), в верхнем регистре ('ООН') и с использованием как прописных, так и строчных букв ('РосНИИРОС'). При поиске можно указывать, следует ли искать слова в точности с учетом регистра, или в любом регистре. В любом случае результат морфологического поиска будет содержать информацию о регистре искомого слова и регистре слова, найденного в словаре.

    Буква ё
    В словах морфологического словаря используется буква 'ё' там, где это предусмотрено русской орфографией. При поиске, если слово не найдено, происходит автоматическая замена букв 'е' и 'ё', так что системе безразлично, используется или нет буква 'ё' в исходном слове запроса.
    В результате морфологической обработки слова   выдается информация о том, было ли слово найдено без автозамены 'е' и 'ё', с автозаменой 'е' на 'ё', или с автозаменой 'ё' на 'е'. Указывается также позиция автозамены. Список слов с буквой ё (200 Kb)

    Дефисы
    Дефис не используется в морфологическом словаре, а является значимым символом для переводного словаря. Таким образом, морфологический словарь не содержит слова 'все-таки', а только отдельные слова 'все' и 'таки'. 'Все-таки' находится в переводном словаре в качестве словосочетания из трех слов 'все', '-', 'таки'.

    Глаголы на -ся
    Глаголы на -ся хранятся отдельно от соответствующих форм без -ся. Им соответствуют различные уникальные номера и эти формы глаголов в морфологическом словаре между собой не связаны. Правда, при пополнении словаря глаголами без 'ся' формы с частицами 'ся' заносятся автоматически, и наоборот.

    Варианты окончаний
    Система поддерживает альтернативные варианты окончаний слов. Так, для слова 'бахча' распознаются формы творительного падежа единственного числа 'бахчой' и 'бахчою'. В принципе можно задавать любое число альтернативных вариантов для любой формы любого морфологического класса. Альтернативные окончания присваиваются всем словам, относящимся к данному морфологическому классу. При анализе слова система сообщает, какая форма слова была найдена - основная или альтернативная.

    Омонимия
    Система содержит достаточно большое число омонимов, многие из которых нужны для автоматического разграничения терминов в переводном словаре. Так, отдельно существуют слова 'результат' и 'результаты', второе из них употребляется только во множественном числе. Таким образом, морфологический анализатор порождает набор омонимов слов и работа с результатами, которые он выдает, требует применения алгоритмов, не использующих прямого перебора возможных уникальных номеров слов.

    Причастия
    При анализе причастия система выдает полный набор сведений, описывающих формы соответствующего ему прилагательного, и указывает, что данное слово является причастием. Приводится тип причастия (действительное или страдательное), время (прошедшее или настоящее) и ссылка на исходный глагол, от которого образовано причастие.

    Признак одушевленности существительных
    Предусмотрен признак одушевленности для существительных, который влияет на форму винительного падежа, однако этот признак задан не для всех существительных.

    Ударения
    Система не содержит информации об ударениях слов.

    Морфологическая информация
    Система распознает следующие формы слов:

    • Два числа и шесть падежей существительных. Для одушевленных и неодушевленных существительных задаются различные формы винительного падежа числа. Для каждого существительного указано, в каком числе оно употребляется. Различаются три варианта: только единственное, только множественное, или единственное и множественное число.
    • Формы трех родов единственного числа, формы множественного числа, одна сравнительная и четыре краткие формы прилагательных. Для каждого прилагательного в словаре указано, существуют ли для него краткие и сравнительная формы.
    • Четырнадцать форм глаголов, а также четыре набора форм фозможных причастий для каждого глагола. Для каждого глагола приводятся ссылки на два действительных причастия (делать - делавший, делающий) и два страдательных (делать - делаемый, деланный). Для каждого глагола указывается, имеется ли у него каждое из страдательных причастий, оба действительных причастия присутствуют по умолчанию.
    • Все остальные слова считаются неизменяемыми. Если возникает необходимость ввода в систему некоторой формы слова, не относящейся ни к одному из перечисленных вариантов, существует возможность ввода в словарь конкретной формы. При анализе таких слов система  сможет определить часть речи, но не характеристики формы.

    Анализ слов

    В результате анализа слова выдается следующая информация:

    • возможные омонимы (например, уже-наречие, уже-от 'уж', уже-от 'узкий')
    • для каждого омонима - перечень возможных форм (например, 'большой' - имен. падеж единственного числа мужского рода, родительный падеж единственного числа женского рода и т.д.)
    • для каждого омонима выдается уникальный номер слова по внутренней классификации Мультитрана
    • для неизвестных слов система может построить вероятный список форм, либо создать список ближайших по написанию правильных слов (режим подсказки).

    Дополнительные возможности анализа слов
    Помимо получения морфологической информации система позволяет осуществлять несложные действия по определению взаимной связи слов в предложении. Реализовано это при помощи функции, проверяющей слова текста на сочетание по заданным признакам. Например, имеется фраза 'действовать с большим размахом'. Можно проанализировать три присутствующие в этой фразе пары слов по следующим критериям: одно слово - прилагательное, другое - существительное, они совпадают по формам Род, Число, Падеж. Очевидно, для третьего и четвертого слова будет получен положительный результат. Процедура сравнения форм слов не зависит от реального рода, числа и падежа слов - анализируется лишь совпадение или несовпадение требуемых форм. Подобные сравнения можно выполнять для любых слов в предложении и любых частей речи, задавая для них соответствующие критерии сравнения. Ответ системы в каждом случае - 'да' или 'нет' - позволяет организовать ветвление алгоритма программы и реализовать на основе этого более сложные конструкции.

    Синтез слов

    Процедура синтеза форм слов основана на той же базе и алгоритмах, что и анализ слов.
    Очевидно, чтобы синтезировать какую-либо форму, следует указать слово, известное системе, и набор требуемых характеристик. Система может синтезировать любую форму слова с заданными характеристиками, включая формы глагола для данного причастия и наоборот.

    Задаются следующие характеристики:

    • Число и падеж для существительных
    • Род, число, падеж, краткая или сравнительная форма для прилагательных и причастий
    • Время, наклонение, лицо и форма деепричастия для глагола
    • Формы причастия синтезируется, исходя из исходной формы глагола с указанием требуемого типа причастия и соответствующей формы прилагательного.

    Пополнение и просмотр морфологического словаря

    Имеются следующие программы для работы с морфологическим словарем:

    Ввод новых слов Мультитран

    • Ручное пополнение словаря новыми словами. Программа представляет собой диалоговое окно с возможностью указания части речи слова. Система позволяет подобрать модель словоизменения путем синтеза ключевых форм слова. Обычно для ввода нового слова требуется ответить на 1-2 вопроса (до 5 вопросов для глаголов). Система ручного пополнения охватывает все морфологические классы, включая классы исключений.  Это самый надежный, хотя и достаточно медленный режим ввода новых слов. Предусмотрена возможность редактирования списка вопросов, которые система задает при вводе нового слова.
    • Автоматическое приведение нового слова к основной форме в зависимости от выбранной части речи. Позволяет ускорить ручной ввод слов. Так, при вводе формы слова 'делавший' и указании, что это глагол, система автоматически изменит основную форму слова на 'делать', что скорее всего правильно и позволяет не редактировать его вручную.
    • Автоматический ввод  новых слов в основной форме. Система позволяет вводить новые слова при условии, что они приведены к основной словарной форме. Этот метод работает для большинства существительных и прилагательных. Глаголы в этом режиме не вводятся из-за большого числа возможных вариантов форм.
    • Автоматический ввод новых слов в любой форме при условии, что окончание нового слова совпадает с каким-либо существующим словом. Позволяет быстро вводить в словарь новые сложные слова и слова с приставками.

    Программа просмотра морфологического словаря Мультитран

    • Поиск слов по алфавиту с просмотром форм всех слов, относящихся к данной основе
    • Удаление слова
    • Ручное редактирование слова
    • Ручное редактирование морфологических свойств слова
    • Исправление опечаток в слове и в свойствах слова. Предоставляется возможность повторного ввода слова через диалог ручного ввода. После этой операции введенное слово замещает существовавшее, причем уникальный номер слова сохраняется. Удобно для исправления опечаток в словах, уникальные номера которых уже используются в других проектах (например, в переводном словаре)
    • Поиск всех слов, относящихся к данному морфологическому классу
    • Поиск слова по уникальному номеру
    • Поиск слов, содержащих заданную подстроку
    • Потоковый перенос слов из одного морфологического класса в другой по определенным условиям с заменой номера класса и автоматическим изменением основы (сокращением или увеличением на заданную подстроку). Удобно при обнаружении ошибки в морфологическом классе.
    • Компиляция таблицы морфологических классов. Таблица классов редактируется в текстовом редакторе. Удобно при обнаружении ошибки в каком-либо классе, добавлении класса, альтернативных окончаний и т.д. Внесенные изменения автоматически распространяются на все слова, относящиеся к данному классу.

    Программа обработки текста Мультитран

    Программа предназначена для потокового исправления опечаток и пополнения морфологического словаря новыми словами из текстового файла. Содержит возможности быстрого вызова всех перечисленных режимов пополнения и коррекции морфологического словаря.

    Аналогичные морфологические модели существуют для английского и немецкого языка


    ..

    http://english-clubs.net/


    Категория: Бесплатные словари | Добавил: english
    Просмотров: 14755 | Загрузок: 65 | Комментарии: 3
    Всего комментариев: 1
    1  
    Доброго дня! А как можно пообщаться с разработчиком программы для возможного приобретеня и совместной работы?

    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Wonderful Fall 2016
    Enjoy Wonderful Autumn!
    Winter is coming soon:


    Поиск на сайте

    Categories
    Бесплатные словари [15]
    Софт для изучения английского языка [1]

    Форма входа

    Поддержите нас!/Support Us!
    WM копилка - Копилка для вашего сайта.

    Ссылки

    Advertisement
  • Хостинг от uCoz


  • Использование информации и материалов с сайта разрешается, при этом гиперссылка http://english-clubs.net/ на наш ресурс ОБЯЗАТЕЛЬНА!
    Speak and Enjoy English for Free!
    Практика и изучение английского языка осуществляется БЕСПЛАТНО! Приходите в наши англ. клубы! www.english-clubs.net Speak and Enjoy English for Free!
    Международная Сеть Английских Дискуссионных Клубов International Network of English Speaking Clubs (English Discussion Clubs) © 2016