Программа обработки параллельных текстов (Программа предназначена для извлечения пар предложений вида "оригинал-перевод") - Бесплатные словари - Раздел Программы для ПК - Каталог файлов - БЕСПЛАТНО Английский Разговорный Клуб с носителями язык
Твой Английский Разговорный Клуб! ENGLISH-CLUBS.NET
| Суббота, 03.12.2016, 07:36
Приветствую Вас Гость | RSS
Главная WWW.ENGLISH-CLUBS.NET | Каталог файлов | Регистрация | Выход
FREE ENGLISH CLUBS Site Menu

Это интересно!
  • Тренинг "Пинатор" Бесплатно – КАК ПОБОРОТЬ ЛЕНЬ, больше заниматься АНГЛИЙСКИМ и всегда добиваться других желаемых целей!

  • Бесплатный онлайн-семинар по эффективному изучению английского ОТ РЕКОРДСМЕНА ПО ЗАПОМИНАНИЮ! Курс подойдет как студентам и школьникам, так и всем желающим!

  • Реклама
    (недорогие б/у ноутбуки)



    http://english-clubs.net/
    Главная » Файлы » Раздел Программы для ПК » Бесплатные словари

    Программа обработки параллельных текстов (Программа предназначена для извлечения пар предложений вида "оригинал-перевод")
    13.03.2010, 12:37



    Программа обработки параллельных текстов

    Программа предназначена для извлечения пар предложений вида "оригинал-перевод" из текстов на иностранном и русском языке.

    У переводчиков часто накапливаются оригинальные и переведённые тексты, содержащих полезную информацию для последующей работы. Системы translation memory позволяют хранить и искать предложения на двух языках. Преимущество очевидно - не нужно дважды переводить одни и те же или похожие фрагменты текста. Однако, извлечение и упорядочивание информации из исходных текстов представляет некоторые трудности. Количество предложений в оригинале и переводе различается, возможны слияния, разделения и пропуски предложений. Всё это мешает корректно распараллеливать тексты и требует значительной ручной работы.


    Инструкции по использованию программы обработки параллельных текстов

    Скачайте архив и извлеките из него файлы, например, в директорию c:\parasent
    Запустите программу parasent.exe и нажмите Старт
    Программа начнет обрабатывать прилагаемый тестовый пример
    Для обработки других пар текстов поместите их в каталог Texts по аналогии с имеющимся там примером

    После окончания обработки в каталоге с исходными текстами будет создан файл с именем 'tab' (без расширения), он содержит предложения оригинала и перевода в формате tab-delimited
    Предварительные результаты обработки сохраняются в файле output.ind11, их можно просматривать в процессе обработки

    Расширение словарых баз
    В предлагаемой для скачивания версии программы содержится 400.000 терминов, на основании которых програмы производит распараллеливание текстов. Чем больше словарная база, тем выше точность обработки.
    Вы можете скачать версию словаря на 1 миллион терминов и переписать в неё файлы parasent.*, а также каталог texts, где будут располагаться тексты для обработки
    Если у Вас установлена полная версия Мультитрана, можно использовать её.

    Ограничения данной версии по сравнению с полной версией
    - используется только 1 миллион терминов из словаря (всего полная версия Мультитрана содержит 4 миллиона англо-русских терминов)
    - обрабатывается первые 500 предложений
    - обрабатывается одна пара текстов.



    Новая программа позволяет просчитать варианты разбиения текстов на предложения, основываясь на данных словаря Мультитран.



    В каталог, используемый для обработки, необходимо скопировать два файла в текстовом формате. В результате обработки создаётся файл с таблицей следующего вида:



    С помощью данной программы уже обработано более ста художественных произведений различных жанров. Результат работы программы представлен в новом разделе сайта - Читальном зале
    В читальном зале можно читать произведения в подлиннике, а подводя курсор мыши к предложениям текста, видеть соответствующее предложение из текста перевода.
    Все тексты обработаны автоматически без участия человека. Программа также сама разбивает тексты на главы и создаёт наборы необходимых файлов для размещения на сайте.

    Конечно, не все тексты обрабатывается правильно. Основной критерий проверки - когда параллельные тексты ни в какой точке не расходятся окончательно. Возможны локальные сбои, происходящие из-за сложного форматирования текста, или пропусков в тексте перевода. В результате для нескольких последующих групп предложений могут быть выданы неверные результаты. Однако, программе часто удаётся вновь найти точное соответствие предложений, и дальше тексты снова выравниваются. Если в дальнейшем просматривать результат в виде таблицы, исправления понадобятся лишь в некоторых строках, но не по всей таблице целиком.

    Тексты, пока ещё не поддающиеся полному распараллеливанию, изучаются для внесения соответствующих изменений в программу, которая сейчас проходит испытания у ряда профессиональных переводчиков. По всем вопросам, связанным с данной программой, обращайтесь к разработчику.

    Целый пропущенный абзац обычно  выводит систему из равновесия. Но это позволяет также контролировать адекватность перевода. В целом программа не сбивается без серьёзных причин и автоматически обрабатывает более 70% художественных текстов. При подготовке базы предложений пропущенные абзацы были выявлены в нескольких переводах известных произведений (правда, файлы скачивались из Интернета и не сверялись с печатным текстом). Более короткие пропуски (1-2 предложения) программа обычно преодолевает самостоятельно.

    Около 200.000 предложений из обработанных текстов добавлено в базу параллельных предложений, работающую на сайте. Поиск в базе предложений объединён с поиском в словаре, поэтому все слова и словосочетания из обработанных текстов в обоих направлениях перевода можно находить непосредственно при запросах к словарю. База параллельных предложений насчитывает около 250.000 единиц (500.000 предложений для обоих направлений перевода), включая и записи, существовавшие до этого.

    При поиске в словаре выдаётся ссылка на базу предложений, если в ней было найдено искомое выражение. В свод очередь, из базы предложений для всех результатов из художественных произведений, выдаются ссылки на оригинальный текст, где найденное предложение подсвечивается.

    В первой версии программы поддерживается английский и русский язык

    Программа обработки параллельных текстов работает со стандартным набором параметров, однако, в более сложных случаях можно использовать индивидуальные настройки:


      



    http://english-clubs.net/


    Категория: Бесплатные словари | Добавил: english
    Просмотров: 3541 | Загрузок: 28 | Комментарии: 3
    Всего комментариев: 2
    2  
    You relaly saved my skin with this information. Thanks!

    1  
    For the love of God, keep writnig these articles.

    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Wonderful Fall 2016
    Enjoy Wonderful Autumn!
    Winter is coming soon:


    Поиск на сайте

    Categories
    Бесплатные словари [15]
    Софт для изучения английского языка [1]

    Форма входа

    Поддержите нас!/Support Us!
    WM копилка - Копилка для вашего сайта.

    Ссылки

    Advertisement
  • Хостинг от uCoz


  • Использование информации и материалов с сайта разрешается, при этом гиперссылка http://english-clubs.net/ на наш ресурс ОБЯЗАТЕЛЬНА!
    Speak and Enjoy English for Free!
    Практика и изучение английского языка осуществляется БЕСПЛАТНО! Приходите в наши англ. клубы! www.english-clubs.net Speak and Enjoy English for Free!
    Международная Сеть Английских Дискуссионных Клубов International Network of English Speaking Clubs (English Discussion Clubs) © 2016