Содержание

что это и как работает. Преимущества

#SEO
#Контекстная реклама

Слово «парсер» (с английского «parse» — «разбор») означает программное обеспечение для парсинга — процесса, выполняющего синтаксический анализ данных. При парсинге содержимое веб-страницы «разбирается» на определенные составляющие. Подобный процесс можно выполнять вручную или при помощи специального программного обеспечения — парсеров.

В качестве объекта парсинга могут рассматриваться самые разнообразные сайты и их контент:

  • интернет-магазины;
  • блоги;
  • социальные сети;
  • форумы;
  • справочники и т. д.

Хороший пример программы-парсера — любой робот (краулер) поисковой системы. Каждый такой ресурс обрабатывает данные с разных веб-сайтов и сохраняет их в своей базе. А после ввода в строку поиска определенного запроса, система выдает пользователю соответствующий результат (результат парсинга).

SEO продвижение для бизнеса

Применение парсинга в маркетинге и SEO

Парсинг сайтов используется для того, чтобы автоматизировать процессы анализа, сбора и хранения определенных данных. С помощью этого процесса можно автоматизировать даже создание и обновление сайтов.

Цели парсинга могут быть самыми разнообразными:

  • сбор контактов определенной группы пользователей;
  • копирование конкретных статей из Википедии;
  • сбор определенных публикаций на сайте с объявлениями и т. д.

Если говорить о SEO-оптимизации сайтов и маркетинге, то в этих отраслях парсинг чаще всего используется для сбора текстового контента с целью его рерайта («уникализации») или для поиска электронных адресов руководителей предприятий, например, для предложения им своих услуг, для подбора ключевых запросов или сбора ключей конкурентов.

Выгоды от применения парсинга

Используя программное обеспечение для парсинга, можно значительно увеличить скорость работы с ключевыми запросами. Правильно настроив такое ПО, можно быстро собрать ключевые слова конкурентов или запросы для продвижения веб-ресурса.

А после того, как парсер закончит сбор ключевых слов, с помощью другого ПО можно выполнить их кластеризацию (распределение по группам) и выбор тех запросов, которые подходят для продвижения конкретного сайта.

Также парсер помогает выполнить технический анализ веб-ресурса и выявить:

  • битые ссылки;
  • технические ошибки;
  • некорректный html-код;
  • неисправные редиректы;
  • уровни вложенности страниц;
  • правильность настройки файла robots.txt и т. д.

Многие онлайн-магазины применяют парсинг на начальном этапе наполнения своего ассортимента. Работает такая схема по принципу:

  1. Загрузка в парсер каталога товаров поставщика.
  2. Выгрузка товаров парсером с определенной площадки (например, из Яндекс.Маркета).
  3. Выполнение анализа и сравнение товаров из каталога поставщика и Яндекс.Маркета.
  4. Добавление идентифицированных товаров в базу данных парсера.
  5. На последнем этапе эти товары загружаются на новый интернет-магазин.

Парсеры могут быть написаны на любом языке программирования (Delphi, PHP, C++ и т. д.), который поддерживает регулярные выражения — наборы мета-символов, которые могут применяться в процессе поиска данных. Сохранение результатов парсинга обычно происходит в файлы формата *.txt, *.sql, *.xml.

Мини-парсер ключевых слов из wordstat.yandex.ru

Сообщение от админа: код парсера обновлен, теперь все снова работает.

Снова я со своими поделками на JavaScript’е

Довольно часто у меня возникает необходимость сохранить немного ключевых слов с wordstat.yandex.ru, в частности, чтобы подобрать анкоры для покупки “вечных” и не очень ссылок. А чтобы не париться с полноценным софтом из-за парсинга всего одной-двух страниц с ключевиками, сделал сегодня кнопку для браузера — “букмарклет” — которая радикально упрощает их ручной сбор, копируя слова по клику и отсекая все лишнее (данные по числу показов у ключей, “+” из текстов и список “Запросы похожие на …”).

Как все это работает?

Больше всего повезло пользователям браузеров Chrome и Opera — им надо просто нажать на букмарклет и… все! Ключевые слова с текущей открытой страницы Яндекс.Вордстата уже в буфере! Никаких лишних действий.

В браузере Firefox и других при нажатии на букмарклет откроется небольшое дополнительное окошко, в котором будут все ключевые слова из текущей открытой страницы Яндекс.Вордстата, они автоматически выделятся. Вам останется лишь кликнуть мышкой по кнопке “Скопировать” в том же окошке или нажать стандартную для копирования комбинацию клавиш CTRL + C. Если кликнете по кнопке, то окошко еще и закроется автоматически, сплошное удобство

Выглядит это окошко примерно вот так:

Как установить эту кнопку-букмарклет?

1. Копируете код скрипта из этого файла.

2. Создаете любую закладку в вашем браузере (называя ее, например, “Парсер Яндекс.Подбор слов”, чтобы сразу была понятна функция будущего букмарклета), выносите ее на панель браузера, чтобы было удобно в нее “тыкать”, когда нужно, а не лазить по меню “Закладок” в поисках.

3. Редактируете эту закладку — в поле “Адрес” вместо того, что было, вставляете код из п.1, сохраняете.

Все, букмарклет готов к использованию.

Как пользоваться букмарклетом?

Переходите на wordstat.yandex.ru, указываете там интересующие вас ключевые слова, когда яндекс выдаст их статистику и варианты, нажимаете на букмарклет и моментально парсите (копируете), таким образом, их себе в буфер.

P.S. Если Яндекс со временем поменяет свой исходный код, из-за чего букмарклет перестанет работать, сообщите мне об этом, пожалуйста, каким-нибудь образом, и я тогда обновлю код парсера, чтобы вернуть его в строй.

Читайте также:

Что чакое парсер и парсинг для создания cайта?

Парсер — это программа, скрипт, макрос оформленные в виде полноценной программы (Yandex parser) или например в виде расширения для браузера (Web parser, email extractor) и как онлайн сервис. Предназначен для анализа и сбора контента в автоматическом режиме с других веб-ресурсов. Применяется преимущественно для сбора текстового контента и картинок.

Парсер простыми средствами способен решать самые сложные задачи, что позволяет пользователям создавать и наполнять свои сайты, затрачивая на это минимум времени. Многие задачи по поисковой оптимизации сайта, можно полностью автоматизировать с применением парсеров. Это анализ, сбор и обработка ценной информации с сайтов. Полностью автоматизировать этот процесс позволяет универсальный парсер сайтов. Например вы можете спарсить любой или свой сайт на компьютер, для просмотра его в офлайн режиме.

Для чего нужен Парсинг и Парсеры?

Для создания сайта и его успешного продвижения требуется большое количество контента, который обычно создается в ручную. Парсинг существенно ускоряет процесс сбора контента и экономит вам до 80% времени.
Особенно парсинг облегчает сбор семантического ядра для сайта. 1000 слов парсер соберет за несколько минут. Вручную на это, может уйти целый день. СЯ это основа любого сайта. От его объема и качества зависит будущее сайта.

Парсинг сайтов – что это такое?

Это глубокий процесс анализа содержимого сайта и сбор нужной информации по заданным условиям из онлайн-ресурсов. Таким образом можно собирать для своих сайтов большое количество нужного контента в автоматическом режиме. Этим пользуются в основном интернет магазины. Это дает возможность владельцам быть всегда в курсе всех изменений на сайтах конкурентов. Что предоставляет Вам большой шанс, чтобы быть впереди своих конкурентов. Ведь конкуренция в интернете становиться год от году, все сильнее и жестче.

Какие данные можно спарсить?

  • Список товаров, цен, описаний
  • Изображения
  • Текст
  • Ключевые слова
  • Мета данные
  • Страницы с ошибками (404)
  • Email адреса
  • Номера телефонов
  • Каталоги
  • Объявления
  • Служебную информацию
  • Полностью весь сайт целиком
  • Адреса и многое другое
  • Звук

Парсер — граббер, служит оптимальным решением для быстрого и автоматического сбора контента в сети.

Также Парсер, является незаменимым инструментом для продвижения бизнеса в социальных сетях. Ведь проделать всю работу по сбору информации вручную, слишком долго, трудозатратно и неэффективно.
Бесплатные парсеры могут значительно помочь на начальном этапе развития ваших проектов. Для последующего развития лучше применять платные решения, эффективность которых будет на порядок выше.

что это такое простыми словами и как правильно парсить данные — OKOCRM

Спектр задач, которые решаются с помощью парсера – основной параметр выбора. Вот основные разновидности парсеров по сферам применения:

Парсеры для организаторов совместных покупок (СП)

Предназначены для сбора данных о магазинах в социальных сетях, продающих свои товары мелким оптом по сниженной цене. Это парсеры с узким функционалом:

  • сбор товаров из интернет-магазинов и социальных сетей
  • выгрузка товаров из альбомов и каталогов соцсетей
  • сохранение информации в форматы XLS и CSV
  • автообновление блоков информации, например, цен

Отличаются понятным интерфейсом, могут быть реализованы разными способами: браузерная версия, приложение на компьютер и смартфон. Настройки простые: какие страницы парсить, расписание проверок, группы для выгрузки.

Примеры приложений такого типа:

Сервисы мониторинга конкурентов

Полезные сервисы для аналитики предложений ваших конкурентов. Они помогают поддерживать ваши предложения в соответствии с рынком. Например, если конкурент повысит или понизит цену, вы узнаете об этом первым и скорректируете свое поведение в соотвествии с рынком. Пример приложения для этих целей – Marketparser.

Сбор данных и автонаполнение контентом

Когда на сайте тысячи страниц, наполнение и обновление контента превращается в непосильную задачу. Чтобы не мониторить сайты конкурентов и поставщиков в ручную и не собирать с них информацию, можно использовать специальные сервисы. Парсер соберет информацию, выгрузит в таблицу или сразу на ваш сайт. В настройках таких приложений можно указать размер наценки, собирать данные сразу с нескольких сайтов и задать систематические проверки и анализ сайтов с автообновлением контента. Сервис для автонаполнения сайта – Диггернаут.

Многофункциональные парсеры

Это сервисы с широким функционалом, способны собирать данные для наполнения сайта, проверять разные SEO-параметры, мониторить цены конкурентов.

Примеры решений:

  • ParseHub – мощный облачный парсер с широким функционалом. Может собирать цены, контакты, маркетинговую информацию, SEO-параметры
  • Datacol – его особенность в работе с широким перечнем источников. Способен доставать данные из соцсетей, с сайтов-конкурентов, из Яндекс Карт

SEO-парсеры

Эти сервисы нужны, чтобы проверить техническое состояние сайта и качество оптимизации. Вот основные задачи, которые решаются с их помощью:

  • сбор всех страниц сайта с основными параметрами качества
  • проверка качества оптимизации изображений
  • поиск битых ссылок и других проблем
  • проверка качества внутренней перелинковки: какая страница, куда ссылается
  • сбор сведений о технической оптимизации

Самые популярные SEO-парсеры: Screaming Frog SEO Spider, Netpeak Spider.

Извлечение текста и изображений из документов в Интернете

Извлечение текста и изображений из документов с высокой скоростью. Получите редактируемый и доступный для поиска текст из Word, PDF, HTML, электронных книг.

Чтение текста или изображений из Word, HTML, PDF, электронных книг. Используйте их в другом документе, презентации или веб-странице. Забудьте о трате драгоценного времени на выполнение этих операций вручную! Aspose предлагает вам это гибкое и простое в использовании приложение для анализа документов, продвигая полнофункциональное текстовое решение и повышая эффективность вашей офисной работы.

Гибкий Бесплатный онлайн-анализатор документов предназначен для извлечения текста и изображений из файлов Word, PDF, веб-файлов и электронных книг в отдельные файлы. С помощью этого гибкого инструмента для извлечения текста вы можете легко получить текст практически из любого формата документа, включая форматы Microsoft Word и OpenOffice.

Простой анализ файла и чтение текста

Aspose Document Parser основан на браузере. Не требуется установка плагинов или программного обеспечения. Это абсолютно бесплатно. Извлечение всего текста и изображений реализовано с помощью Aspose API.

Программная платформа Aspose Words

Онлайн-приложение Parser было создано на основе программной платформы Aspose Words. Наша компания разрабатывает современные высокопроизводительные решения для обработки документов для различных операционных систем и языков программирования:

Шаг 3 из 3

Давайте свяжемся с вами по поводу ваших отзывов?

Если вы введете адрес электронной почты, ваш вопрос будет автоматически опубликован на форуме бесплатной поддержки Aspose и рассмотрен нашими специалистами.В ближайшее время вы получите подробный ответ от службы поддержки.

Ваш адрес электронной почты

Прикрепите мои файлы для анализа проблемы

Отправлять

 

Неверный адрес электронной почты:

Вы все равно хотите продолжить?

Назад
да

Большое спасибо за ваш отзыв!
Мы очень ценим это!

Наши продукты становятся лучше и лучше с каждым днем ​​с вашей помощью!

Если вам нравится наше приложение, вы можете порекомендовать нас своим друзьям и коллегам в социальных сетях:

Как извлечь данные из документов MS Word с помощью Python | Натали Оливо

В этом блоге подробно рассказывается о локальном извлечении информации из документов Word.Поскольку многие компании и роли неотделимы от Microsoft Office Suite, этот блог полезен для всех, кто сталкивается с данными, передаваемыми в форматах .doc или .docx.

В качестве предварительного условия на вашем компьютере должен быть установлен Python. Для тех из вас, кто делает это на работе, у вас, вероятно, нет прав администратора. В этом блоге объясняется, как установить Anaconda на компьютер с Windows без прав администратора.

Блокнот, поддерживающий этот блог, можно найти здесь.

Изображение, созданное с помощью Microsoft Word и поисковых запросов Google «Microsoft Word Logo» и «Python Logo»

Мы воспользуемся преимуществом XML-макета каждого документа Word.Оттуда мы будем использовать библиотеку регулярных выражений, чтобы найти каждый URL-адрес в тексте документа, а затем добавить URL-адреса в список, что идеально подходит для выполнения циклов for.

 #специально для извлечения информации из документов Word 
import os
import zipfile #другие инструменты, полезные для извлечения информации из нашего документа import xml.dom.minidom
  • os позволит вам перемещаться и находить нужные файлы в вашей операционной системе
  • zipfile позволит вам извлечь xml из файла
  • xml.dom.minidom для анализа XML-кода

Сначала нам нужно направить наш код на открытие файлов в том месте, где они хранятся. Чтобы увидеть это из наших блокнотов (вместо того, чтобы открывать проводник), мы можем использовать os . Хотя знание пути к одному интересующему файлу избавляет от необходимости использовать os в этом простом примере, эту библиотеку можно позже использовать для создания списка документов, хранящихся в целевой папке. Наличие списка документов, хранящихся в папке, полезно, если вы хотите написать цикл for для извлечения информации из всех документов Word, хранящихся в папке.

Чтобы просмотреть список файлов в текущем каталоге, используйте одну точку в пути к файлу os :

 os.listdir('.') 

Чтобы просмотреть список файлов в каталоге над вашим текущим местоположением, используйте двойную точку:

 os.listdir('..') 

Как только вы найдете, где хранятся ваши текстовые документы, вы сможете преобразовать найденный файл с путем к файлу в файл zipfile.ZipFile тип, который для наших целей может быть прочитан.

Формат файла ZIP является общепринятым стандартом архивирования и сжатия

https://docs.python.org/3/library/zipfile.html

 document = zipfile.ZipFile('../docs/TESU CBE 29 Оценка должностных инструкций сотрудника — окончательное утверждение.docx')#document будет иметь тип файла zipfile.ZipFile 

Теперь для объекта .read() класса zipfile требуется аргумент имени, который отличается от имени файла или пути к файлу.

 ZipFile.read(name, pwd=None) 

Чтобы увидеть примеры доступных имен, мы можем использовать документ .name() object

.namelist() 

В блокноте Jupyter Notebook для этого блога я исследую некоторые из этих имен, чтобы показать, что они из себя представляют. Имя с основным текстом документа Word — «word/document.xml»

Я нашел технику красивой печати в ответе пользователя StackOverflow Нейта Болтона на вопрос: «Красивая печать XML в Python».

Мы будем использовать красивый шрифт только для того, чтобы помочь нам идентифицировать шаблоны в XML для извлечения наших данных. Я лично не очень хорошо знаю XML, поэтому я буду полагаться на синтаксические шаблоны, чтобы найти каждый URL-адрес в тексте нашего документа Word.Если вы уже знаете свой синтаксический шаблон для извлечения данных, вам может вообще не понадобиться красиво печатать его.

В нашем примере мы видим, что символы >http и < окружают каждую гиперссылку, содержащуюся в тексте документа.

Мне нужно выполнить нашу задачу по сбору всего текста между вышеупомянутыми символами. Чтобы помочь с тем, как это сделать с помощью регулярного выражения, я использовал следующий вопрос StackOverflow, который содержит то, что я ищу в начальном запросе: регулярное выражение для поиска строки, заключенной между двумя символами, при ИСКЛЮЧЕНИИ разделителей.

Хотя я хочу сохранить http , я не хочу сохранять < или > . Я внесу эти изменения в элементы списка, используя нарезку строк и понимание списка.

 link_list = re.findall('http.*?\<',xml_str)[1:] 
link_list = [x[:-1] for x в link_list]

Чтобы просмотреть полный блокнот Jupyter, стоящий за этим блогом, кликните сюда!

Если вы заинтересованы в создании и написании документов MS Word с помощью Python, ознакомьтесь с библиотекой python-docx.

Существуют и другие методы извлечения текста и информации из документов Word, такие как библиотеки docx2txt и docx, описанные в ответах на следующий пост форума Python.

Перевод и разбор латинских слов

Часть речи
---AdjectiveAdverbConjunctionInterjectionNounNumeralPrepositionPronounVerb

Возраст
---Современный - неологизмыКлассический (~150 г. до н.э. - 200 г. н.э.)Архаичный - очень ранние формы, устаревшие к классическим временамРанний - ранняя латынь, доклассическая, используемая для эффекта/поэзииПоздняя - латынь, не использовавшаяся в классические времена (6-10) ХристианинСредневековый - Средневековый (11-15 вв.)Ученый - Латинская почта 15-й - Ученый/Научный (16-18)Поздний - Поздний, постклассический (3-5 вв.)Все/Другое

Площадь
--- Сельское хозяйство, Флора, Фауна, Земля, Оборудование, Сельская Биология, Медицина, Части телаГрамматика, Реторика, Логика, Литература, ШколыЮридические, Правительство, Налоги, Финансы, Политические, НазванияДрама, Музыка, Театр, Искусство, Живопись, СкульптураМифологияЦерковная, Библейская, РелигияВойна, Военные, Военно-морские силы, Корабли, БроняВсе или ничегоПоэтическиеТехнические, Архитектура, Топография, Геодезические науки, Философия, Математика, Единицы измерения

Регион
---ПерсияИталия, РимРоссияАфрикаБританияНидерландыВосточная ЕвропаВсе или ничегоИндияГрецияКитайЕгипетБалканыБлижний ВостокФранция, ГаллияГерманияСкандинавияИспания, Иберия

Частота
---ГраффитиТолько надписиОбычные - 10 000 первых словОчень частые: 1000 первых словЧастота: 3000 первых словНеобычные: 2 или 3 цитатыОчень редко (hapax legomenon)Только в естественной истории Плиния Менее распространенные - 20 000 первых словНеизвестно или не указано

Источник
--- Оксфордский латинский словарь, 1982 г. (СТАРЫЙ) Другое Рой Дж.Deferrari, Dictionary of St. Thomas Aquinas, 1960 (DeF) Прислано пользователем — словарная ссылка отсутствует Collatinus Dictionary by Yves Ouvrard Vademecum in opus Saxonis — Franz Blatt (Saxo) The уважаемый WhitakerДругие, цитируемые или неуказанные словариLatham, Revised Medieval Word List, 1980 (Latham) )Gildersleeve + Lodge, Latin Grammar 1895 (G+L)Найдено в переводе — без ссылки на словарьLewis and Short, A Latin Dictionary, 1879 (L+S)Plater + White, A Grammar of the Vulgate, Oxford 1926 (Plater) CHBeeson, A Primer of Medieval Latin, 1925 (Bee) Leverett, F.P., Lexicon of the Latin Language, Boston 1845Souter, A Glossary of Later Latin to 600 AD, Oxford 1949 (Souter)Lewis, CS, Elementary Latin Dictionary 1891 General or unknown or too common to sayBracton: De Legibus Et Consuetudinibus AngliaeCharles Beard, Cassell's Латинский словарь 1892 г. (Cas) LFStelten, Словарь Эклза. Latin, 1995 (Ecc) Calepinus Novus, современная латынь, Гай Ликопп (Cal) Линн Нельсон, Wordlist (Nel) JNAdams, Latin Sexual Vocabulary, 1982 (Sex)

источников знаний для составного анализа немецкого языка, морфологически богатого и менее конфигурационного языка | Компьютерная лингвистика

Большая часть методологии синтаксического анализа при обработке естественного языка была разработана для английского языка, и большинство публикаций по синтаксическому анализу посвящены синтаксическому анализу английского языка.Английский — сильно конфигурационный язык. Почти вся синтаксическая информация, необходимая любому приложению НЛП, может быть получена с помощью конфигурационного анализа (например, с помощью правильного синтаксического анализа составляющих).

Многие другие языки мира принципиально отличаются от английского в этом отношении. На другом конце конфигурационно-неконфигурационного спектра мы находим такой язык, как венгерский, в котором очень мало фиксированной структуры на уровне предложения.Если оставить в стороне вопрос о внутренней структуре NP, большая часть синтаксической информации на уровне предложения в венгерском языке передается морфологией, а не конфигурацией.

В этой статье мы обращаемся к немецкому языку, третьему типу языка, занимающему промежуточное положение между английским и венгерским. Немецкий язык имеет сильные конфигурационные ограничения (например, главные предложения являются вторыми глаголами), а также богатую деривационную и флективную морфологию, все из которых должны быть смоделированы для высококачественного синтаксического анализа.Промежуточный статус немецкого языка поднимает при разборе ряд интересных вопросов, которые имеют особое значение для смешанных конфигурационно-морфологических языков, но — как мы покажем — имеют общее значение для морфологически богатых языков. Частично это так, потому что мало (если вообще есть) языков, архетипически являющихся чисто конфигурационными и чисто неконфигурационными (например, морфология также важна для английского языка, и даже венгерский имеет конфигурационные ограничения). За неимением лучшего термина мы ссылаемся на промежуточные языки, типизированные немецким языком, как MR&LC для морфологически богатых и менее конфигурационных .

Часть мотивации для этого специального выпуска заключается в том, что большая часть работы по синтаксическому анализу на сегодняшний день была выполнена на английском языке, морфологически простом языке. По мере того, как компьютерная лингвистика расширяет свое внимание за пределы английского языка, становится важным использовать более общий подход к синтаксическому анализу, который может работать с языками, которые типологически сильно отличаются от английского. Богатая морфология (RM) — одна из очень важных характеристик языка, влияющая на разработку методов синтаксического анализа.Мы утверждаем, что есть два других свойства языков, которые важны при анализе языков RM: синкретизм и конфигурационность. Эти два свойства типологически коррелируют с RM, и поэтому их следует учитывать при анализе языков RM. 1

Сначала мы определяем три свойства и объясняем их значимость для синтаксического анализа. Большое количество языков, для которых выполняется это соотношение, можно упорядочить по одному измерению, которое можно интерпретировать как степень морфологической сложности.Мы приводим примеры для ряда языков, находящихся в разных точках этой шкалы. Наконец, мы утверждаем, что точно так же, как языки, находящиеся на противоположном конце спектра от английского (типичные примеры морфологического богатства, такие как венгерский), требуют методов синтаксического анализа, которые могут сильно отличаться от оптимальных для английского языка, то же самое верно и для такого языка, как Немецкий, который находится в середине спектра, и то, что требуется, в некоторых отношениях отличается от того, что оптимально для одной крайности (английский) или другой (венгерский).

Три взаимосвязанных свойства: богатая морфология, синкретизм и конфигурационность. Морфологическое богатство можно грубо измерить количеством различных морфологических форм, которые может иметь слово определенной синтаксической категории; например, типичное английское существительное имеет две формы (единственное и множественное число), типичное немецкое существительное имеет восемь форм (единственное и множественное число в четырех разных падежах), а типичное венгерское существительное имеет несколько сотен форм.Синкретизм относится к тому факту, что разные морфологические формы имеют одинаковую поверхностную реализацию; например, форма Mann («мужчина» на немецком языке) может быть в именительном, дательном или винительном падеже единственного числа от Mann в зависимости от контекста. Конфигурация относится к степени, в которой расположение слов и словосочетаний определенной синтаксической функции в предложении фиксировано. Английский язык очень конфигурален: он имеет ограниченную гибкость в том, как основные фразы в предложении (подлежащее, глагол, прямое дополнение, косвенное дополнение и т.) можно заказать. Венгерский и латинский языки очень гибкие: даже несмотря на прагматические ограничения, в принципе большое количество возможных порядков являются грамматическими. Немецкий язык менее конфигурабелен. Он имеет некоторые строгие ограничения (глагол second в главных предложениях, глагол final в придаточных предложениях), но также и некоторые свойства неконфигурационного языка; например, порядок фраз в mittelfeld (часть главного предложения, заключенная между двумя частями глагольного комплекса) очень гибкий.

Очевидно, почему конфигурационность и богатая морфология типологически (отрицательно) соотносятся. Богатая морфология определяет синтаксическую роль фразы в предложении, поэтому фиксация позиции не требуется, и поэтому многие морфологически богатые языки не фиксируют позицию. И наоборот, простая морфология дает мало конкретной информации о роли слов и словосочетаний в предложении. Одним из приемов, часто используемых в морфологически простых языках для решения этой проблемы и уменьшения широко распространенной двусмысленности, является фиксирование порядка слов и фраз в предложении.

Эффект синкретизма подобен упрощению сложной морфологии. Простая морфология неспецифична в отношении грамматической функции, поскольку использует небольшое количество морфологических категорий. Синкретизм неспецифичен в отношении грамматической функции, потому что он страдает высокой степенью двусмысленности. Несмотря на то, что количество различных морфологических категорий потенциально велико, синкретические формы объединяют многие из этих категорий, так что эти формы гораздо менее полезны для определения грамматической функции, чем формы в несинкретическом языке с таким же количеством категорий.Опять же, чтобы противодействовать коммуникативным трудностям, которые может создать отсутствие морфологической специфичности, в синкретических языках часто используются более строгие ограничения на порядок и конфигурацию.

Мы использовали английский и венгерский языки в качестве примеров для крайних значений, а немецкий – для середины спектра. Теперь мы приведем примеры других языков и их позиции на шкале. Голландский похож на немецкий тем, что он также является вторым глаголом в главных предложениях и конечным глаголом в придаточных предложениях.Однако порядок аргументов в mittelfeld гораздо более ограничен, чем в немецком языке. В то же время голландская морфология в последние века значительно упростилась, чем немецкая. Это прекрасно подтверждает корреляцию между RM и конфигурацией. Таким образом, голландский язык находится между английским и немецким по шкале.

Классический арабский язык чем-то похож на немецкий: количество различных морфологических форм примерно сопоставимо с немецким языком, и он допускает несколько различных порядков слов.Однако носители современного стандартного арабского языка редко отмечают регистр, по крайней мере, в спонтанной речи. В то же время носители современного стандартного арабского языка используют порядок SVO гораздо чаще и постояннее, чем в случае классического арабского языка. Таким образом, классический арабский язык находится примерно на том же месте, что и немецкий, в то время как разговорный современный стандартный арабский язык может быть более сопоставим с голландским.

Наконец, новогреческий язык является промежуточным между немецким и венгерским.Он имеет более богатую морфологию, чем немецкий, но имеет изрядную долю синкретизма и, следовательно, большую морфологическую неоднозначность, чем венгерский. SVO является преобладающим порядком слов в современном греческом языке, но могут использоваться и другие порядки слов. Порядок внутри именной группы более гибкий, чем в немецком: прилагательные могут стоять перед существительным или следовать за ним.

В приведенных нами примерах количество информации, передаваемой морфологической формой, отрицательно коррелирует с количеством информации, передаваемой конфигурацией.Если морфология передает много информации (из-за большого количества различений и отсутствия синкретизма), то порядок слов более свободный и несет меньше информации. Если морфология передает меньше информации (из-за меньшего количества различий или большего синкретизма), то конфигурация является фиксированной и предоставляет говорящему больше информации. Это говорит о том, что RM и конфигурация являются важными переменными, которые следует учитывать при разработке методов синтаксического анализа. В дополнение к рассмотрению крайних точек спектра, представленных английским и венгерским языками, мы должны также исследовать середину: морфологически (в некоторой степени) богатые языки, которые менее конфигурационны.В этой статье мы рассмотрим на примере немецкого языка.

Один из ключевых вопросов для синтаксического анализа MR&LC заключается в том, какой тип формализма синтаксического анализа следует принять: избирательный округ или зависимость. Широко распространено мнение, что структуры зависимостей лучше подходят для представления синтаксического анализа морфологически богатых языков, потому что они допускают непроективные структуры (эквивалент прерывистых составляющих при анализе групп).Как Царфати и др. (2010) отмечают, однако, что это не то же самое, что доказательство того, что синтаксические анализаторы зависимостей работают лучше, чем синтаксические анализаторы групп для анализа морфологически богатых языков. На самом деле, большинство современных синтаксических анализаторов зависимостей (Макдональд и Перейра, 2006; Холл и Нивр, 2008; Сикер и др., 2010a) генерируют чисто проективные структуры зависимостей, которые при необходимости преобразуются в непроективные структуры на этапе постобработки. . Сопоставимые методы постобработки использовались при разборе английских округов (Gabbard, Marcus, and Kulick, 2006; Schmid, 2006; Cai, Chiang, and Goldberg, 2011) для выявления прерывистых составляющих и могут работать и для других языков.

В обзорном документе Parsing German Shared Task (Kübler 2008) сообщается о более высокой точности обнаружения грамматических функций с помощью синтаксических анализаторов зависимостей, чем с составными синтаксическими анализаторами, но прямое сравнение некорректно, так как требуется, чтобы границы фраз были правильными на составной стороне, в то время как токены были единицей оценки на стороне зависимости. 2 Как провести абсолютно честное сравнение двух представлений — все еще открытый исследовательский вопрос. 3

Составные синтаксические анализы часто предоставляют больше информации, чем синтаксические анализы зависимостей. Примером может служить неопределенность координации у 90 177 стариков и женщин 90 178 по сравнению с 90 177 стариками и детьми 90 178. Правильный составляющий анализ для первого выражения содержит координацию на уровне существительного, тогда как анализ для второго выражения координируется на уровне NP. Структуры зависимостей обоих выражений, с другой стороны, обычно идентичны и поэтому не могут отразить тот факт, что старых изменяет женщин , но не детей .В принципе, можно закодировать разницу в деревьях зависимостей (см. Rambow 2010), например, обогащая метки ребер, но составное представление для этого явления проще.

Наконец, есть некоторые приложения, которым требуется синтаксический анализ составляющих, а не синтаксический анализ зависимостей. Например, многие иерархические системы статистического машинного перевода используют синтаксический анализ составляющих, требуя, чтобы выходные данные синтаксического анализатора зависимостей были преобразованы в синтаксический анализ составляющих. 4 Мы пришли к выводу, что нет четких доказательств предпочтения синтаксического анализа зависимостей синтаксическому анализу округов при анализе языков с RM, и вместо этого утверждаем, что исследования в обеих структурах важны.

Мы рассматриваем подробное описание системы анализа групп для морфологически богатого языка, системы, которая решает основные проблемы, возникающие при анализе групп для MR&LC, как один из наших основных вкладов в эту статью.

Первая проблема, которую мы решаем, — это распространение правил структуры фраз в языках MR&LC. Например, существует большое количество возможных порядков фраз в немецком mittelfeld, и многие из них чрезвычайно редки. Стандартный синтаксический анализатор не может надежно оценить вероятности соответствующих правил.

Решение, которое мы здесь принимаем, — это марковизация — сложные правила разлагаются на небольшие однонаправленные правила, которые можно моделировать и оценивать более надежно, чем сложные правила.Хотя марковизация сама по себе не нова, здесь мы подчеркиваем ее важность для языков MR&LC и представляем подробный воспроизводимый отчет о том, как мы используем ее для немецкого языка. Марковизация сочетает в себе лучшее из обоих миров для языков MR&LC: предпочтительная конфигурационная информация может быть формализована и использована синтаксическим анализатором без слишком большого снижения производительности из-за проблем с разреженными данными.

Вторая проблема, которую необходимо решить при анализе многих языков MR&LC, — широко распространенный синкретизм.В основном мы обращаемся к синкретизму, используя высокопроизводительный морфологический анализатор на основе конечных автоматов. Такой анализатор имеет очевидное значение для любого морфологически богатого языка, поскольку производительность морфологически богатых языков значительно увеличивает долю неизвестных слов в новом тексте по сравнению с морфологически бедными языками. Таким образом, синтаксический анализатор не может просто запомнить грамматические свойства слов в Treebank, используемом для обучения. Вместо этого мы включаем в наш синтаксический анализатор сложный угадыватель, который на основе входных данных морфологического анализатора предсказывает грамматические свойства новых слов и (что не менее важно) ненаблюдаемые грамматические свойства известных слов.При господствующем синкретизме эта задача гораздо сложнее, чем в языке, где падеж, род, число и т. д. могут быть детерминистически выведены из морфологии.

Морфологический анализатор основан на (i) конечной формализации немецкой морфологии и (ii) большом словаре морфологически проанализированных немецких слов. Мы называем эти два компонента вместе лексическими знаниями . Мы показываем, что лексические знания полезны для производительности синтаксического анализа для языка MR&LC, такого как немецкий.

В дополнение к лексическому знанию существует второй важный аспект синкретизма, который необходимо учитывать в языках MR&LC. Синтаксическое устранение неоднозначности в этих языках всегда должно включать обе системы грамматического кодирования, морфологию и конфигурацию, действующие вместе. Наиболее естественный способ сделать это в таком языке, как немецкий, — выполнить интеграцию двух источников знаний непосредственно как часть синтаксического анализа.Мы делаем это, аннотируя составные метки с грамматической функцией, где это уместно. В отличие от синтаксических анализов сильно конфигурационных языков, таких как английский, синтаксические анализы немецкого бесполезны для большинства задач без указания грамматических функций. Невозможно даже получить доступ к базовой подкатегории глагола (например, к определению подлежащего) без грамматических функций. Мы утверждаем, что языки MR&LC, такие как немецкий, всегда должны оцениваться по меткам-с-грамматической-функцией.

Наш последний основной вклад в эту статью касается того факта, что мы считаем, что языки MR&LC порождают большую неоднозначность, чем языки, которые являются преимущественно конфигурационными или морфологическими. В качестве примера рассмотрим немецкое предложение «Die [the] Katze [кошка] jagt [охотится] die [the] Schlange [змея]». По-немецки охотником может быть либо кошка, либо змея. Этот тип двусмысленности не встречается ни в строго конфигурационном языке, таком как английский (где конфигурация определяет грамматическую функцию), ни в морфологически богатом языке, таком как венгерский, который не имеет или имеет небольшой синкретизм (где морфология определяет грамматическую функцию).Хотя морфология и конфигурация в языках MR&LC часто работают рука об руку для полного устранения неоднозначности, во многих предложениях ни один из них не предоставляет необходимой информации для устранения неоднозначности. Мы считаем, что эта отличительная черта языков MR&LC делает необходимым использование дополнительных источников знаний. В этой статье мы рассмотрим два таких источника знаний: одноязычное переранжирование (которое фиксирует глобальные свойства правильно построенных синтаксических анализов для дополнительного устранения неоднозначности) и двуязычное переранжирование (использующее параллельный текст на другом языке для устранения неоднозначности).

Для одноязычного переранжирования мы определяем новый набор расширенных функций на основе фреймов подкатегоризации. Мы сравниваем наш компактный набор функций с разреженным набором функций, разработанным Версли и Ребейном (2009) для немецкого языка. Мы показываем, что более богатая структура, основанная на подкатегориях, для одноязычного переранжирования эффективна; он имеет сравнимую производительность с разреженным набором функций, более того, они дополняют друг друга.

Для двуязычного переранжирования мы представляем наш подход к синтаксическому анализу битекста, где находится немецкий синтаксический анализ, минимизирующий синтаксическое расхождение с автоматически сгенерированным синтаксическим анализом его английского перевода. Мы придерживаемся этого подхода по ряду причин. Во-первых, одним из ограничивающих факторов синтаксических подходов к статистическому машинному переводу является качество синтаксического анализа (Quirk and Corston-Oliver 2006). Улучшенный анализ битекста должен привести к улучшению машинного перевода.Во-вторых, по мере того, как все больше и больше текстов доступно на нескольких языках, будет все больше и больше случаев, когда анализируемый текст сам является частью битекста. В-третьих, мы надеемся, что улучшенный анализ битекста может служить более качественными обучающими данными для улучшения одноязычного анализа с использованием процесса, аналогичного самообучению (McClosky, Charniak, and Johnson 2006a).

Мы показываем, что три разных источника знаний, которые мы используем в этой статье (лексические знания, одноязычные и двуязычные особенности), ценны по отдельности.Мы также показываем, что выигрыш от двух наборов признаков переранжирования (одноязычных и двуязычных) является аддитивным, предполагая, что они охватывают разные типы информации.

Полученный синтаксический анализатор в настоящее время является лучшим составным синтаксическим анализатором для немецкого языка (с двуязычными функциями или без них). В частности, мы показываем, что базовый синтаксический анализатор без повторного ранжирования конкурентоспособен с предыдущим уровнем техники (парсером Беркли) и что повторное ранжирование может дать важный выигрыш.

Как и в Schiehlen (2004), мы автоматически дополняем аннотацию Tiger2 дополнительными аннотациями функций. Наш набор аннотаций больше, чем у Schiehlen. В дополнение к аннотациям функций мы также выполняем некоторые преобразования дерева, которые уменьшают сложность грамматики. Во всех оценках мы используем исходные (проективированные) деревья синтаксического анализа Tiger в качестве золотого стандарта и преобразуем деревья синтаксического анализа, сгенерированные нашим парсером, в тот же формат, отменяя преобразования и удаляя дополнительные функции.В оставшейся части этого раздела мы объясняем используемые нами преобразования дерева. В следующем разделе описываются аннотации функций. 5

Унарные правила ветвления. Банк Tiger Treebank избегает одинарных узлов ветвления. NP и другие фразовые категории, которые доминируют только над одним узлом, обычно опускаются. Предложение Sie zögern [Они колеблются], например, анализируется как (S-TOP (PPER-SB Sie) (VVFIN-HD zögern)) без явного NP или VP.Отсутствие унарных узлов ветвления увеличивает количество правил, поскольку теперь, например, в дополнение к правилу S-TOP → NP-SB VVFIN-HD требуется правило S-TOP → PPER-SB VVFIN-HD.

Чтобы уменьшить проблемы с разреженными данными, мы вставляем унарные узлы ветвления и преобразуем этот анализ в (S-TOP (NP-SB (PPER-HD Sie)) (VVFIN-HD zögern)) путем добавления узла NP с грамматической функция (ГФ) местоимения. ГФ местоимения, в свою очередь, заменяется на HD (голова).Такие унарные ветвящиеся NP добавляются поверх существительных (NN), местоимений (PPER, PDS, PIS, PRELS), кардиналов (CARD) и сложных имен собственных (PN), в которых преобладают S, VP, TOP или DL . 6 узлов. 7 Преобразование является обратимым, что позволяет восстановить исходную аннотацию.

Добавляя, например, одноветвящийся узел NP-SB, мы вводим дополнительное допущение независимости, а именно, мы предполагаем, что расширение подлежащего NP не зависит от других аргументов и дополнений глагола (правдоподобное допущение, которое подтверждается улучшением производительности).

Ликвидация НК. Tiger обычно использует грамматическую функцию HD для обозначения начала фразы. Однако в случае NP и PP GF головы - NK (существительное ядро). Та же ГФ присваивается также прилагательным и определителям именной группы. Заменим NK на HD, чтобы сократить набор символов. 8

Ликвидация CJ. Tiger аннотирует каждое соединение в соответствии со специальной грамматической функциональной меткой CJ. Заменяем CJ на грамматическую функцию сочиняемого словосочетания. Это превращение также обратимо.

Выборочная лексикализация. Маркируем POS-теги частых предлогов в [в], от [от, из], на [на], дурч [через, с помощью], под [под] , um [вокруг, в] и их варианты относительно заглавных букв (т.g., Unter ) и включение артиклей (например, unters , unterm ) с признаком, который идентифицирует предлог. Это можно рассматривать как ограниченную форму лексикализации. Таким же образом «лексикализуем» и сочинительные союзы (КОН-СД) sowohl [а также], als [а], weder [ни], ночь [нор], entweder [либо], и или [или], если перед ним стоит entweder . На рис. 2 показан пример.

Рисунок 2

Разбор фразы weder in Berlin noch in Frankfurt [ни в Берлине, ни во Франкфурте] до и после выборочной лексикализации предлогов и союзов. В этом примере также показана замена грамматических функциональных признаков CJ и NK, обсуждавшихся в предыдущем разделе. Модифицированные детали напечатаны жирным шрифтом .

Рисунок 2

Разбор фразы weder in Berlin noch in Frankfurt [ни в Берлине, ни во Франкфурте] до и после выборочной лексикализации предлогов и союзов.В этом примере также показана замена грамматических функциональных признаков CJ и NK, обсуждавшихся в предыдущем разделе. Модифицированные детали напечатаны жирным шрифтом .

Пунктуация в предложениях. Если узел предложения (S) имеет одноуровневый узел, помеченный POS-тегом «$». который доминирует над вопросительным знаком или восклицательным знаком, то узел предложения и тег POS аннотируются с помощью quest или excl , поэтому грамматика моделирует разные типы предложений.

Дополнительное приспособление. Адъюнкты часто различаются предпочтительными сайтами прикрепления. Поэтому мы аннотируем PP и наречия (AVP, ADV, ADJD) одним из признаков N, V ​​или 0, которые указывают на номинального родителя (NP или PP), глагольного родителя (VP, S) или что-либо еще, соответственно. . В случае наречных фраз (AVP) метка распространяется на главный дочерний элемент.

Особенности относительного предложения. Во многих относительных предложениях (S-RC) относительное местоимение (PRELS, PRELAT, PWAV, PWS) встроено внутрь другого компонента. В этом случае все узлы на пути между местоимением и узлом предложения помечаются признаком rel . Кроме того, мы добавляем функцию norel в относительные предложения, если относительное местоимение не найдено. На рис. 3 показан пример.

Рисунок 3

Разбор фразы die Surfen sagen und Freiheit meinen [кто говорит серфинг и имеет в виду свобода ] до и после аннотации с признаками относительного предложения.В этом примере также показана функция nosubj , которая будет обсуждаться позже.

Рисунок 3

Разбор фразы die Surfen sagen und Freiheit meinen [кто говорит серфинг и имеет в виду свобода ] до и после аннотации с признаками относительного предложения. В этом примере также показана функция nosubj , которая будет обсуждаться позже.

Характеристики Втч. Подобно признаку rel , присваиваемому фразам, которые доминируют над относительным местоимением, мы используем признак wh , который присваивается всем NP и PP, которые непосредственно доминируют над wh-местоимением (PWAT, PWS, PWAV). Эта функция лучше ограничивает позиции, в которых могут возникать такие NP и PP.

Функция последовательности существительных. Если два существительных встречаются вместе в немецком NP (как в drei Liter Milch [три литра () молока] или Ende Januar [конец (из) января]), то первое существительное обычно является своего рода мерой. имя существительное.Мы помечаем его функцией seq .

Фрагменты имен собственных. Некоторые именные группы, такие как Frankfurter Rundschau , Junge Union , Die Zeit , используются как имена собственные. В этом случае грамматическая функция NP — PNC. Чтобы ограничить существительные и прилагательные, которые могут встречаться внутри таких фрагментов имен собственных, мы помечаем их POS-теги функцией name .

Предикативные точки доступа. Сложные адъективные фразы (AP) либо атрибутивно используются в качестве модификаторов существительных внутри NP или PP, либо предикативно в других местах. Чтобы лучше смоделировать два типа AP, мы помечаем AP, которые преобладают над предикативным прилагательным (ADJD), с помощью признака до . 9

Номинальные напоры ЗД. Иногда глава AP является существительным, например, (AP drei Millionen) Mark [три миллиона марок] или ein (AP politisch Verfolgter) [политически преследуемый человек]. Мы помечаем эти точки доступа функцией под номером .

Номера года. Годы, такие как 1998 , могут появляться в местах, где другие числа не могут. Поэтому теги POS с номерами между 1900 и 2019 помечены годом . 10

Функция типа предложения для союзов. Тип придаточного предложения и подчинительного союза сильно коррелированы. Немецкие объектные предложения (S-OC) обычно начинаются с dass [что] или ob [ли]; предложения-модификаторы (S-MO) часто начинаются с wenn [если], weil [потому что] или als [когда]. Мы помечаем подчинительные союзы предложений-аргументов (S-OC), предложений-модификаторов (S-MO), подлежащих предложений (S-SB) и вывихнутых предложений (S-RE) с признаком ( OC , MO , SB или RE ), идентифицирующий тип статьи.Например, без этой функции предложения-аргументы существительных часто неправильно анализируются как модификаторы главного предложения.

Особенности ПО. VP, которые начинаются с конечных глаголов, инфинитивов, причастий прошедшего времени, императивов и zu инфинитивов, используются в разных контекстах. Поэтому мы помечаем объектные ВП (ВП-ОС) соответствующим признаком. При разборе предложения Alle Räume mü ssen mehrfach gesäubert und desinfiziert werden [все помещения должны быть многократно очищены и продезинфицированы; все комнаты должны быть …], эта функция позволяет синтаксическому анализатору правильно координировать два причастия прошедшего времени VP mehrfach gesäubert и desinfiziert вместо причастия прошедшего времени VP mehrfach gesäubert и инфинитива VP desinfiziert werden .

Фразы без заголовка. У некоторых фраз в корпусе Tiger отсутствует заголовок. Это часто встречается в координации. Все фразы, у которых нет дочернего узла с одной из грамматических функций HD, PNC, AC, AVC, NMC, PH, PD, ADC, UC или DH, помечаются функцией nohead .

Статьи без темы. Мы также помечаем конъюнктные предложения с признаком nosubj , если они не возглавляются императивом и не содержат дочернего узла с грамматической функцией SB (подлежащее) или EP (ругательство). Это полезно для правильного разбора координации, когда субъект опускается во втором соединении.

Tiger Treebank использует довольно плоские структуры, в которых узлы имеют до 25 дочерних узлов.Это вызывает проблемы с разреженными данными, потому что только некоторые из возможных правил такой длины фактически появляются в обучающем корпусе. Проблема разреженных данных решается марковизацией (Коллинз, 1997; Кляйн и Мэннинг, 2003), которая разбивает длинные правила на набор более коротких. Более короткие правила генерируют дочерние узлы исходного правила один за другим. Сначала слева направо генерируются левые братья и сестры главного потомка правила, затем справа налево генерируются правые братья и сестры. Наконец, создается голова.На рис. 4 показана марковизация правила NP → NM NN PP PP.

Рисунок 4

Марковизация правила NP → NM NN PP PP.

Рисунок 4

Марковизация правила NP → NM NN PP PP.

Используемые здесь вспомогательные символы кодируют информацию о родительской категории, главном дочернем элементе и ранее сгенерированных дочерних элементах.Поскольку все вспомогательные символы кодируют категорию головы, голова уже выбрана первым правилом, но только позже фактически сгенерирована последним правилом.

Общая форма вспомогательных символов: 〈 direction:parent[head]next 〉, где направление — L, M или R, parent — символ в левой части правила, head — это заголовок в правой части правила, — следующий, — символ, который будет сгенерирован следующим, а — предыдущий, — это символ, который был сгенерирован раньше.Вспомогательные функции, начинающиеся с L, генерируют дочерние элементы слева от головы. Вспомогательные функции, начинающиеся с R, аналогичным образом генерируют дочерние элементы справа от головы и самой головы. Вспомогательный элемент, начинающийся с M, используется для переключения с генерации левых дочерних элементов на создание правых дочерних элементов. Каждое правило содержит информацию о родительском, головном и (обычно) трех дочерних символах (которые могут включать воображаемый граничный символ). Первое правило кодирует триграмму левой границы NM NN .Второе правило является исключением, которое кодирует только биграмму NM NN . Третье правило кодирует триграмму PP PP правая граница . Последнее правило снова является исключением и кодирует только NN PP . Не существует правила, охватывающего триграмму, состоящую из головы и двух ее непосредственных соседей.

Наша стратегия марковизации преобразует только те правила, которые встречаются в обучающих данных менее 10 раз.Если один из вспомогательных символов, введенных марковизацией (например, 〈L:NP[NN]NN|NM〉), в целом используется менее 20 раз (значения двух порогов были оптимизированы на части данных разработки), это заменяется более простым символом 〈L:NP[NN]NN〉, который кодирует меньший контекст. Таким образом, мы переключаемся с триграммной модели (где следующий дочерний элемент зависит от двух предыдущих дочерних элементов) к биграммной модели (где он зависит только от предыдущего дочернего элемента), чтобы избежать проблем с разреженными данными. Этот метод аналогичен стратегии марковизации Кляйна и Мэннинга (2003), за исключением того, что они маркируют все правила.Мы смоделировали их стратегию, подняв порог частоты правила до большего значения, но получили худшие результаты. Мы также попробовали альтернативную стратегию марковизации, которая генерирует всех дочерних элементов слева направо (у вспомогательных символов теперь отсутствует флаг направления, а правила охватывают все возможные триграммы), но снова получили худшие результаты. Недостатком нашего метода марковизации являются ложные неоднозначности. Они возникают из-за того, что некоторые немаркированные правила также охватываются правилами марковизации.

Представляя каждый источник знаний, мы хотели бы сравнить его с аннотированными вручную банками деревьев. Наша первая оценка показывает, что наш генеративный парсер, представленный в предыдущем разделе, сравним с генеративным парсером Беркли. Прежде чем представить это сравнение в разделе 4.1, мы обсудим оценку точности синтаксического анализа.

В наших оценках мы используем Tiger Treebank (Brants et al.2002) и небольшой банк деревьев Europarl (Padó and Lapata 2009). Мы берем первые 40 474 предложения банка деревьев тигров в качестве обучающих данных (Tiger train), следующие 5000 предложений в качестве данных разработки (Tiger dev) и последние 5000 предложений в качестве тестовых данных (Tiger test). Данные Europarl состоят из 662 предложений 15 и либо полностью используются в качестве тестовых данных и не делятся, либо мы провели семикратные эксперименты по перекрестной проверке с нашими моделями переранжирования.

Все синтаксические анализаторы оцениваются на проективизированных деревьях синтаксического анализа.Это означает, что мы применяем шаг 1 процесса извлечения грамматики, описанного в разделе 3.1, к тестовым анализам и используем результат в качестве золотого стандарта (за исключением множества Падо, которое уже проективизировано). Тестовые предложения анализируются, и результирующие деревья анализа преобразуются в тот же формат, что и деревья золотого стандарта, путем отмены шагов 2, 3 и 4 из раздела 3.1. Это преобразование включает четыре шага:

  • 1. 

    Демарковизация удаляет все вспомогательные узлы, введенные марковизацией, и поднимает их дочерние узлы до следующего не вспомогательного узла.

  • 2. 

    Добавленные узлы одинарного ветвления удаляются.

  • 3. 

    Восстановлены исходные грамматические функциональные обозначения NK внутри NP и PP и CJ внутри согласованных словосочетаний.

  • 4. 

    Все аннотации объектов удаляются.

Мы используем показатели PARSEVAL (Black et al. 1991) и стандартный инструмент оценки evalb 16 для сравнения преобразованных деревьев синтаксического анализа с деревьями синтаксического анализа золотого стандарта с использованием помеченного F-показателя.Мы сообщаем о точности для всех тестовых предложений, а не только для предложений длиной до 40. Мы не оцениваем синтаксические анализаторы с POS-тегами золотого стандарта, а вместо этого автоматически выводим их. Эти соображения делают наши настройки оценки максимально приближенными к реальным условиям.

Мы сообщаем результаты оценок с использованием грамматических функций и без них. Мы сообщаем баллы PARSEVAL с грамматическими функциями в скобках после результатов, используя только основные составляющие категории.Мы считаем, что грамматические функции являются важной частью синтаксического анализа для любых последующих приложений в менее конфигурационных языках, таких как немецкий, потому что без них невозможно провести важные различия (например, различие между подлежащим и дополнением). Следует отметить, что наши результаты нельзя напрямую сравнивать с ранее опубликованными результатами по корпусу Tiger2 (Kübler 2008; Versley and Rehbein 2009; Seeker et al. 2010b), потому что в каждом из предыдущих исследований использовались разные части корпуса и есть различия. в метрике оценки, а также.Преобразованный корпус (в нашем разделенном формате обучения, разработки и тестирования) и сценарии оценки, которые мы использовали, доступны, 17 , которые, как мы надеемся, позволят провести прямое сравнение с нашими результатами.

Мы представляем здесь несколько новых функций на основе подкатегорий для одноязычного переранжирования. Для этого мы сначала опишем наш алгоритм извлечения информации о подкатегориях (subcat).Мы используем нашу расширенную версию тренировочного комплекта Tiger2. Чтобы извлечь кадры вербального подкаталога, мы находим все узлы, помеченные категорией S (пункт) или VP-MO (модифицирующий VP), и извлекаем их аргументы. Аргументы 22 являются узлами категорий, показанных в таблице 2. Аргументы существительных получаются путем поиска узлов NN , над которыми либо доминирует NP , либо PP , и которые берут следующий узел категории PP , VP-OC или S-OC в качестве аргумента.

Таблица 2

Аргументы, используемые в извлеченных кадрах подкатегории.

Proav-Op

NP-SB, PN-SB, CNP-SB, S-SB, VP-SB Субъекты
NP-OA, PN-OA, CNP-OA Direct Объекты
NP-DA, PN-DA, CNP-DA Косвенные объекты
PRF-OA рефлексивные прямые объекты
PRF-DA рефлексивные косвенные объекты
NP-PD, CNP-PD
AXDD-PD, AP-PD, CAP-PD
S-OC, CS-OC Аргумент клауса
PP-OP, CPP-OP PP Аргументы
VP-OC / ZU

40018
Proom Наречия INAL, служащие как прокси PP, такие как Дараус [из этого]
NP-EP
VP-Re, NP-Re VP / NP, появляющиеся в ругательстве

90 631 клауты аргумента

0

NP-SB, PN-SB, CNP-SB, S-SB, VP-SB Тема
NP-OA, PN-OA, CNP-OA Прямые объекты
NP-DA, PN-DA, CNP-DA Косвенные объекты
PRF-OA Reflexive Directies
PRF-DA Рефлексивный косвенный Объекты
NP-PD, CNP-PD

AXD-PD, AP-PD, CAP-PD Предварительные прилагательные
S-OC, CS- ОС  
PP-OP, CPP-OP PP PP Arguments
VP-OC / ZU
1 40018

Proav-Op Proominal Как PP прокси, такие как Даран [из этого]
NP-EP

VP-RE, NP-RE VP / NP, появляющиеся в русходовых конструкциях

Функции признаков, которые мы представляем, в основном лексикализованы.Это означает, что нам нужен доступ к заглавным словам аргументов. Заголовки аргументов извлекаются следующим образом: В качестве заголовка NP мы берем последний узел, метка функции которого либо HD , либо NK , либо PH . Если этот узел относится к категории NP или PN , мы рекурсивно выбираем голову этого компонента. Точно так же головная часть AP является последним узлом с функциональной меткой HD . Если это AP , внутри него ищется головка.В случае PP s мы извлекаем два заголовка, а именно предлог (или послелог), а также именной заголовок PP , который находится по тем же правилам, что и для NP s. Также извлекаем корпус номинальной головки.

Извлечение словесных голов несколько сложнее. Чтобы получить правильный глагольный заголовок предложения независимо от положения глагола (глагол-первый, глагол-второй, глагол-конечный), мы извлекаем все глаголы, в которых преобладает предложение, и, возможно, пустую последовательность VP-OC. или VP-PD (статический пассивный) и дополнительный узел VZ-HD .Затем мы берем первый неконечный глагол или, альтернативно, первый конечный глагол, если все глаголы были конечными. Чтобы избежать проблем с разреженными данными, вызванных множеством различных флексий немецких глаголов, мы лемматизируем глаголы.

В случае сочиненных словосочетаний мы берем голову первого конъюнкта. Аргументы сортируются, чтобы расположить их в четко определенном порядке. Например, при правильном разборе предложения Statt [вместо] Details [details] zu [to] nennen [имя], hat [имеет] er [он] unverdrossen [усердно] die [the] «Erfolgsformel» [ формула успеха] wiederholt [повторяется] , что означает «вместо того, чтобы называть детали, он усердно повторял формулу успеха», извлекаем два подкадра:

Теперь мы можем описать наши особенности.Особенности сосредоточены на кадрах подкатегории, взятых из узлов S (VP-MO рассматривается как S), а также на прикреплении предлогов и союзов к существительным. Мы определяем функции условной вероятности и взаимной информации (MI).

Двумя условными вероятностными функциями являются ProbPrepAttach и ProbAdverbAttach , которые вычисляют вероятность того, что каждый предлог или наречие будет присоединено к своему регулятору, учитывая метку регулятора.Мы оцениваем это по обучающим данным следующим образом на примере признака PP. При подсчете признаков мы присваиваем каждому вложению предлога оценку, которая представляет собой отрицательный log10 вероятности преп , этикетка _ регулятор )/ f ( этикетка _ регулятор ) (с отсечкой 5).

Для всех других наших одноязычных функций мы используем (отрицательную) точечную взаимную информацию: − log 10 ( p ( a , b )/ p p 907 8 9177 19077 ( b )) (здесь мы используем отсечки 5 и −5).

MI_NounP и MI_NounConj дают оценку предлога или союза, прикрепленного к существительному (с учетом лексикализованного предлога и лексикализированного существительного).

Для функции MI_VSubcat мы используем как a фрейм (без лексикализации), а как b головной глагол. p ( a ) оценивается как относительная частота этого кадра среди всех кадров, извлеченных из поезда Tiger2. MI_VSimpleSubcat — это более простая версия MI_VSubcat . PP исключен из фреймов, потому что PP часто является дополнением, а не аргументом.

Для функции MI_VArg мы используем в качестве a функцию аргумента и заглавное слово аргумента (т.g., OBJ:Buch, что означает « книга », используемая в качестве объекта). Как b мы снова используем головной глагол. Оценка p ( a ) равна частоте (OBJ:Buch)/(общее количество извлеченных кадров). 23 23 23 Кроме того, эта функция уточна в индивидуальных особенностях для разных видов аргументов: mi_vsubj , mi_vobj , mi_viobj , mi_vpp , mi_vprf , mi_vs_oc , mi_vvp , а также MI_VerbPROAV .Например, MI « lesen, OBJ:Buch » (чтение, объект:книга) будет использоваться для функций MI_VArg и для функции MI_VObj. Для таких функций, как MI_VPP , которые начинаются как с функционального слова (здесь — предлога), так и со слова содержания, используется только функциональное слово (без учета регистра).

Последняя функция MI — MI_VParticle . Некоторые немецкие глаголы содержат отделяемую частицу, которую также можно рассматривать как наречие, но тогда она будет иметь другое значение.Для предложения « Und [и] фрау [миссис] Кюнаст [(собственное имя)] Bringt [приводит] das [что] auch [также] nicht [не] rüber [поперек] », если « rüber » анализируется как наречие, глагол означает переносить / брать / переносить [в другое физическое место], но если его рассматривать как частицу, предложение означает, что фрау Кюнаст не может это объяснить. Функция MI_VParticle помогает устранить неоднозначность такого рода.

Мы повторно оцениваем 100 лучших списков из BitPar (Schmid 2004), в котором используется процедура извлечения грамматики и лексические ресурсы, представленные в разделе 3.В каждом из экспериментов мы извлекали грамматику из поезда Tiger и использовали ее для получения 100 лучших синтаксических анализов предложений оценочного корпуса.

Мы обучили модели переранжирования поезда Tiger, как описано в разделе 6, используя наши функции на основе подкатегорий, набор функций Versley09 и объединение этих двух наборов. Мы оценили модели на Tiger dev, Tiger test и Europarl. Поскольку домены Tiger и Europarl совершенно разные, помимо оценки междоменного синтаксического анализатора (CROSS) мы также провели оценку внутри домена (IN).В последнем случае мы следовали подходу с семикратной перекрестной проверкой, то есть модели переранжирования обучались на шести седьмых Europarl. Результаты представлены в таблице 3.

Таблица 3

Показатель PARSEVAL для одноязычных функций для повторного ранжирования синтаксических анализов Europarl (семисторонняя перекрестная проверка 662 предложений) и Tiger2 (наборы для разработки и тестирования).


.

Тигр Дев


.

Тигровый тест


.

Европарл КРЕСТ


.

Европарл IN


.

Исходные 82.42 (72.36) 76.84 (65.91) 77,13 (66,06)
подкатегорию 83.19 (73.63) 77.65 (67.21) 77.23 (66.13) 77,73 (66,95)
Versley09 83.56 (73,89) 78.57 (68.42) 77,82 (66,87) 77.62 (66.05)
подкатегорию + Versley09 84,19 (74,96) 78.86 (69.04) 77.76 (66.84) 77,93 (66,75)

.

Тигр Дев


.

Тигровый тест


.

Европарл КРЕСТ


.

Европарл IN


.

Исходные 82.42 (72.36) 76.84 (65.91) 77,13 (66,06)
подкатегорию 83.19 (73.63) 77.65 (67.21) 77.23 (66.13) 77.73 (66.95)
Verspley09 83.56 (73,89) 78.57 (68.42) 77.82 (66.87) 77.62 (66.05)
Subcat + Verspley09 84.19 (74.96) 78,86 (69,04) 77,76 (66,84) 77,93 (66,75)

Результаты, представленные в таблице 3, показывают, что модели переранжирования обеспечивают улучшение по сравнению с базовым синтаксическим анализатором с использованием как нашего набора функций, так и набора функций Versley09. Набор функций Versley09 показал лучшие результаты, чем наши одноязычные функции, когда дан обучающий набор данных достаточного размера (Tiger). С другой стороны, использование наших 16 расширенных функций (по сравнению с 117 000 разреженных функций) больше подходит для настроек, в которых доступно лишь ограниченное количество обучающих экземпляров (обучающие наборы состоят из 567 предложений Europarl с семикратной перекрестной проверкой). .Модели переранжирования, использующие объединение наборов признаков, близки к сумме улучшений двух отдельных наборов признаков. Функции подкатегоризации моделируют обширную нелокальную информацию, а детализированные функции хорошо фиксируют локальные различия, а функции, основанные на веб-корпусе, получают доступ к дополнительным знаниям.

Мы провели эксперимент, добавляя по одной функции за раз, и обнаружили, что наиболее эффективными функциями были ProbAdverbAttach , MI_VPP , MI_VPRF , MI_VSubj и MI_VArg .После этого вариация, вызванная числовой нестабильностью, была слишком высокой, чтобы можно было увидеть последовательный прирост от остальных функций. Мы пришли к выводу, что эти признаки можно надежно оценить и они обладают большей дискриминационной силой, чем другие, но мы подчеркиваем, что в наших экспериментах мы использовали все признаки.

На рис. 5 показано дерево синтаксического анализа, созданное синтаксическим анализатором BitPar, в котором именное словосочетание diese Finanzierung неправильно классифицировано как объект винительного падежа.Функции одноязычной подкатегоризации MI_VSubcat , MI_VSimpleSubcat и MI_VArg позволяют модулю повторного ранжирования правильно анализировать именное словосочетание как подлежащее и перемещать его с уровня VP на уровень S.

Рисунок 5

Ошибочный синтаксический анализ, произведенный BitPar, который исправлен одноязычными функциями.

Рисунок 5

Ошибочный синтаксический анализ, произведенный BitPar, исправленный одноязычными функциями.

Теперь мы представляем нашу двуязычную систему переранжирования. Это следует за нашей предыдущей работой (Fraser, Wang, and Schütze 2009), в которой были определены функции признаков для переранжирования синтаксических анализов английского языка, но теперь мы будем использовать те же самые функции признаков (и три дополнительные функции признаков, введенные для захвата явлений выше в синтаксическом дереве), чтобы переранжировать немецкие разборы. Интуиция использования этого типа функции проецирования битекста заключается в том, что неоднозначные структуры в одном языке часто соответствуют однозначным структурам в другом.Наши характеристические функции являются функциями гипотетического английского синтаксического анализа e , немецкого синтаксического анализа g и выравнивания слов a , и они присваивают оценку (варьирующуюся от 0 до бесконечности), которая измеряет синтаксическое расхождение . Выравнивание пары предложений — это функция, которая для каждого английского слова возвращает набор немецких слов, с которыми выравнивается английское слово. Значения функции признаков рассчитываются либо путем получения отрицательного логарифма вероятности, либо с помощью эвристической функции, которая масштабируется аналогичным образом. 24

Определяемые нами функции двуязычных признаков — это функции, измеряющие различные типы синтаксических расхождений между английским и немецким разборами. Чарняк и Джонсон (2005) определили современное состояние делового анализа синтаксиса английского языка с помощью n -лучших избирательных округов (без использования самообучения). n -лучший вывод их генеративного парсера дискриминационно переранжируется с помощью переранжировщика.Мы называем это CJRERANK. Мы будем использовать массив функций признаков, измеряющих синтаксическое расхождение немецких синтаксических анализов-кандидатов с проекцией английского синтаксического анализа, полученного из CJRERANK.

В наших экспериментах мы используем английский текст параллельного Treebank, извлеченный из корпуса Europarl и аннотированный Падо и Лапатой (2009). Есть 662 немецких предложения, которые выровнены с отдельными английскими предложениями; это набор, который мы используем.Из-за ограниченного количества деревьев мы выполняем перекрестную проверку для измерения производительности.

Основная идея наших характеристических функций заключается в том, что любой компонент в предложении должен играть примерно ту же синтаксическую роль и иметь такой же объем, что и соответствующий компонент в переводе. Если есть очевидное несоответствие, оно, вероятно, вызвано неправильным присоединением или другими синтаксическими ошибками при синтаксическом анализе.Иногда при переводе меняется синтаксическая роль данной смысловой составляющей; мы предполагаем, что наша модель одинаково наказывает все гипотетические синтаксические анализы в этом случае.

Чтобы определить, какие функции описывать здесь, мы провели жадный эксперимент по добавлению функций (добавляя по одной функции за раз) поверх нашей лучшей одноязычной системы (сочетая наборы функций subcat и Versley09 ). Во всех двуязычных экспериментах используются все функции (а не только функции, которые мы здесь описываем).Доступны определения. 25

BitPar LogProb (единственная одноязычная функция, используемая в двуязычном эксперименте) — это отрицательная логарифмическая вероятность, назначенная BitPar немецкому синтаксическому анализу.

Подсчет функций объектов Подсчет нарушений ограничений проекции.

Функция CrdBin подсчитывает бинарные события, включающие заголовки согласованных фраз.Если у нас есть координация, в которой английский CC выровнен только с немецким KON, и оба имеют двух братьев и сестер, то значение, внесенное в CrdBin , равно 1 (указывая на нарушение ограничения), если только начало английского левого конъюнкта не выровнено с голова немецкого левого конъюнкта и правые конъюнкты также выровнены.

Feature Q просто фиксирует несоответствие между вопросами и утверждениями.Если немецкое предложение анализируется как вопрос, а параллельное английское предложение — нет, или наоборот, значение признака равно 1; в противном случае значение равно 0,

.

Функция S-OC считает, что клаузальный объект (OC) в немецком синтаксическом анализе должен быть спроецирован на простое декларативное предложение на английском языке. Эта функция подсчитывает нарушения.

EngPPinSVP проверяет, присоединяется ли PP внутри S или VP на английском языке к той же (спроецированной) составляющей на немецком языке.Если английский PP следует непосредственно за VP или отдельным глаголом, а вся составляющая помечена буквами «S» или «VP», то PP следует идентифицировать как управляемый VP. В этом случае соответствующий немецкий ПП должен присоединяться также к немецкому ВП, на который проецируется английский ВП (присоединение в немецком языке может быть как слева, так и справа). Если губернатор на немецком языке не окажется VP или имеет тег, начинающийся с «V», к признаку для этого немецкого разбора будет добавлено значение 1.

EngLeftSVP проверяет, присоединяется ли левый элемент S или VP в английском языке к тому же (спроецированному) компоненту в немецком языке (где присоединение может быть левым или правым).Эта функция подсчитывает нарушения.

Функции проекции пролета. Функции проекции пролетов вычисляют абсолютную или процентную разницу между пролетом компонента и пролетом его проекции. Размер диапазона измеряется в символах или словах. Чтобы проецировать составляющую в синтаксическом разборе, мы используем выравнивание слов, чтобы спроецировать все позиции слов, охваченные составной частью, а затем ищем наименьшую покрывающую составляющую в разборе параллельного предложения.

PPParentPrjWord проверяет правильность прикрепления PP. Он проецирует все родительские элементы PP в английском синтаксическом анализе на немецкий и суммирует все различия между диапазонами. Измеряется словами. В дополнение к PPParentPrjWord мы реализуем две дополнительные функции: NonPPWord и NonPPPer . Первый просто подсчитывает количество слов, которые не относятся к фразам PP в предложении, а второй вычисляет долю не-PP в посимвольной манере.Их можно рассматривать как настраиваемые параметры, которые регулируют PPParentPrjWord , чтобы не отдавать предпочтение большим PP. Другие выбранные функции проекции описаны в таблице 4.

Таблица 4

Выбраны другие функции проецирования; см. ранее упомянутую веб-страницу 25 для точных определений.

POSParentPrjWordPerG2E   Вычисляет разницу в диапазоне между всеми родительскими составляющими тегов POS в немецком разборе и их соответствующим охватом в соответствующем английском разборе, измеренную с использованием процентного покрытия предложения словами.Значение признака представляет собой сумму всех различий. Направление проекции с немецкого на английский.
AbovePOSPrjPer   Направление проецирования с английского на немецкий и измеряется в процентах от охвата предложений с использованием символов, а не слов. Значение признака рассчитывается по всем составляющим выше уровня POS в дереве английского языка.
AbovePOSPrjWord   Вычисляет разницу в длине с использованием слов.
POSPar2Prj   Применяется только в том случае, если у родительского тега POS есть два дочерних элемента (у тега POS есть только один родственный элемент). Проектирует с английского на немецкий и вычисляет разницу в длине символов.
POSPar2PrjPer   Вычисляет разницу в процентах на основе символов.
POSPar2PrjG2E   Аналогично POSPar2Prj , кроме проектов с немецкого на английский.
POSPar2PrjWordG2E   То же, что и POSPar2PrjG2E , за исключением того, что используются различия на основе слов.
POSParentPrjWordPerG2E   Вычисляет разницу в диапазоне между всеми родительскими составляющими тегов POS в немецком разборе и их соответствующим охватом в предложении соответствующего английского разбора, измеренным в словах. Значение признака представляет собой сумму всех различий.Направление проекции с немецкого на английский.
AbovePOSPrjPer   Направление проецирования с английского на немецкий и измеряется в процентах от охвата предложений с использованием символов, а не слов. Значение признака рассчитывается по всем составляющим выше уровня POS в дереве английского языка.
AbovePOSPrjWord   Вычисляет разницу в длине с использованием слов.
POSPar2Prj   Применяется только в том случае, если у родительского тега POS есть два дочерних элемента (у тега POS есть только один родственный элемент).Проектирует с английского на немецкий и вычисляет разницу в длине символов.
POSPar2PrjPer   Вычисляет разницу в процентах на основе символов.
POSPar2PrjG2E   Аналогично POSPar2Prj , кроме проектов с немецкого на английский.
POSPar2PrjWordG2E   То же, что и POSPar2PrjG2E , за исключением того, что используются различия на основе слов.

Функции вероятностных признаков. Мы используем Europarl (Koehn 2005), из которого мы извлекаем параллельный корпус примерно из 1,22 миллиона пар предложений, для оценки функций вероятностных признаков, описанных в этом разделе.

Мы описываем признак PTag , несмотря на то, что он не был выбран при анализе признака, потому что было выбрано несколько вариантов (описанных далее). PTag измеряет несоответствие тегов на основе оценки вероятности того, что каждое английское слово имеет конкретный тег POS, учитывая выровненный тег POS немецкого слова. Чтобы избежать зашумленных значений признаков из-за выбросов и ошибок синтаксического анализа, мы ограничили значение PTag равным 5. 26 Мы используем относительную частоту для оценки этого признака. Когда английское слово выровнено с двумя словами, оценка усложняется. Мы эвристически даем каждой паре английского и немецкого языков один счет.Значение, рассчитанное функцией признаков, представляет собой среднее геометрическое 27 парных вероятностей.

Функция PTagEParent измеряет несоответствие тегов на основе оценки вероятности того, что родитель английского слова в позиции i имеет конкретный тег, учитывая выровненную метку POS немецкого слова. PTagBiGLLeft измеряет несоответствие тегов на основе оценки вероятности того, что каждое английское слово имеет определенный тег POS, учитывая выровненную метку немецкого слова и слово слева от выровненной метки немецкого слова. PTagBiGParent измеряет несоответствие тегов на основе оценки вероятности того, что каждое английское слово имеет определенный тег POS, учитывая выровненную метку немецкого слова и метку родителя немецкого слова.

Разбор битекста также рассматривался Burkett and Klein (2008). В этой работе они используют функции признаков, определенные на тройках (английское дерево синтаксического анализа, китайское дерево синтаксического анализа, выравнивание), которые объединены в логарифмическую модель, как и мы.В более поздних работах (Burkett, Blitzer, and Klein, 2010) они разработали единую совместную модель для решения той же проблемы с использованием слабо синхронизированной грамматики. Для обучения этих моделей они используют небольшой параллельный банк деревьев, который содержит деревья золотого стандарта для параллельных предложений на китайском и английском языках, в то время как деревья золотого стандарта требуются только для языка, который мы переранжируем. Еще одно важное отличие заключается в том, что Беркетт и Кляйн (2008) используют большое количество автоматически сгенерированных функций (определяемых в терминах шаблонов генерации функций), в то время как мы используем небольшое количество тщательно разработанных функций, которые мы обнаружили в результате лингвистического анализа параллельных корпусов.Беркетт, Блитцер и Кляйн (2010) используют подмножество функций Беркетта и Кляйна (2008) для синхронизации, наряду с функциями одноязычного синтаксического анализа и выравнивания. Наконец, самообучение (Макклоски, Чарняк и Джонсон, 2006b) — еще одно отличие нашей работы. Мы используем вероятности, оцененные на основе синтаксических анализов CJRERANK на английском языке и синтаксических анализов BitPar на немецком языке большого корпуса Europarl в наших двуязычных функциях признаков. Эти функциональные функции используются для улучшения ранжирования немецких парсеров BitPar в отложенных наборах тестов, что является формой самообучения.

Два других интересных исследования в этой области — исследования Фоссума и Найта (2008 г.) и Хуана, Цзяна и Лю (2009 г.). Они улучшают вложение английских предложных фраз, используя особенности китайского предложения. Однако, в отличие от нашего подхода, они не требуют китайского синтаксического анализа, поскольку порядок слов в китайском языке достаточен для однозначного определения правильной точки присоединения предложной фразы в английском предложении без использования китайского синтаксического анализа.

Мы не знаем ни одной другой работы, в которой исследовалось бы, в какой степени одноязычные и двуязычные особенности в переранжировании синтаксического анализа дополняют друг друга. В частности, работа Burkett and Klein (2008) по синтаксическому анализу битекста не затрагивает вопрос о том, является ли (частично) аддитивным эффект одноязычных и двуязычных функций при переранжировании синтаксического анализа.

Мы демонстрируем двуязычное улучшение для сильного синтаксического анализатора немецкого языка.Ранее мы продемонстрировали двуязычное улучшение синтаксического анализа английского языка с помощью нелексикализированного синтаксического анализатора (Fraser, Wang, and Schütze 2009), используя 34 из 37 двуязычных функций, которые мы используем в этой работе.

определение слова parse в The Free Dictionary.

1.

а. Разбить (предложение) на составные части речи с объяснением формы, функции и синтаксических отношений каждой части.

б. Чтобы описать (слово), указав его часть речи, форму и синтаксические отношения в предложении.

в. Для обработки (лингвистических данных, таких как речь или письменный язык) в режиме реального времени, когда они произносятся или читаются, для определения их лингвистической структуры и значения.

2.

а. Чтобы изучить внимательно или подвергнуть подробному анализу, особенно путем разбивки на компоненты: «Что мы упускаем, разбирая поведение шимпанзе на общепринятые категории, признанные в основном из нашего собственного поведения?» (Стивен Джей Гулд).

б. Чтобы понять; понять: я просто не мог разобрать, что вы только что сказали.

3. Компьютеры Для анализа или разделения (например, ввода) на более легко обрабатываемые компоненты.

т. вн.

Признать подлежащими разбору: предложения, которые нелегко разобрать.


[Вероятно, от среднеанглийского pars, часть речи , от латинского pars (ōrātiōnis), часть (речи) ; см. perə- в индоевропейских корнях.]


парсер н.

Словарь английского языка American Heritage®, пятое издание. Авторские права © 2016, издательство Houghton Mifflin Harcourt Publishing Company. Опубликовано издательством Houghton Mifflin Harcourt Publishing Company. Все права защищены.

parse

(pɑːz) vb

1. (Grammar) присвоить составную структуру (предложению или словам в предложении)

2. (Grammar) ( intr 5) слово или языковой элемент) играть определенную роль в структуре предложения

3. (Информатика) вычисления для анализа исходного кода компьютерной программы, чтобы убедиться, что она структурно правильна, прежде чем она будет скомпилирована и преобразована в машинный код (речь)]

PURSable ADJ

разборки

N

Collins English Personsiance Collinsiance - полное и неверное, 12-е издание 2014 © Harpercollins Publishers 1991, 1994, 1998, 2000, 2003, 2006, 2007 год. , 2009, 2011, 2014

разбор

(pɑrs, pɑrz)

v. разобран, разобран. в.т.

1. проанализировать (предложение) с точки зрения грамматических составляющих, определить части речи, синтаксические отношения и т. д.

2. грамматически описать (слово в предложении), определить часть речи, флективная форма, синтаксическая функция и т. д.

vi

3. признать анализируемым.

[1545–55; < латинское pars часть, как в pars ōrātiōnis часть речи]

parsʻa•ble, прил.

парсер, н.

Рэндом Хаус Словарь колледжа Кернермана Вебстера, © 2010 K Dictionaries Ltd. Авторские права Random House, Inc., 2005, 1997, 1991. Все права защищены.

синтаксического анализа

Past причастие: разобран
герундия: разборе

ImperativePresentPreteritePresent ContinuousPresent PerfectPast ContinuousPast PerfectFutureFuture PerfectFuture ContinuousPresent Идеальный ContinuousFuture Идеальный ContinuousPast Идеальный ContinuousConditionalPast Условное

Present
я анализирую
разбора
он / она / оно разбирает
мы разбираем
разбора
парсят
претерит
Я разобран
вы разобраны
Он / она / это анализует
мы проанализировали
вы проанализировали
они проанализированы

9063 0

настоящий непрерывный
я разборки
ты разбиваешь
он / она / это разбор
мы разрабатываем
вы разбираетесь
они разбираются
настоящий идеальный
Parsed
У вас проанал
он / она / это спущено
Вы проанализировали
Они проанализировали
Прошедшие непрерывные
я разблокировал
ты разблокировал
он / она / это был разборки
мы разбили
вы разбиваете
Они разблокировали
Past Perfect
Я проанализировал
вы проанализировали
он / она / она проанализировала
мы проанализировали
вы проанализировали
они проанализировали

9017

5

будущие
я буду разбираться
Вы будете разбираться
он / она / это будет разбираться
Мы будем разбираться
Вы будете разбираться
Будущее совершенное
Я пронизировал
У вас будет расставлен
он / она / это будет проанализировать
Мы будем проанализировать
Вы будете проанализировать
Они будут проанализировать
я буду разбирать
вы будете разбирать
он/она/оно будет Разбор
Мы будем разблокировать
вы будете разблокировать вы будете разблокировать
они будут разбиты
настоящий идеальный непрерывный
Я был разбором
Вы разбирали
он / она / это было разборы
Мы разбили
Вы разбили
они были разборки
будущие идеальные непрерывные
I Будет разборки
вы будете разблокировать
он / она / это будет разборы
Мы будем разбиться
Вы будете разблокировать
Они будут разбирали
9063 1 я был разбором
Past Perfect Continuous
Вы разбили
он / она / это был разборки
Мы были разбиты
Вы разбиваете
Они разбили
Условные
Я бы разбирал
Вы бы разбирали
он / она / она будет разбираться
Мы бы разбирали
Вы бы разбирали
Разберы
прошлые условные
Я бы пронизировал
Вы бы проанализировали
он / она / это было бы проанализировать
Мы бы проанализировали
вы бы проанализировали
они проанализировали бы

Collins English Verb Tables © Harpe rCollins Publishers 2011

разбор

Анализировать предложение, разбивая его на составные части и объясняя функцию каждой из них и их отношения.

Словарь незнакомых слов группы Diagram Copyright © Diagram Visual Information Limited, 2008 г.

Microsoft Office Word 97-2003 Двоичный формат файла (.doc)

Описание

Формат двоичного файла Microsoft Word с расширением .doc, именуемый здесь DOC, был форматом по умолчанию, используемым для документов в Microsoft Word, начиная с Word 97 (выпущенного в 1997 г.) и заканчивая Microsoft Office 2003. Хотя он не может поддерживать все функции приложение Word, появившееся после Word 2007, формат DOC по-прежнему доступен в качестве альтернативы формату DOCX/OOXML, стандартизованному в ISO/IEC 29500, для сохранения файлов документов в Word.По состоянию на конец 2020 года в документации по форматам файлов, поддерживаемым в Word, от Microsoft указан «Документ Word 97-2003». [Примечание: в других контекстах тот же формат назывался «Документ Word 97-2004» или «Документ Word 97-2007».]

Согласно статье Microsoft Word в Википедии, расширение .doc использовалось для четырех различных форматов файлов:
а) Word для DOS; (b) Word для Windows 1 и 2 и Word 3 и 4 для Mac OS; (c) Word 6 и Word 95 для Windows и Word 6 для Mac OS; (d) Word 97 и более поздние версии для Windows и Word 98 и более поздние версии для Mac OS.Это описание формата относится к последнему из этих форматов. Для удобства термин «DOC» будет использоваться здесь для обозначения именно этого варианта файлов Microsoft Word с расширением .doc.

Хотя формат DOC является проприетарным, с 2007 г. на него распространяется действие Microsoft Open Specification Promise. Спецификация, выпущенная в 2007 г., доступна как Спецификация формата двоичных файлов Microsoft Office Word 97-2007 [*.doc]. Структура формата DOC задокументирована и постоянно обновляется в [MS-DOC].

Начиная с выпуска Word 6.0 в 1993 году структура документа Word с расширением .doc представляла собой составной двоичный файл OLE (связывание и встраивание объектов), как указано в [MS-CFB].
В 1997 году была изменена подробная структура файла CFB, используемого для документов Word. Формат CFB обеспечивает структуру, подобную файловой системе, в файле для хранения произвольных потоков данных, специфичных для приложения. Он состоит из хранилищ , потоков и подпотоков .Файл DOC начинается с заголовка CFB и должен включать корневой каталог CFB (идентифицируемый по имени «Root Entry» в UTF-16). В корневом каталоге есть записи для каждого потока или объекта хранения на верхнем уровне иерархии составных файлов. Каждая запись объекта имеет имя (также закодированное в UTF-16, хотя большая часть содержимого документа обычно хранится в 1-байтовых символах) и указывает на расположение в файле именованного объекта. Обязательные потоки в файле DOC включают поток с именем «WordDocument» (также называемый «основным потоком») и поток «таблица» с именем «1Table» или «0Table».Содержимое потока WordDocument следует за заголовком CFB и начинается с блока информации о файле (Fib), который содержит информацию о документе, включая код, идентифицирующий файл DOC как документ Word, и указывает указатели файлов на различные части, которые делают вверх документ. Потоки, не требуемые спецификацией, но обычно присутствующие в файлах, написанных Microsoft Word, включают поток SummaryInformation (с базовыми метаданными на уровне файла) и поток DocumentSummaryInformation.Файл Word в формате DOC начинается следующим образом, все значения указаны в том виде, в котором они встречаются в физическом файле, например, при просмотре с помощью утилиты дампа Hex:

  • Заголовок CFB (обычно 512 байт):
    • Подпись заголовка для формата CFB с 8-байтовым шестнадцатеричным значением D0CF11E0A1B11AE1. Гэри Кесслер отмечает, что начало этой строки выглядит как «DOCFILE»
    • .

    • 16 байт нулей
    • 2-байтовое шестнадцатеричное значение 3E00, указывающее вспомогательную версию CFB 3E
    • 2-байтовое шестнадцатеричное значение 0300, указывающее основную версию CFB 3, или значение 0400, указывающее основную версию CFB 4.[Примечание. Все файлы DOC, созданные компиляторами этого ресурса (в различных версиях Word с 2003 г.) и проверенные с помощью утилиты дампа Hex, основаны на основной версии 3 CFB. Комментарии приветствуются.]
    • 2-байтовое шестнадцатеричное значение FEFF, указывающее порядок байтов с прямым порядком байтов для всех целочисленных значений. Этот порядок байтов применяется ко всем файлам CFB.
    • 2-байтовое шестнадцатеричное значение 0900 (указывает размер сектора 512 байт, используемый для основной версии 3) или 0C00 (указывает размер сектора 4096 байт, используемый для основной версии 4)
    • 480 байтов для остальной части 512-байтового заголовка, который заполняет первый сектор для CFB основной версии 3
    • Примечание. Для CFB основной версии 4 оставшаяся часть первого сектора будет состоять из 3584 байтов нулей.
  • Внутренний идентификатор для двоичного файла Word (обычно по смещению 512 байт от начала файла DOC):
    • 2-байтовый wIdent: шестнадцатеричное значение ECA5
    • 2-байтовый идентификатор версии: шестнадцатеричное значение C100 [Примечание. В спецификации указано, что это значение (эквивалентно целому числу 193), которое следует использовать в этом месте, как FibBase.nFib , но указывает, что некоторые версии Word использовал другие значения. Шестнадцатеричное значение C000 используется для новых пустых документов.Шестнадцатеричное значение C200 использовалось BiDi (двунаправленной) сборкой Word 97.]
  • Обычно наблюдается ближе к концу файла в документах, созданных последними версиями Microsoft Word:
    • Более подробная информация о версии, например, «Документ Microsoft Word 97-2003» или «Документ Microsoft Word 97-2004». См. примечание ниже об идентификации версии Microsoft Word в потоке CompObj.

Для файла DOC без шифрования или защиты паролем текстовые символы документа будут отображаться в шестнадцатеричном дампе основного потока WordDocument.Если все символы хранятся в 1-байтовых (Extended ASCII) кодировках, обычно в кодовой странице Windows 1252, текст будет вполне разборчивым, но без форматирования. Внедренные объекты, такие как изображения, будут храниться в дополнительном потоке Data или ObjInfo. Другие необязательные потоки используются для зашифрованного содержимого, макросов, цифровых подписей и т. д.

Начиная с Word 2007, файл DOC может содержать объект хранилища «Пользовательский XML» с именем «MsoDataStore». Эта функция обычно использовалась для документов, созданных программно, а не конечными пользователями.В результате судебного разбирательства по патентам эта функция была удалена из приложения Word, распространенного 11 января 2010 г. или позже. Файлы DOC, созданные в Word 2007 и не сохраненные повторно в более поздней версии Word, могут содержать пользовательский XML-контент. См. «Примечания и полезные ссылки» ниже для получения более подробной информации о пользовательском XML, судебном разбирательстве по патентам и вытекающих из этого изменениях в приложении Word.

Формат DOC был заменен в качестве формата по умолчанию для Microsoft Word, начиная с Word 2007, на DOCX/OOXML, основной формат документа на основе XML семейства Office Open XML (OOXML).

Резюме PDF или Word: лучший формат файла в 2022 году

Ваше резюме написано, отформатировано и адаптировано именно так, как вы хотите. Теперь пришло время нажать «Сохранить»… но какой формат файла вы должны использовать?

Ответов почти столько же, сколько вариантов файлов! Когда ставка делается на то, чтобы ваше резюме заметили, а не на отправку нечитаемого документа, вы должны быть уверены, что выбрали правильный тип файла.

Мы вас прикроем!

Этот пост содержит последние советы от профессиональных составителей резюме ZipJob.В этой статье рассматриваются различные ситуации и случаи, когда следует изменить тип отправляемого файла. Прежде чем мы начнем, есть одно исключение, которое всегда должно быть первым.

Использовать тип файла, указанный в описании вакансии

Не все компании укажут. Однако, если в описании вакансии есть что-то вроде «пожалуйста, отправьте свое резюме в виде вложения в формате PDF на адрес [email protected]», вам всегда следует отправлять свое резюме в формате PDF на это электронное письмо.

Внимательно прочитайте описание вакансии, чтобы узнать, предпочитает ли работодатель определенный тип файла.Вы всегда должны присылать формат, который запрашивает работодатель.

В оставшейся части этой статьи мы рассмотрим, в каком формате отправлять резюме, если нет инструкций.

Какие типы файлов наиболее распространены для резюме?

Наиболее распространенными форматами резюме являются:

Из этих вариантов два верхних (документы PDF и Word) являются наиболее распространенными.

Ваши лучшие варианты для резюме:

PDF против Word

Два наиболее распространенных формата резюме лучше всего подходят для двух разных целей.

1. Наилучший формат для заявления о приеме на работу

При подаче заявления о приеме на работу через Интернет наилучшим форматом для отправки и загрузки резюме обычно является документ Word. Этот формат легче всего читается большинством систем отслеживания кандидатов (или ATS). Хотя компании все чаще вкладывают средства в более сложное программное обеспечение ATS, которое будет анализировать ваше резюме, вы можете быть уверены, что практически все сканы ATS могут прочитать файл .doc.

Зачем рисковать быть незамеченным из-за вашего формата? Отправьте резюме в виде документа Word.

2. Лучший формат файла для прикрепления вашего резюме

С другой стороны, многие соискатели раздают свои резюме как визитные карточки при поиске работы. Если вы отправляете кому-то прямое сообщение и прикрепляете свое резюме, вы можете отправить его в формате PDF. Это сохранит ваше форматирование и будет выглядеть одинаково на разных компьютерах.

Однако обратите внимание: отправка резюме в формате PDF НЕ означает, что рекомендуется использовать творческий или графический формат резюме. Компьютерщики, менеджеры по найму и рекрутеры предпочитают традиционные одноколоночные резюме, которые можно быстро понять.

Вот несколько дополнительных советов по правильной отправке резюме.

Что нужно знать об отправке резюме в формате PDF:

Многие соискатели предпочитают отправлять PDF-файл, поскольку он сохраняет формат для всех, кто его просматривает, и совместим с большинством операционных систем.

Вот некоторые проблемы с отправкой резюме в формате PDF:

  • Работодатель или рекрутер может захотеть внести изменения, отметить или выделить ваше резюме, чтобы упорядочить его.Если вы отправляете свое резюме кому-то на рассмотрение, функция «предложить правки» в Word очень полезна!

  • PDF-файл можно заблокировать — это хорошо с точки зрения безопасности, но не очень хорошо, если пароль не приходит вместе с файлом.

  • У получателя может не быть правильного программного обеспечения для открытия PDF-файла (это не проблема для специалиста по найму, а больше проблема для отправки вашего резюме кому-то в вашей сети, который предложил взглянуть или передать его) ).

  • Хотя эта проблема в настоящее время встречается редко, некоторые системы отслеживания кандидатов (ATS) могут испытывать трудности при чтении файла PDF.(Подробнее об ATS и формате вашего файла ниже). Например, формат резюме из двух столбцов может читаться слева направо, несмотря на то, что эта информация не имеет отношения к делу.

Следует ли отправлять резюме в формате PDF?

PDF-файл приемлем для многих работодателей... но вам лучше отправить .doc, если это одна из 90%+ крупных компаний, использующих ATS. Если вы отправляете свое резюме в кадровое агентство, предпочтительнее использовать формат .doc, поскольку в него проще вносить изменения.

Что нужно знать об отправке резюме в виде документа Word:

Документ Word — это самый простой для редактирования тип файла, что дает ему огромное преимущество. Также можно сохранить документ Word аккуратным и организованным, что дает ему большое преимущество перед файлами TXT.

Документ Microsoft Word — самый безопасный вариант для подачи резюме. Вот причины, по которым вы всегда должны отправлять документ Word:

  • Были проведены опросы, которые показывают, что работодатели и рекрутеры предпочитают документ Microsoft Word, а не PDF.

  • Документ Microsoft Word легко открывается многими программами и устройствами.

  • Система отслеживания кандидатов (ATS) может легко прочитать резюме

Следует ли отправлять резюме в формате Microsoft Word?

Да, отправка резюме в Word — это самая безопасная ставка. Работодатели предпочитают это, и это может быть легко проверено ATS.

Microsoft doc vs docx

В предыдущей версии этой статьи рекомендовался файл .doc поверх .docx. Вряд ли это будет иметь большое значение в 2021 году, поскольку все версии Word, выпущенные после 2007 года, будут без проблем открывать файлы .doc или .docx .

Могу ли я отправить резюме в виде файлов HTML и TXT (обычный текст)?

Форматы HTML и TXT, как правило, никогда не следует использовать при подаче резюме.

Единственный раз, когда вы можете захотеть использовать формат TXT, это для заявок на доске объявлений, которые не позволяют вам прикрепить свое резюме.

Чтобы сохранить свое резюме в виде файла TXT, просто выполните те же шаги, которые мы описали выше для Docx и Doc.После того, как вы нажмете «Сохранить как», выберите «Обычный текст» или «TXT» при сохранении.

Системы отслеживания кандидатов и формат вашего файла

ATS — это программное обеспечение, которое в настоящее время используется большинством компаний для проверки вашего резюме. Резюме, которые ATS обрабатывает как подходящие для должности, пересылаются или рекомендуются менеджеру по найму.

Более 76% отправленных резюме не рассматриваются, и одной из причин может быть неправильный тип файла. Другие резюме плохо оцениваются ATS из-за отсутствия ключевых слов, несоответствия опыта или сложного форматирования.Всегда отправляйте документ Word, чтобы гарантировать, что ваше резюме пройдет.

Также обратите внимание, что PDF-файл может быть заблокирован, что означает, что ATS не сможет отсканировать текст в вашем резюме.

Присоединяйтесь к более чем 1 миллиону человек , которые уже получили наше бесплатное рассмотрение резюме.

Через 48 часов вы узнаете, как выглядит ваше резюме. Мы покажем вам, что работает, а что нужно исправить.

Последнее примечание: как назвать файл с резюме

Имя, которое вы даете своему резюме, также является важным фактором, который следует учитывать при отправке резюме.Ваше резюме должно быть названо комбинацией вашего имени и «резюме».

Например:

  • Scott.Brett.Resume.doc

  • ScottB.Resume.doc

Рекрутеры или менеджеры по найму иногда возвращаются к базе данных для поиска вашего резюме. Вы хотите, чтобы они легко находили ваше резюме, когда вводили ваше имя. Это также отрывается как профессионал!

Обязательно используйте свое имя и «резюме».

Добавить комментарий

Ваш адрес email не будет опубликован.