Основные задачи компьютерной лингвистики и подходы к их решению. Где в России обучают компьютерной лингвистике? О курсе лекций «Компьютерная лингвистика»

« Открытие кафедры в МФТИ позволяет нам не только помогать своим студентам.

Наша цель - сделать на ФИВТе самое лучшее преподавание Computer Science в России»
Светлана Лузгина, служба корпоративных коммуникаций.


Заведующий кафедрой: Владимир Павлович Селегей, директор по лингвистическим исследованиям ABBYY

Кафедра компьютерной лингвистики ФИВТ была основана в 2011 году российской компанией ABBYY, одним из ведущих разработчиков программного обеспечения в области искусственного интеллекта, в частности, распознавания документов и обработки естественного языка. Кафедра готовит специалистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий, в частности, технологии синтаксического и семантического анализа текста ABBYY Compreno.

В последнее десятилетие компьютерная лингвистика активно развивается во всем мире. Это происходит в связи с растущим влиянием интернета и появлением большого числа новых технических устройств с естественно-языковыми интерфейсами. Особенно бурно развиваются такие технологии, как многоязычный информационный поиск, машинный перевод, извлечение знаний, распознавание речи и др. В России компьютерной лингвистике до сих пор уделялось недостаточно внимания в системе образования. Из-за этого в мировых научных исследованиях по компьютерной лингвистике недостаточно представлен русский язык.

Специализация «Компьютерная лингвистика» в МФТИ основывается на глубоком техническом образовании, которое дает Физтех. Занятия на базовой кафедре проходят в офисе ABBYY, где сотрудники компании преподают курсы по автоматической обработке языка, общей и компьютерной лексикографии, корпусной лингвистике, а также неотъемлемым дисциплинам Computer Science в области создания ПО.

Одной из задач кафедры является активное вовлечение студентов в научную жизнь. Важно не только знать о современных мировых «трендах» в компьютерной лингвистике, но и быть частью мирового процесса. Студенты кафедры принимают активное участие в разработке технологии ABBYY Compreno и совместном с РГГУ исследовательском проекте по созданию Генерального интернет-корпуса русского языка (ГИКРЯ) на основе ресурсов русскоязычного интернета.

Зачисление на кафедру производится по результатам конкурса как в бакалавриат, так и на первый курс магистратуры. В магистратуру принимаются бакалавры всех факультетов МФТИ, а также других высших учебных заведений. Зачисление производится по результатам решения логических и алгоритмических задач и собеседования с руководством кафедры.

Если вы хотите пройти собеседование на кафедру или задать вопрос, пишите на [email protected] . До встречи в ABBYY!

Культурно-просветительский центр «Архэ» приглашает на курс лекций Александра Чедовича Пиперски «Компьютерная лингвистика».

Тема первой лекции: «Основные задачи компьютерной лингвистики и подходы к их решению».

Машинный перевод, проверка орфографии, классификация текстов, распознавание речи и многое другое: всё это - задачи компьютерной лингвистики. Решать их можно разными способами: или пытаясь имитировать то, как с языком работает человек, или надеяться, что со всем удастся справиться за счёт больших данных. Но естественный язык нелегко обрабатывать автоматически, и на этом пути нас подстерегает много сложностей. В число проблем входит омонимия (когда одно и то же слово называет разные вещи), синонимия (когда, наоборот, одно и то же называется разными словами) и другие свойства человеческих языков, на которые мы в обычной жизни даже не обращаем внимания.

О лекторе:
, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ, автор книги «Конструирование языков» (Альпина Нон-фикшн, 2017).

О курсе лекций «Компьютерная лингвистика»:

Компьютерная лингвистика - одна из наиболее динамично развивающихся областей на стыке теории и практики. С достижениями компьютерной лингвистики мы сталкиваемся каждый день: это и машинный перевод, и поиск в Интернете, и голосовые помощники, и многое другое. За каждым таким продуктом стоит серьёзная работа лингвистов и программистов. В ходе курса мы поговорим об истории компьютерной лингвистики и о наиболее популярных её методах, а также посмотрим, как они позволяют решать важные практические задачи: например, проверять орфографию или классифицировать по темам новости.

На филфаке Высшей школы экономики запускается новая магистерская программа, посвященная компьютерной лингвистике: тут ждут абитуриентов с гуманитарным и математическим базовым образованием и всех, кому интересно решать задачи в одной из самых перспективных отраслей науки. Ее руководитель Анастасия Бонч-Осмоловская рассказала «Теориям и практикам», что такое компьютерная лингвистика, почему роботы не заменят человека и чему будут учить в магистратуре ВШЭ по компьютерной лингвистике.

Эта программа - чуть ли не единственная такого рода в России. А вы где сами учились?

Я училась в МГУ на отделении теоретической и прикладной лингвистики филологического факультета. Попала туда не сразу, сначала поступила на русское отделение, но потом всерьез увлеклась лингвистикой, и меня привлекла атмосфера, которая остается на кафедре сих пор. Самое главное там - хороший контакт между преподавателями и студентами и их взаимная заинтересованность.

Когда у меня родились дети и надо было зарабатывать на жизнь, я пошла в сферу коммерческой лингвистики. В 2005 году было не очень понятно, что представляет из себя эта область деятельности как таковая. Я работала в разных лингвистических фирмах: начинала с небольшой фирмы при сайте Public.ru - это такая библиотека СМИ, там я начала заниматься лингвистическими технологиями. Потом год работала в Роснанотехе, где была идея сделать аналитических портал, чтобы данные на нем автоматически структурировались. Потом я руководила лингвистическим отделом в компании «Авикомп» - это уже серьезное производство в области компьютерной лингвистики и семантических технологий. Параллельно я вела курс по компьютерной лингвистике в МГУ и старалась сделать его более современным.

Два ресурса для лингвиста: - сайт, созданный лингвистами для научных и прикладных исследований, связанных с русским языком. Это модель русского языка, представленная с помощью огромного массива текстов разных жанров и периодов. Тексты снабжены лингвистической разметкой, с помощью которой можно получать информацию о частотности тех или иных языковых явлений. Ворднет - огромная лексическая база английского языка, главная идея Ворднета - связать в одну большую сеть не слова, но их смыслы. Ворднет можно скачивать и использовать для собственных проектов.

А чем занимается компьютерная лингвистика?

Это максимально междисциплинарная область. Тут самое главное понимать, что творится в электронном мире и кто тебе поможет сделать конкретные вещи.

Нас окружает очень большое количество дигитальной информации, существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и чего угодно. И очень важно уметь обращаться с этой информацией эффективно - главное не только быстрота обработки информации, но и легкость, с которой ты можешь, отсеяв шум, достать те данные, которые тебе нужны, и создать из них цельную картину.

Раньше с компьютерной лингвистикой были связаны какие-то глобальные идеи, например: люди думали, что машинный перевод заменит человеческий, вместо людей будут работать роботы. Но сейчас это кажется утопией, и машинный перевод используется в поисковых системах для быстрого поиска на незнакомом языке. То есть сейчас лингвистика редко занимается абстрактными задачами - в основном какими-то маленькими штучками, которые можно вставить в большой продукт и на этом заработать.

Одна из больших задач современной лингвистики - семантический web, когда поиск происходит не просто по совпадению слов, а по смыслу, а все сайты так или иначе размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго.

В двух словах, у нас есть тысяча текстов, надо разложить их по кучкам, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации. С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Есть такая компания, которая придумала механизм генерации текстов на темы, на которые человеку писать скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказывать человеку эти тексты гораздо дороже, притом компьютерные тексты на такие темы написаны связным человеческим языком.

Разработками в области поиска неструктурированной информации в России активно занимается «Яндекс», «Лаборатория Касперского» нанимает исследовательские группы, которые изучают машинное обучение. Кто-то на рынке пытается придумать что-то новое в области компьютерной лингвистики?

**Книги по компьютерной лингвистике:**

Daniel Jurafsky, Speech and Language Processing

Кристофер Маннинг, Прабхакар Рагхаван, Хайнрих Шютце, «Введение в информационный поиск»

Яков Тестелец, «Введение в общий синтаксис»

Большинство лингвистических разработок является собственностью больших компаний, практически ничего нельзя найти в открытом доступе. Это тормозит развитие отрасли, у нас нет свободного лингвистического рынка, коробочных решений.

Кроме того, не хватает полноценных информационных ресурсов. Есть такой проект, как Национальный корпус русского языка . Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. Разница примерно как в биологии - до ДНК-исследований и после.

Но многие ресурсы не существуют на русском языке. Так, нет аналога такому замечательному англоязычному ресурсу, как Framenet - это такая концептуальная сеть, где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» - кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса. Это очень полезно.

В компании Avicomp сейчас разрабатывается плагин для поиска близких по содержанию статей. То есть если вас заинтересовала какая-то статья, вы можете оперативно посмотреть историю сюжета: когда тема возникла, что писалось и когда был пик интереса к этой проблеме. Например, с помощью этого плагина можно будет, оттолкнувшись от статьи, посвященной событиям в Сирии, очень быстро увидеть, как в течение последнего года развивались там события.

Как будет построен процесс обучения в магистратуре?

Обучение в Вышке организовано по отдельным модулям - как в западных университетах. Студенты будут разделены на маленькие команды, мини-стартапы - то есть на выходе мы должны получить несколько готовых проектов. Мы хотим получить реальные продукты, которые потом откроем людям и оставим в открытом доступе.

Кроме непосредственных руководителей проектов студентов, мы хотим найти им кураторов из числа их потенциальных работодателей - из того же «Яндекса», например, которые тоже будут играть в эту игру и давать студентам какие-то советы.

Я надеюсь, что в магистратуру придут люди из самых разных областей: программисты, лингвисты, социологи, маркетологи. У нас будет несколько адаптационных курсов по лингвистике, математике и программированию. Потом у нас будет два серьезных курса по лингвистике, и они будут связаны с самыми актуальными лингвистическими теориями, мы хотим, чтобы наши выпускники были в состоянии читать и понимать современные лингвистические статьи. То же самое и с математикой. У нас будет курс, который будет называться «Математические основания компьютерной лингвистики», где будут излагаться те разделы математики, на которых зиждется современная компьютерная лингвистика.

Для того чтобы поступить в магистратуру, нужно сдать вступительный экзамен по языку и пройти конкурс портфолио.

Кроме основных курсов будут линейки предметов по выбору Мы запланировали несколько циклов - два из них ориентированы на более глубокое изучение отдельных тем, к которым относятся, например, машинный перевод и корпусная лингвистика, и, а один, наоборот, связан со смежными областями: такими как, социальные сети, машинное обучение или Digital Humanities - курс, который как мы надеемся, будем прочитан на английском языке.

Итак, компьютерная лингвистика - молодая, но очень перспективная наука. А главная особенность этой науки в том, что она считается междисциплинарной, то есть изучает проблемы, стоящие на стыке программирования и языкознания. И для того, чтобы стать полноценным специалистом в этой области, нужно хорошо разбираться и в математике и в лингвистике.

Программы обучения делятся на программы для филологов, которые хотят связать свою жизнь с лингвистическими разработками в IT, и для математиков, желающих работать над системами распознавания текста, переводческими программами и т.д. Мы остановимся на втором варианте.

Сразу хочу оговориться, что таких магистратур в России - единицы, и обычно они курируются компаниями, занимающимися лингвистическими разработками. Большинство программ, посвященных компьютерной лингвистике, находится в столицах.

Начну с той магистратуры, которая показалась мне самой интересной. Она находится в Санкт-Петербурге, на базе СПбГУ на кафедре информационных систем в искусстве и гуманитарных науках. Хочу сразу отметить, что кафедра находится на гуманитарном факультете, но рассчитана именно на программистов. Образовательная программа называется «Инженерия гуманитарных знаний». Целевая установка магистратуры - (цитирую сайт) «подготовка специалистов, способных участвовать в исследовательской и проектной работе в области интеллектуальных информационных технологий со специализацией в направлении языковой инженерии, технологий извлечения гуманитарных знаний из текстового потока, онтологической инженерии».

Чтобы туда поступить, требуется сдать письменный тест, в котором будут вопросы по математике, основам программирования и (немножко) по языкознанию. Пугаться вопросов по последней дисциплине математикам не стоит: судя по списку литературы, двух-трех несложных книг, озаглавленных «Введению в языкознание», вполне хватит, чтобы сдать вступительные испытания. Из собственных источников мне стало известно, что курирует эту образовательную программу компания Яндекс, правда на сайте магистратуры об этом не упоминается.

Вторая магистратура, о которой бы хотелось рассказать, находится в Москве на кафедре распознавания изображений и обработки текста факультета инноваций и высоких технологий (ФИВТ) в МФТИ. Она была основана в 2006 году компанией ABBYY. Судя по описанию, из нескольких программ магистратуры, предлагаемых этой кафедрой, к компьютерной лингвистике больше всего относятся направления «Интеллектуальные системы» и «Методы машинного обучения». Чтобы попасть туда учиться, нужно не только сдать вступительный экзамен, но и пройти собеседование с сотрудниками компании ABBYY. Все-таки в ABBYY рассчитывают, что потом выпускники пойдут работать к ним.

И последняя магистерская программа, о которой я поведаю, так и называется «Компьютерная лингвистика» и находится на факультете филологии ВШЭ. Как следует из добытой мной информации, она есть в Москве и в Нижегородском отделении Вышки. Представители университета считают, что эта программа подходит не только для математиков, но и для выпускников с другим базовым образованием. Обучение предполагает как курсы по программированию, призванные подтянуть выпускников гуманитарных специальностей, так и курс общей лингвистики, рассчитанной на математиков.

Чтобы поступить в эту магистратуру, нужно сдать экзамен по иностранному языку и оформить портфолио, в котором должно быть мотивационное письмо и информация о будущем студенте. Нужно будет рассказать о своих профессиональных интересах, публикациях, практиках, которые проходил и т.д. Преподавателями будут сотрудники факультета филологии, общеуниверситетской кафедры высшей математики, отделения прикладной математики и информатики, базовой кафедры Яндекса.

В общем, выбор у выпускников, которые решат заниматься компьютерной лингвистикой, есть. Пока он невелик, но, думаю, в будущем таких программ станет намного больше.

Думаю, на этом закончить свой обзор.
За помощь в подготовки статью благодарю Яндекс и Гугл, официальный сайт компании ABBYY, а также сайты вузов, о которых шла речь в посте.