LINUX.ORG.RU

British National Corpus теперь бесплатный

 , ,


0

2

Один из самых популярных корпусов (сборников размеченных текстов) английского языка, British National Corpus, оказывается, недавно стал бесплатным.

Впрочем, для получения доступа надо отправлять заявку. Требования к желающим не указаны, возможно, дают всем (почему бы и нет?).

Лица и организации, уже купившие лицензию, могут считать, что она теперь действует бессрочно, без необходимости продления.

Распространение корпуса на дисках прекращено, теперь его можно только скачать.

Сообщение об этом: http://blogs.it.ox.ac.uk/martinw/2014/01/13/changes-to-the-distribution-of-th...

★★★★★

Ответ на: комментарий от Pavval

То есть?

То есть с морфологической, синтаксической и др. информацией.

Например, в BNC тексты разбиты на предложения, предложения — на слова, для каждого слова указана часть речи и начальная форма, для каждого предложения — ещё метаинформация о том, кто его произносит, для текста — источник, заголовок и т.д. Для транскрипций устных текстов указаны ещё, например, паузы и время произнесения.

Пример: http://www.natcorp.ox.ac.uk/docs/eg.xml

proud_anon ★★★★★
() автор топика
Ответ на: комментарий от Pavval

А.... Ок. А для чего спользуется?

Как учебный материал для систем машинного обучения, для тестов существующих систем автоматической обработки речи, также для статистических исследований языкового материала.

Какой бы придумать интересный пример, не оторванный от жизни... допустим, нам нужно разработать систему, которая сканирует 100 форумов про Линукс и собирает отзывы о новой Убунте, пытаясь определить, какие изменения вызывают самую сильную попоболь. Так вот...

Хотя с помощью одного BNC такого не сделаешь, там вряд ли достаточно материала про Линукс. Однако можно сделать, например, автоматическую определялку частей речи.

proud_anon ★★★★★
() автор топика

Отличные новости!

ymn ★★★★★
()

А для коммерческого использования также бесплатно? Еще бы отдали корпус русского языка для коммерческого использования... Эх, мечты:)

feofan ★★★★★
()
Ответ на: комментарий от feofan

А для коммерческого использования также бесплатно?

Судя по всему, лицензия не изменилась, а значит, на использование результатов работы над корпусом никаких ограничений не налагается, кроме как если результаты содержат узнаваемые отрывки из текстов корпуса.

Еще бы отдали корпус русского языка для коммерческого использования... Эх, мечты:)

Ты записался добровольцем на http://opencorpora.org ?

proud_anon ★★★★★
() автор топика
Ответ на: комментарий от proud_anon

Ты записался добровольцем на http://opencorpora.org ?

Спасибо, про них в курсе. У них пока мало материала. А помогать им профессионально, к сожалению, нет ни времени, ни квалификации.

feofan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.