Дедлайн: 22 марта 23:59.
После дедлайна работы не принимаются.
В файлах Botlikh.lexd, Ghodoberi.lexd, Bagvalal.lexd, Tindi.lexd содержатся списки слов, которые отмечены в проекте Comparative Andic dictionary database как заимствования из русского (названия файлов соответствуют названию языков).
- Напишите команды, которые создают из этих 4х lexd файлов трансдьюсер
pop_borrowings.hfst, порождающий заимствования, встречающиеся в любых строго трёх языках из 4х - Сохраните выдачу трансдьюсера в
pop_borrowings.txt - Проверьте, правильно ли получилось, сравнив* его с for_test_hw4_01.txt. Если неправильно --- выдаются строки, на которые один файл отличается от другого, если правильно --- ничего не выдаётся.
- Сохраните команды в файл
Surname_hw3_01.sh
*$ grep -xvf file1.txt file2.txt --- найдёт строки, которые есть в file2.txt, но отсутствуют в file1.txt
Оценивание: max 4 балла
- Создаются трансдьюсеры из lexd файлов --- 1 балл
- Подобраны операции, создаётся правильный
pop_borrowings.hfst--- 1 балл - Создаётся
pop_borrowings.txt--- 1 балл - Сравнивается полученный
pop_borrowings.txtс образцом, скачивающимся при запуске.shфайла --- 1 балл
Суммарно: 4 балла
Перед вами jap_eng.lexd для перевода с японского на английский и yor_eng.lexd для перевода с йоруба на английский. Напишите код для перевода с йоруба на японский, запросите перевод abila (правильный ответ - シマウマ).
Сохраните команды в файл Surname_hw3_02.sh
Оценивание: max 4 балла
- Создаётся
hfstфайл для перевода с английского на японский (1 балл) - Запрашивается перевод для abila (1 балл)
- Выводится シマウマ (1,5 балла)
- Выводится только シマウマ, без предупреждений (0,5 балл)
Если вам нужно разделить выводящуюся строку по пробелам, вы можете воспользоваться командой awk:
{shell}
$ echo "one two three" | awk '{print $2}' # выведет только two
Перед вами eng.lexd, eng_seg.twol и no_seg.twol.
Напишите Surname_hw3_03.sh файл, который создаёт трансдьюсеры eng_seg.hfst и eng_no_seg.hfst.
eng_seg.hfstдолжен генерировать сегментированные формы (1 балл)
Для проверки: for_test_hw4_03_01.txt
eng_no_seg.hfstдолжен генерировать не сегментированные формы (1 балл)
Для проверки: for_test_hw4_03_02.txt