Главная » 2017»Март»21 » Как Заур Агамов в одиночку спасает лезгинский язык
16:58
Как Заур Агамов в одиночку спасает лезгинский язык
Дагестанский программист Заур Агамов работает в Дубае — создает боты для крупных компаний. А в свободное время спасает от забвения исчезающие языки. Если вы носитель — присоединяйтесь
Согласно данным ЮНЕСКО, 19 дагестанских языков находятся под угрозой исчезновения, еще 6 внесены в категорию «уязвимых». До недавнего времени словари этих языков существовали только в виде печатных книг, к которым молодежь, привыкшая к гаджетам, обращалась все реже. Программист Заур Агамов устроил дагестанским языкам «апгрейд», создав некоммерческий проект по сохранению языков «Public dictionary». Это бесплатные приложения-словари для смартфонов, сайты и телеграм-боты. Они помогают совершенствовать свой язык, общаться, а школьники пользуются ими, когда делают домашнюю работу по родному языку.
Для дела и души
Заур Агамов родился и вырос в Дагестане. Родной лезгинский язык знает с детства — он всегда звучал и дома в Махачкале, и в селе, где он проводил каникулы. В школе Заур увлекался не только языками программирования, но и просто языками. Выигрывал городские олимпиады по математике и английскому. После второго курса матфака Заур перевелся из дагестанского вуза в питерский Электротехнический университет, окончил его, работал в «Яндексе» и других компаниях. В 2012-м получил интересное предложение из Дубая. После холодного Питера южному человеку захотелось побольше солнца — так он объясняет свой переезд в Эмираты.
— Начиналось все как хобби-проект. Первое приложение — «Лезгинский словарь» написал в 2014-м для души. Хотя для программиста считается хорошим тоном, когда есть собственные проекты, — рассказывает Заур. — На создание первого приложения ушло много сил. У меня был вордовский файл с лезгинским словарем, который совершенно не выглядел как база данных. Пришлось вручную размечать: тут — слово, тут — перевод. Через две недели тупой однообразной работы шея разболелась так, что я три дня лежал на больничном.
Версию для iOS Зауру помог написать друг-айфонист. А потом пошли просьбы сделать то же самое и для других языков. Просили башкиры, чуваши, ногайцы, даже носители такого редкого языка, как гагаузский.
— Я увидел, что приложениями активно пользуются, и мне самому стало интересно, захотелось продолжить, — говорит программист.
Без лишних слов
Сегодня «Лезгинский словарь» установили около 20 тысяч раз на Android и примерно столько же на IPhone. Рейтинг приложения в Play Market — 4,7 из 5, в App Store — 4,5. Помимо него, доступны словари кумыкского, башкирского языков, и карачаево-балкарский, пока только в виде сайта. Ежедневно ко всем сервисам Заура обращается порядка тысячи человек.
В России, по данным ЮНЕСКО, под угрозой исчезновения находятся 90 языков, в том числе 19 дагестанских: андийский, арчинский, ботлихский, ногайский, каратинский, рутульский, тиндинский, цезский и другие.
Сейчас проект сосредоточен на дагестанских языках: к маю разработчик планирует создать онлайн-словари аварского, агульского, даргинского, лакского, рутульского и табасаранского языков. Восемь приложений будет работать на Android, iOS, кроме того, будет 8 сайтов, 8 телеграм- и фейсбук-ботов. Своей очереди ждут исчезающие ногайский и цахурский языки. Впрочем, Заур не собирается ограничиваться Дагестаном. «Public dictionary» нацелен охватить как можно больше российских языков, независимо от того, грозит им исчезновение или нет.
Параллельно с этим Заур вместе с питерской командой разработчиков создает анимированные азбуки крупных языков в виде мобильных приложений. Программист пытался найти финансирование на разработку лезгинской азбуки, но безуспешно, — пока есть только демо-ролик на YouTube.
— Скоро выйдет арабская азбука, и мы с депутатом Народного собрания Дагестана Тимуром Гусаевым обсуждаем возможность создания азбук дагестанских языков. Опять же, если найдем финансы, ведь к каждой букве — а их в ряде дагестанских алфавитов больше 40 — нужно нарисовать новые сценки, оплатить работу программистов, — объясняет разработчик.
Бот-аварец и бот-даргинец
Сейчас Заур работает в дубайском стартапе Brndstr — делает ботов для фейсбука, твитера, телеграма. В числе последних клиентов стартапа — такие бренды, как Volkswagen, British Airways, Huawei.
По словам разработчика, боты — новый тренд.
— Это автоматизированный собеседник, который умеет читать входящие сообщения и отвечать на них. В случае с ботом-лезгином он понимает, что вы отправили ему слово на русском и высылает перевод. И наоборот, — объясняет Заур Агамов.
Сейчас в телеграме доступны боты аварского, лезгинского, кумыкского, лакского, агульского и даргинского языков. Их аналоги скоро появятся в фейсбуке.
«Ле, Гугл! ВорчIами!»
В переводе с аварского это означает: «Эй, Гугл! Здравствуй!» Но в ближайшие годы голосовые помощники вроде Google Now или Siri вряд ли научатся воспринимать дагестанские языки. Чтобы обучить машину пониманию устной речи, нужен очень большой объем звуковых данных.
— Мы на слух воспринимаем только 70% речи, остальное мозг домысливает по контексту. Поэтому, например, для английского языка одно слово озвучивается 1000−2000 раз. Потом 10−20 лингвистов пишут правила генерации. Такого звукового материала у меня нет, и вряд ли будет. Для дагестанских языков это представляет только академический интерес. В случае с большими языками — английским, русским, где сотни миллионов носителей, в этом есть экономический смысл: можно создать навигаторы, голосовой поиск. Поэтому корпорации вроде Google и Яндекса готовы тратить на это время и деньги, — говорит о технологии Заур. — Для «малых» языков это неактуально.
Трудности перевода
Каждый дагестанский язык — отдельный космос со своими законами пространства и времени. Например, в табасаранском языке 48 падежей. В аварском и лезгинском считают двадцатками, а не десятками. В языках горцев учитываются не только привычные род и число, но и месторасположение собеседника — под горой он стоит или на горе, и на какой именно высоте. Попробуйте-ка обучить такому робота-переводчика!
По данным миннаца Дагестана, в республике говорят на 33 языках и более чем 100 диалектах.
Заур убежден: создать хороший переводчик, способный переводить целые фразы на языках Дагестана, — нереально. Система машинного перевода учится на огромных корпусах параллельных текстов. Это не просто вордовские файлы с текстами — лингвист должен разметить каждое слово: здесь существительное, здесь глагол; тут корень, тут окончание. Таких объемов контента даже у самых крупных народностей Дагестана попросту нет. Попытку создать подобный переводчик сделал талантливый программист Омар Ганиев, автор сайта dalang.ru, но система хромает — переводчик не на чем обучать. — Я работал в компании, которая создавала арабский пере
— Я работал в компании, которая создавала арабский переводчик. В офисе сидели семь лингвистов, в течение двух лет с утра до вечера они писали правила перевода в приложении, типа: «Если предложение начинается так, то окончание у слова будет такое». Это сумасшедший объем работы. Если кто-то и сделает переводчик дагестанских языков, то энтузиасты вроде меня. Но и качество будет соответствующее, — говорит Заур.
Все, кроме денег
Сейчас над «Public dictionary» работают трое: Заур Агамов, iOS-программист Александр Михайлов и дизайнер Олег Данилов. Для всех это хобби. Расходы Заур покрывает из собственного кармана. Сам платит за хостинг сайта, за лицензию в App Store. Разработчик неоднократно обращался в различные фонды в Дагестане, но поддержки не находил.
— Я знаю, что в Дагестане есть государственные гранты на подобные проекты. Но проблема в том, что я не умею просить. В республике не живу с 18 лет, мне сложно понять местную специфику. В Дагестане, даже если у тебя хороший проект, но ты пришел с улицы и попросишь деньги, тебе их никто не даст, — рассказывает программист про свой опыт.
По статистике, на даргинском языке говорят около полумиллиона человек, однако это не один, а более 10 языков, считающихся диалектами. В их числе, например, периферийный кубачинский диалект. Жители аула Кубачи считают его самостоятельным языком. Литературный даргинский, созданный на основе акушинского диалекта, понимают не более половины даргинцев.
В этом году он подал заявку в седьмой набор резидентов бизнес-инкубатора «Пери Инновации», реализуемый благотворительным фондом «Пери» предпринимателя Зиявудина Магомедова.
— Интересный и очень ценный для дагестанцев проект. Немало людей работают над сохранением языков Кавказа, но у этих ребят есть преимущество — они не просто оцифровывают словари, а используют современные технологии — приложения, боты, сервисы, удобные для пользователей. У проекта есть все, чтобы пройти наш отбор: профессиональная команда, инновационные технологии, первые готовые продукты и большая социальная, культурная и образовательная ценность, — говорит директор бизнес-инкубатора Гаджимурад Алиев.
В приложениях «Public dictionary» до сих пор нет ни рекламы, ни платной подписки. В монетизации словарей разработчик не видит смысла.
— Давайте посчитаем: если бы я продавал «Лезгинский словарь», скажем, по доллару, его бы установили раз двести. В итоге я за три года заработал бы 200 долларов. А так его установили только на Android почти 20 тысяч раз, — объясняет Заур.
Гаджимурад Алиев тоже не верит, что на «Public dictionary» можно заработать деньги — по крайней мере, интересные инвесторам.
— Ни сам Заур, ни мы не ставим перед собой цель сделать проект коммерческим. Но думаю, интерес к языкам возрос, особенно после выхода фильма «Прибытие». В фильме раскрывается интересная научная гипотеза лингвистической относительности, широко известная как гипотеза Сепира-Уорфа. Согласно ей, потеряв языки, мы утратим не только основную часть своей культуры, но и идентичность, станем мыслить и действовать по-другому, — говорит директор «Пери Инноваций».
Версия 2.0
Сейчас создатели проекта сосредоточены на обновлении мобильных приложений и сайтов. Скоро у словарей появится новый дизайн, функционал и долгожданная опция — возможность послушать, как звучит слово на родном языке. Заур решил пойти методом краудсорсинга — привлек для озвучки слов самих пользователей, носителей языка.
В октябре 2016 года в Дагестане прошел первый тотальный диктант на родных языках. Более 200 человек писали диктанты на 14 языках. Из них только 10% можно назвать уверенно говорящими носителями.
— Вначале проект назывался «Open dictionary» («Открытый словарь»), но домен был занят, и я выбрал «Public dictionary» — то есть публичный, доступный всем словарь. Профессиональных лингвистов, которые занимаются нашими языками, мало, они сидят в академиях наук и им это не интересно. Мне казалось, это должен быть словарь, в создании которого будут участвовать рядовые носители языка. Но, к сожалению, пока фид-бека от пользователей — в виде добавления новых слов, исправления ошибок — очень мало. Думаю, сбор озвучек как-то их активизирует, — говорит программист.
Заур понимает, что в одиночку проект осуществить невозможно: нужно, чтобы носители языков сами помогали в создании словарных баз. Именно так получилось с агульским, даргинским, лакским языками: ребята искали словари, готовили из них базы данных, а программист внедрял их в боты и приложения. Лет через десять «Public dictionary» может превратиться в большую платформу изучения родных языков по типу Rosetta Stone или Дуолинго. Но только если сами люди захотят сохранить свои языки.
Заур! ЛЕЗГИ ХВА если можно то же создавай с Апанскими буквами хотя бы букварь для лезгин а дальше будем расширять и развивать, эта самый благородные дела ваш и наш для мировом обществе.БОТ- ЛЕЗГИ с новым алфавитом.