|
suurtash
|
 |
« : 2009 mart 24, 17:29:08 » |
|
|
|
|
|
« Soñki deñişiklik: 2009 iyül 15, 15:28:40 Yollağan: bismigalis »
|
Logged
|
|
|
|
|
Alessandro
|
 |
« Cevap #1 : 2009 mart 24, 18:35:27 » |
|
Ну, в чём я с вами соглашусь, так это в том, что проверка орфографии - вещь и вправду насущно необходимая... ...есть ли или планируется ли такая программка- проверка орфографии... Нету, и пока, откровенно говоря, не очень планируется... Нужно найти человека, который знает, как они делаются. И для начала нам нужен будет полный перечень всех возможных словоформ. Более или менее приличный словарь у нас есть, но там только "словарные" формы слов. Ну, например, в словаре есть слово "баба", а нам для создания программы проверки правописания нужны все возможные формы этого слова, которые могут встретиться в тексте, т.е. "бабам", "бабасындан", "бабаларынъызгъа" и т.д.
|
|
|
|
|
Logged
|
Diqqat: işbu qullanıcı Qırımtatar degil.
|
|
|
|
bismigalis
|
 |
« Cevap #2 : 2009 mayıs 25, 22:20:44 » |
|
Нужная вещь. Она бы и для словаря пригодилась. Можно было бы использовать функцию подсказки вариантов при неправильном написании слова.
|
|
|
|
|
Logged
|
|
|
|
|
|
|
bismigalis
|
 |
« Cevap #4 : 2010 fevral 11, 22:18:25 » |
|
При помощи hunspell можно сделать только проверку орфографии, полноценный разбор морфологии для тюркского языка не получится. Для этого есть оказывается специальный проект zemberek. Это программа, разрабатываемая турками, предназначена для автоматизации разбора текста на тюркских языках. Для работы программы необходима база корней слов и набор правил для образования слов при помощи аффиксов в специальном формате. В настоящий момент такие базы существуют для турецкого и туркменского языков. Краткое описание системы (на английском)Блог посвящённый проектуОнлайн версия программы (для турецкого языка)
|
|
|
|
|
Logged
|
|
|
|
|
bismigalis
|
 |
« Cevap #5 : 2010 fevral 13, 11:47:42 » |
|
Прикрепил файл ek_tr.xml (также тут) от zemberek'a для турецкого языка. В нём описывается какие аффиксы в каком порядке к каким корням присоединяются, надо такой же создать для крымскотатарского.
|
|
|
|
|
Logged
|
|
|
|
|
bismigalis
|
 |
« Cevap #6 : 2010 fevral 13, 12:04:39 » |
|
2.2 Suffix information
The core of all Turkic languages are suffixes (We will not use the term “affix” since framework is based on “suffixes” ). Suffixes are defined in a special XML configuration file. The configuration file contains two main sets of information, suffix groups (ek-kumeleri, ek-kumesi) and individual suffix information (ekler, ek). Suffix groups are used for convenience and suffix information elements contain the actual suffix data. Here is an example from the Turkish suffix file :
<ek ad="ISIM_COGUL_LER" uretim="lAr"> <ardisil-ekler> <kume>ISIM_HAL</kume>
<kume>IMEK_ZAMAN</kume> <aek>ISIM_SAHIPLIK_BEN_IM</aek> <aek>ISIM_SAHIPLIK_SEN_IN</aek>
<aek>ISIM_SAHIPLIK_O_I</aek> ... </ardisil-ekler> </ek>
|
|
|
|
|
Logged
|
|
|
|
|
bismigalis
|
 |
« Cevap #7 : 2010 fevral 13, 12:20:06 » |
|
Each suffix needs to define a unique name (attribute “ad”) which can be different depending on the language. Currently we use our own definitions for suffix names, but the naming scheme can be improved by adding standard based names. There is no agreed standard naming scheme defined for Turkish yet. Most suffixes contain a production word (attribute “uretim”). This word represents the production elements of a suffix. Later, those production elements and information from the word the suffix is to be appended will be used for forming an actual suffix. For now, There are three types of suffix production elements defined:
1. Letters (represented by small case letters): They are directly added to the suffix when a specific suffix word is created.
2. Vowel rule elements (represented by capital letters as in A, I, E): they represent different vowel production rules. For Turkish, A means an 'a' will be added to the word if the appended word's last vowel is not frontal (a, ı, o, u), else 'e' will be produced.
3. First Letter addition or modification: they modify or add a new letter in certain circumstances, such as '+n' represents 'n' is added if the appended word ends with a vowel.
An example is shown below.
suffix production word: 'lAr' suffix production elements: [letter:l, vowel rule:A, letter:r] word to be appended: elma suffix producer result: 'lar'
|
|
|
|
|
Logged
|
|
|
|
|
bismigalis
|
 |
« Cevap #8 : 2010 fevral 13, 12:26:36 » |
|
One common characteristic of the suffixes is that apart from some special conditions, they can only be followed by certain suffixes. Actually Zemberek's main morphological parser is based on this simple principle. Therefore most suffix definitions contain subsequent suffix information (“ardisil-ekler” element). For convenience, subsequent suffix information may be individual suffix names, suffix sets or a complete copy from another suffix. There are also special “initial suffixes” used for determining the starting point of the suffix tree. This is because when we want to add a new suffix to a root word (such as a noun without any suffix), not all suffixes can be added. The type of the word gives us a hint for where to start. Therefore, we first add an empty initial suffix which caries the list of subsequent suffix information that can be appended to that root word. In Turkish implementation, they are marked as “KOK - root)”. Here is an example for a initial suffix defined for the type “number”.
<ek ad="SAYI_KOK" uretim=""> <ardisil-ekler kopya-ek = "ISIM_KOK"> <aek>SAYI_ULESTIRME_ER</aek> <aek>SAYI_KESIR_DE</aek> <aek>SAYI_SIRA_INCI</aek> <aek>SAYI_TOPLULUK_IZ</aek> <aek>SAYI_KOSE_GEN</aek> </ardisil-ekler> </ek>
|
|
|
|
|
Logged
|
|
|
|
|
bismigalis
|
 |
« Cevap #9 : 2010 fevral 14, 13:44:02 » |
|
Мда сложновато разобраться, да ещё то что на турецком языке усложняет задачу. Предлагаю для начала собрать всю информацию по аффиксам на просто понятном языке, а уже потом, кто как захочет, тот так пусть и кодирует её.
Alessandro, я у тебя прошу дозвил на создание временного раздела на форуме посвященному аффиксам (аля Qırımtatar affiksler), где каждому аффиксу будет назначена своя тема, в которой будет собираться инфа. В таком виде мне будет удобней спрашивать по конкретному аффиксу. После того как вся инфа будет собрана, она будет перенесена в текстовый файл и этот раздел будет удален.
|
|
|
|
|
Logged
|
|
|
|
|
Alessandro
|
 |
« Cevap #10 : 2010 fevral 14, 14:41:24 » |
|
Раздел создал: http://medeniye.org/forum/index.php/board,11.0.htmlВообще, переделать турецкую версию в крымскотатарскую не так сложно, по идее. Большинство аффиксов либо совпадают, либо отличаются незначительно. Я только не до конца понял, как эта xml-ка составляется... В прочем, есть одна серьёзная вещь, которой в турецком нет, а в крымскотатарском есть: зависимость формы некоторых аффиксов от числа слогов в слове, к которому они пристыковывается (если слово односложное, то в аффиксе u/ü, если многосложное - ı/i).
|
|
|
|
« Soñki deñişiklik: 2010 fevral 14, 14:43:58 Yollağan: Alessandro »
|
Logged
|
Diqqat: işbu qullanıcı Qırımtatar degil.
|
|
|
|
bismigalis
|
 |
« Cevap #11 : 2010 fevral 14, 16:22:56 » |
|
Аха спасибо. Я два дня всматривался, не смог разобраться, кое-что понял, но не до конца. Впринципе если разработчикам объяснить на понятном для них языке об отличиях от турецкого, я думаю они не отказались бы помочь (вот тут что-то про казантатарский говорят я ничего не понял правда http://zembereknlp.blogspot.com/2007/03/tatara-trek.html )
|
|
|
|
|
Logged
|
|
|
|
|
Alessandro
|
 |
« Cevap #12 : 2010 fevral 14, 16:32:59 » |
|
Ну, он там пишет, что вот мол создаётся татарская локализация Open Office и есть предложение для татарского сделать проверку орфографии на основе zemberek'а. Он начал разбираться, увидел, что татарские правила присоединения аффиксов отличаются от турецких и посему сам не справится, нужна помощь знающих татарский. И, кстати, этот пост написан почти три года назад...
|
|
|
|
|
Logged
|
Diqqat: işbu qullanıcı Qırımtatar degil.
|
|
|
|
bismigalis
|
 |
« Cevap #13 : 2010 fevral 14, 17:08:58 » |
|
Всё понятно, значит помощи ждать не откуда, будем сами прорываться...
|
|
|
|
|
Logged
|
|
|
|
|