Alem-i Medeniye
Haberler:
 
*
Selâm, Musafir. Lütfen kiriş yapıñız ya da aza oluñız.
Faalleştirme (aktivatsiya) mektübiñiz kelmegen olsa bu yerge basıñız.
2012 fevral 12, 00:26:48


Qullanıcı adıñıznı, paroliñizni ve faal qalma müddetini kirsetiñiz


Saife: [1]
  BASTIR  
Yollağan Mevzu: Проверка орфографии (Spell Checker)  ( 2154 kere oqulğan)
suurtash
Global Moderator
Hero Member
*****
Offline Offline

Beyanat sayısı: 840



Azalıq malümatı
« : 2009 mart 24, 17:29:08 »

Алессандро бей, я как тот крыловский квартер, все пытаюсь найти  способ научиться языку. an Но не получается. Вот хочу спросить- есть ли или планируется ли такая программка- проверка орфографии. На английском она есть, видела турецкий вариант,  уверена, что нам она очень как нужна. Написала я , к примеру, слово тарабарскими буквами, а мне все ошибки  и показала программка. Может быть, так быстрее буду запоминать правильность написания? Сейчас же сильно туплю... wall wall wall
« Soñki deñişiklik: 2009 iyül 15, 15:28:40 Yollağan: bismigalis » Logged
Alessandro
Administrator
Hero Member
*****
Offline Offline

Beyanat sayısı: 459



Azalıq malümatı WWW
« Cevap #1 : 2009 mart 24, 18:35:27 »

Ну, в чём я с вами соглашусь, так это в том, что проверка орфографии - вещь и вправду насущно необходимая...

...есть ли или планируется ли такая программка- проверка орфографии...
Нету, и пока, откровенно говоря, не очень планируется... Нужно найти человека, который знает, как они делаются. И для начала нам нужен будет полный перечень всех возможных словоформ. Более или менее приличный словарь у нас есть, но там только "словарные" формы слов. Ну, например, в словаре есть слово "баба", а нам для создания программы проверки правописания нужны все возможные формы этого слова, которые могут встретиться в тексте, т.е. "бабам", "бабасындан", "бабаларынъызгъа" и т.д.
Logged

Diqqat: işbu qullanıcı Qırımtatar degil.
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #2 : 2009 mayıs 25, 22:20:44 »

Нужная вещь. Она бы и для словаря пригодилась. Можно было бы использовать функцию подсказки вариантов при неправильном написании слова.


Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #3 : 2009 iyül 12, 13:25:01 »

Ссылка на форматы файлов для системы проверки орфографии Hunspell
http://www.mozilla-russia.org/projects/dictionary/hunspell.html
со всем этим предстоит разобраться
« Soñki deñişiklik: 2009 iyül 12, 22:20:54 Yollağan: bismigalis » Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #4 : 2010 fevral 11, 22:18:25 »

При помощи hunspell можно сделать только проверку орфографии, полноценный разбор морфологии для тюркского языка не получится.

Для этого есть оказывается специальный проект zemberek. Это программа, разрабатываемая турками,  предназначена для автоматизации разбора текста  на тюркских языках. Для работы программы необходима база корней слов и набор правил для образования слов при помощи аффиксов в специальном формате. В настоящий момент такие базы существуют для турецкого и туркменского языков.
Краткое описание системы (на английском)
Блог посвящённый проекту
Онлайн версия программы (для турецкого языка)
Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #5 : 2010 fevral 13, 11:47:42 »

Прикрепил файл ek_tr.xml (также тут) от zemberek'a  для турецкого языка. В нём описывается какие аффиксы в каком порядке к каким корням присоединяются, надо такой же создать для крымскотатарского.
Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #6 : 2010 fevral 13, 12:04:39 »

2.2    Suffix information

The core of all Turkic languages are suffixes (We will not use the term “affix” since framework is based on “suffixes” ). Suffixes are defined in a special XML configuration file. The configuration file contains two main sets of information, suffix groups (ek-kumeleri, ek-kumesi) and individual suffix information (ekler, ek). Suffix groups are used for convenience and suffix information elements contain the actual suffix data. Here is an example from the Turkish suffix file :

<ek ad="ISIM_COGUL_LER" uretim="lAr">
<ardisil-ekler>
<kume>ISIM_HAL</kume>

<kume>IMEK_ZAMAN</kume>
<aek>ISIM_SAHIPLIK_BEN_IM</aek>
<aek>ISIM_SAHIPLIK_SEN_IN</aek>

<aek>ISIM_SAHIPLIK_O_I</aek>
...
</ardisil-ekler>
</ek>
Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #7 : 2010 fevral 13, 12:20:06 »

Each suffix needs to define a unique name (attribute “ad”) which can be different depending on the language. Currently we use our own definitions for suffix names, but the naming scheme can be improved by adding standard based names. There is no agreed standard naming scheme defined for Turkish yet. Most suffixes contain a production word (attribute “uretim”). This word represents the production elements of a suffix. Later, those production elements and information from the word the suffix is to be appended will be used for forming an actual suffix.
For now, There are three types of suffix production elements defined:

1. Letters (represented by small case letters): They are directly added to the suffix when a specific suffix word is created.

2. Vowel rule elements (represented by capital letters as in A, I, E): they represent different vowel production rules. For Turkish, A means an 'a' will be added to the word if the appended word's last vowel is not frontal (a, ı, o, u), else 'e' will be produced.

3. First Letter addition or modification: they modify or add a new letter in certain circumstances, such as '+n' represents 'n' is added if the appended word ends with a vowel.

An example is shown below.

suffix production word: 'lAr'
suffix production elements: [letter:l, vowel rule:A, letter:r]
word to be appended: elma
suffix producer result: 'lar'
Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #8 : 2010 fevral 13, 12:26:36 »

One common characteristic of the suffixes is that apart from some special conditions, they can only be followed by certain suffixes. Actually Zemberek's main morphological parser is based on this simple principle. Therefore most suffix definitions contain subsequent suffix information (“ardisil-ekler” element). For convenience, subsequent suffix information may be individual suffix names, suffix sets or a complete copy from another suffix. There are also special “initial suffixes” used for determining the starting point of the suffix tree. This is because when we want to add a new suffix to a root word (such as a noun without any suffix), not all suffixes can be added. The type of the word gives us a hint for where to start. Therefore, we first add an empty initial suffix which caries the list of subsequent suffix information that can be appended to that root word. In Turkish implementation, they are marked as “KOK - root)”. Here is an example for a initial suffix defined for the type “number”.

<ek ad="SAYI_KOK" uretim="">
<ardisil-ekler kopya-ek = "ISIM_KOK">
<aek>SAYI_ULESTIRME_ER</aek>
<aek>SAYI_KESIR_DE</aek>
<aek>SAYI_SIRA_INCI</aek>
<aek>SAYI_TOPLULUK_IZ</aek>
<aek>SAYI_KOSE_GEN</aek>
</ardisil-ekler>
</ek>
Logged
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #9 : 2010 fevral 14, 13:44:02 »

Мда сложновато разобраться, да ещё то что на турецком языке усложняет задачу. Предлагаю для начала собрать всю информацию по аффиксам на просто понятном языке, а уже потом, кто как захочет, тот так пусть и кодирует её.

Alessandro, я у тебя прошу дозвил на создание временного раздела на форуме посвященному аффиксам (аля Qırımtatar affiksler), где каждому аффиксу будет назначена своя тема, в которой будет собираться инфа. В таком виде мне будет удобней спрашивать по конкретному аффиксу. После того как вся инфа будет собрана, она будет перенесена в текстовый файл и этот раздел будет удален.
Logged
Alessandro
Administrator
Hero Member
*****
Offline Offline

Beyanat sayısı: 459



Azalıq malümatı WWW
« Cevap #10 : 2010 fevral 14, 14:41:24 »

Раздел создал: http://medeniye.org/forum/index.php/board,11.0.html

Вообще, переделать турецкую версию в крымскотатарскую не так сложно, по идее. Большинство аффиксов либо совпадают, либо отличаются незначительно. Я только не до конца понял, как эта xml-ка составляется...
В прочем, есть одна серьёзная вещь, которой в турецком нет, а в крымскотатарском есть: зависимость формы некоторых аффиксов от числа слогов в слове, к которому они пристыковывается (если слово односложное, то в аффиксе u/ü, если многосложное - ı/i).
« Soñki deñişiklik: 2010 fevral 14, 14:43:58 Yollağan: Alessandro » Logged

Diqqat: işbu qullanıcı Qırımtatar degil.
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #11 : 2010 fevral 14, 16:22:56 »

Аха спасибо.

Я два дня всматривался, не смог разобраться, кое-что понял, но не до конца. Впринципе если разработчикам объяснить на понятном для них языке об отличиях от турецкого, я думаю они не отказались бы помочь (вот тут что-то про казантатарский говорят я ничего не понял правда http://zembereknlp.blogspot.com/2007/03/tatara-trek.html )
Logged
Alessandro
Administrator
Hero Member
*****
Offline Offline

Beyanat sayısı: 459



Azalıq malümatı WWW
« Cevap #12 : 2010 fevral 14, 16:32:59 »

Ну, он там пишет, что вот мол создаётся татарская локализация Open Office и есть предложение для татарского сделать проверку орфографии на основе zemberek'а. Он начал разбираться, увидел, что татарские правила присоединения аффиксов отличаются от турецких и посему сам не справится, нужна помощь знающих татарский. И, кстати, этот пост написан почти три года назад...
Logged

Diqqat: işbu qullanıcı Qırımtatar degil.
bismigalis
Administrator
Jr. Member
*****
Offline Offline

Beyanat sayısı: 50



Azalıq malümatı
« Cevap #13 : 2010 fevral 14, 17:08:58 »

Всё понятно, значит помощи ждать не откуда, будем сами прорываться...
Logged
Saife: [1]
  BASTIR  
 
Barmağa istegen yeriñiz:  

MySQL ile küçlendirildi PHP ile küçlendirildi Powered by SMF 1.1.8 | SMF © 2006, Simple Machines LLC

XHTML 1.0 keçerli! CSS keçerli! Dilber MC Theme by HarzeM