Киккарин Сайран Мырзахметович

ҚАЗАҚ ЖАЗУЫН ең алғаш КОМПЬЮТЕРГЕ КІРГІЗГЕН МАМАН

Киккарин Сайран Мырзахметович

Латын әліпбиіне көшудің техникалық мәселелері жайында

Мақал: «Кеңесiп пiшкен тон келте болмас»

Соңғы жылдары қазақ тілі латын әліппесіне қайтару туралы бірсыпыра жобалар жарық көрді. Алайда, олардың қолданыстағы техникалық стандарттарымен үйлесімділігіне көбінде мән берілмейді. Сонымен ұсынылып жатқан жобалардың біразы іске асырыла калған жағдайда қазіргі кирилл жазуынан да артық техникалық киыншылықтарды туғызатынын ескерген жөн. Төменде қазақ тілінің жаңа латын әліппені жобалағанда ескеретін техникалық мәселелер талқыланады.
Жалпы қазір ақпараттық жүйелерде мәтінді кодтаудың екі түрі қолданыста. Жаңасы – 16 биттік ISO-10646 (Unicode) стандартты кодтауы. 16-биттік кодтау кестесіне 216=65536 таңба сыяды. Бұл жер жүзіндегі барлық әліппелер мен тіпті бірнеше мың иероглифтерді де жалғыз кестемен қамтиды. Unicode жыл сайын қолдану аясын кеңейтіп келе жатқан кодтамасы. Мысалы, мәтінді жазып өңдеу үшін өте жиі қолданатын Microsoft Word бағдарламасы осы кодтау тәсілін қолданады. Түбінде бара-бара, Unicode-тың арқасында латын емес әліппелерінің латын әліппесімен «терезесі тең» болатын үрдіс бар. Ашық айту керек — бұл тілімізді қәзіргі кириллицада қалтыруды жақтайтындардың ұпайын қосатын жағдай.
Екінші мәтінді кодтау тәсілі – 8-биттік кодтау. 8-биттік кодтау кестесіне небары 28=256 таңба сыятын болғандықтан қолданыстағы кестелер көп — әрбір әліппеге арнап бір, тіпті бірнеше кестелер стандартталынған. Маңызы төмендеп бара жатқан тәсіл болса да, 8-биттік кодтамалардың қолданылуы әлі кең. Ақпараттық технологиялар саласындағы әдет бойынша 8-биттік барлық кодтау кестелердің бірінші жартысы (яғни 0-127 деген кодтары) таза латын (яғни A-Z және a-z әріптері) әліппесіне берілген. Бұны ASCII стандарты деп атайды. Келесі суретте ASCII кестесі келтірілген:

8-биттік кестелерінің екінші жартысында (яғни 128-255 деген кодтарында) жергілікті әліппелер орналасады, латын әліппесін қолданатын тілдерде – қосымша диакритикалық белгілі әріптер, латын емес әліппелерде – толық сол жергілікті әліппесі. Мысал үшін қазақ тілінің 8-биттік кодтау ҚРСТ-1048-2002 стандартты кестесі (кестенің екінші жартсы) келесі суретте келтірілген:

Мәселе осы 8-биттік кестелерінің таралымында, ақпараттық жүйелердің біразы кирилл жазуын колдамайды, ал кирилицаны қолдағанның арасында, қазақ тілінің қосымша әріптерін қолдайтыны мүлдем сирек. Кирилл жазуының ыңғайсыздығы дегеніміз осында жатыр.
Ең кең таралған 8-биттік кесте – ISO-8859-1 (Latin 1) стандартты кестесі. Бұл стандарт бір қатар батыс еуропалық ықпалды тілдерді қамтамасыз етеді, соңдықтан барлық дерлік ақпараттық жүйелерде қолдау тапқан. ISO-8859-1 кестесі келесі суретте келтірілген:

Осы ASCII + ISO-8859-1 кестесіндегі таңбалар шеңберінен шықпаған тіл латын әліппенің ыңғайын толық көреді. Басқа бір қатар ISO-8859 стандарттар, өзге латын әліппесін қолданатын тілдерге арналған: ISO-8859-2 (Latin 2) – шығыс еуропалық, ISO-8859-3 (Latin 3) – оңтүстік еуропалық, ISO-8859-4 (Latin 4) – солтүстік еуропалық тілдерге арналған. Әрбір осы кесте аталған тілдерінің диакритикалық белгілермен түрлендірілген әріптер жиынтығын қамтамасыз етеді, бірақ ақпараттық жүйелерде ISO-8859-1 (Latin 1) стандарттан сирегірек кездеседі. Түрік тілінде, өзге тілдерде мүлдем кездеспейтін Tutk_i (нүктесіз і) әріпі бар болғандықтан, түріктер бір дербес, арнайы стандартқа ие — ISO-8859-9 (Latin 5). Бұл кесте ақпараттық жүйелерде орыстардың кирилицасынан да сирек кездеседі, сондықтан түрік тілі латын әліпесінің ыңғайын толық көріп отыр деген, біздің ойымызша, қате пікір. Түрік латын әліппесі XX ғасырдың екінші ширегінде (яғни ақпараттандыру дәуірінен бұрын) калыптасқан, сол себептен бұл жағдай ескерілмеген.
Әзербайжан XX ғасырдың ең соңында латын әліппесіне қайта көшуді бастаған болса да, ол кезде ешбір қолданыстағы 8-биттік стандартқа сәйкес келмейтін таңбалар жиынтығын қабылдаған. Жалпы әріптер жинағы түрік тіліне ұқсас, бірақ бір айырмашылығы — латын әліппелерінде өте сирек қолданылатын « Shawa » әріпі бар. Осы әріпке бола жаңа ISO-8859-9e деп аталған стандартты қабылдауға мәжбүр болған. Бұл стандарт тек түрік және әзери-түрік тілдерді қамтамасыз ететін болғандықтан, тек осы елдерге арналған ақпараттық жүйелерде іске асырылады. Сонда әзербайжан тілі бір сирек қолданылатын жүйеден басқа сирек қолданылатын жүйеге көшкен.
Өзбек тілінің қазіргі латын әліппесінің жағдайы, ақпараттық технология тұрғыдан қарасақ, мүлдем басқа, себебі ол таза латын әліппені негіздеген. Өзбек тілінің кириллицасында орыс тілінің әріптерінен тыс небары төрт әріп қана болатын: Ў, Қ, Ғ, және Ҳ. Латын жазуында Ў пен Ғ әріптерін тырнақша арқылы O’ және G’ деп келтіріп, Қ мен Ҳ әріптерді Q мен H деп, бір қатар дыбыстар қос таңбалы Yo, Ts, Ch, Sh түрде аударылған. Сонымен, өзбек латын жазуы жоғарыда аталған ASCII стандарттың шеңберімен шектелген соң, оны кез келген 8-биттік кесте көмегімен жаза беруге болады. Бұл тәсілдің бір кемшілігі бар – тырнақша әдетте әріптер санатына жатпайды да, ақпараттық жүйелер тұтас сөзді бірнеше сөз ретінде танып, жаңылып қалады. Бұндайды болдырмау үшін керек бағдарламаларды әдейі бейімдеу керек.
Компьютер жүйесінде (компьютер, қалта телефондар және т.б. ақпараттық құралдарда) кодтау кестеден басқа бір жергіліктендірілетін жүйесі – пернетақта сәйкестігі (keybord layout). Әдеттегі латын әліппесінің пернетақта сәйкестігі – АҚШ ағылшын тілінің пернетақтасы. Бұл пернетақта тек таза латын әріптерді теру мүмкіндігін береді. Таза латын әліппені қолданған кезде бұл жағынан ешбір қосымша техникалық шара қолдану керек жоқ. Әйтпесе, яғни диакритикалық белгілерді қолдансақ – пернетақта сәйкестігін, диакритикалық таңбаларды пайдаланатын басқа тілдердің пернетақталарын үлгі ретінде алып, бейімдеу керек. Бұл басқа техникалық мәселелермен салыстырғанда өте қиын мәселе емес – бірақ әйтеуір шешуін қажет ететін бір мәселе.
Тағы бір ескеретін техникалық жағдай – жазу реформасы өткізілетін болса, кирилилицада жазылған мәтіндерді латын жазуына автоматты түрде аудару мәселесі. Автоматты түрде аудару мүмкіндігі болу үшін қазіргі әліппеден болашақты әліппеге аудару ережесі біркелкі болғаны жөн. Кері (латын әліппесінен кирилл жазуына) аудару ережесі біркелкі болғаны да ыңғайлы болар еді, бірақ бұндай талап латын әліппеге көшкенде қажетті емле реформасына қайшы келер. Мысалы, латын жазуын қолданғанда жіңішкелік белгісін (мягкий знак) қалдыруы артық болар, мәселен, «компьютер» (computer) дегенді «kompjuter» деп, қазіргі емілемізде орыс тілінің ықпалымен жүрген жіңішкелік белгіден айну керек сияқты. Емле реформасы техникалық мәселеге жатпайтын болғандықтан, оны лингвист мамандардың үлесіне қалдырып, мұнда тек техникалық мәселелермен шектесейік.

ҚОРТЫНДЫСЫ: Латын әліппеге көшудің мақсаты – кең тараған стандарттарға қосылып, бүкіл жақтан дамыған, қолданысқа дайын және ыңғайлы жазу жүйесіне ие болу. Сондықтан әліппемізде қолданылатын таңбаларды таңдағанда шынайы кең таралған стандарттарға жүгіну керек. Ақпараттық жүйелерде ең көп таралған латын таңбалар жиынтығы – ISO-8859-1 (Latin 1). Жаңа әліппені жобалағанда осы стандарттың шеңберінде қалған жөн.
Сонымен қатар, ақпараттық технологияларда соңғы 10 жылда елеулі өзгеріс орын алғанын ескеру керек. Бұдан 10 жыл бұрын негізгі мәтінді кодтау кестелері 8-биттік болатын. Сол кезде латын әліппеге ие елдер әжептәуір ұтымды жағдайда болған. Қазір негізгі кодтау кестесі 16-биттік Unicode. Бұл түрлі латын емес жазуларға ие тілдерді латын әріптерді қолданатындармен біршама теңестірді. Unicode-тың қолдану аясының өсуі осы үрдіспен жалғастырыла берсе, енді он жылда латын әліппесі техникалық тұрғыдан қарағанда «теңдер арасындағы біріншісі» болып қалуы әбден мүмкін.

Физика-техникалық институтының
жетекші ғылым қызметкері, ф.-м.ғ.к.,
С.М.Киккарин
e-mail: sairan ainalaiyn computer.org