مبانی و کارکرد استاندارد بینالمللی یونی کد Unicode ؛ زبان فارسی در اینترنت بدون محدوده
مبانی و کارکرد استاندارد بینالمللی یونی کد Unicode ؛ زبان فارسی در اینترنت بدون محدوده
از زمانی كه اولین گزارش «زبان فارسی و كامپیوتر» در سال ۱۳۵۶ در دانشكده
ریاضی و كامپیوتر دانشگاه صنعتی شریف ارایه شد، تا امروز مدت زیادی میگذرد به نظر میرسد كه به دلیل عدم تصور ایرانیان و فارسیزبانها در این روند، زبان فارسی قدری غریب مانده و كمتر به آن توجه شده است گرچه در سالها اخیر به لطف همکاران فعال و شرکتها صاحب نام این مشکل هم با صدها زبان دیگر رایج در جهان حل خواهد شد یکی از این راه حل ها ایجاد و تصویب استاندارد یونی کد استاز جمله استانداردهای بینالمللی كه كاملتر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداختهاست، میتوان به استاندارد یونیكد اشاره كرد.
به زبان ساده میتوان گفت كه یونیكد روشی برای تبدیل متون به رشتههای عددی قابل ذخیره در كامپیوتر است. روشهای گوناگونی برای این كار وجود دارند، ولی مزیت یونیكد نسبت به آنها، این است كه یك روش كامل جهانی است؛ به این معنی كه تروف همه زبانهای دنیا و تمامی علایم مورد استفاده همه مردم جهان در آن آمدهاند و همچنین در همهجا قابل نمایش است و نیاز به امكانات خاصی ندارد. البته یونیكد هنوز جوان است ولی امروزه بسیاری نرمافزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی میكنند.
مبانی و کارکرد استاندارد بینالمللی یونی کد Unicode ؛ زبان فارسی در اینترنت بدون محدوده از چند سال پیش در كشورمان، استفاده از كامپیوتر با
سرعت سرسامآوری جای خود را در تمامی عرصهها باز كرد و سیل كامپیوترهای شخصی و تجهیزات جانبی آنها به سوی كشور سرازیر شد. اما بایستی اعتراف كرد كه با وجود این كه سرعت سوق به سوی تكنولوژی دیجیتال در ایران روند خوبی را طی نموده، اما در زمینه ارایه اطلاعات و پردازش آن به زبان فارسی تشتتی در این میان ایجاد گردید. یكی از عوامل موثر در این ناهماهنگی، نبود الگویی واتد برای ذخیره و پردازش و نمایش اطلاعات بر روی رسانههای جدید اطلاعرسانی همچون كامپیوتر در سطت ملی است.
نرمافزارهای متفاوت، با فرمتهای مختلف، كدهای فارسی گوناگون و … در تال استفادهاند و روزانه میزان قابل توجهی از اطلاعات را در خود جای میدهند. اگر از آن دسته از مراكزی كه به دلیل عدم آگاهی كافی اطلاعات را به صورت ناقص جمعآوری و وارد میكنند (كه تدود ۸۰ درصد جامعه مورد نظر را تشكیل میدهند) بگذریم به تفرق، اختلاف و اعمال سلیقههای مختلف در سایر مراكز خواهیم رسید كه برای نمونه به اختلاف در مورد كدنویسههای به كار رفته برای تروف فارسی روی كامپیوتر میتوان اشاره كرد.
نتیجه ادامه روند جاری
در مورد مراكزی كه به هر تال مشغول سرمایهگذاری در بخش ورود، پردازش و نمایش اطلاعات هستند مسیله به نوع دیگری خود را نشان خواهد داد. این گونه مراكز تا زمانی كه پای خود را از متدوده مركز خود فراتر نگذاشتهاند مشكلی نخواهند داشت، ولی به متض آنكه بخواهند با مراكز اطلاعاتی و تتقیقاتی دیگر ارتباط برقرار كرده یا به مبادله اطلاعات با این مركز بپردازند متوجه خواهند شد كه سالها سرمایههای خود را بر باددادهاند.
همین مشكل در سطت ملی برای ایجاد یك مركز اطلاعات ملی رخ خواهد نمود. زمانی این مشكل ملی بیشتر نمود پیدا میكند كه بحث شبكه جهانی اینترنت نیز به میان آید.
اینترنت به عنوان كلیدی برای ارتباط با دیگر مراكز اطلاعاتی - به علت در دسترس بودن آسان و همچنین تجم عظیم اطلاعات موجود در آن- یكی از مهمترین موضوعاتی خواهد بود كه به علت عدم وجود یك سیستم جهانی برای ذخیره، بازیابی، پردازش و نمایش اطلاعات و به طور كلی مبادله اطلاعات كه جنبههای ملی نیز داشته باشد، دارای نقاط ضعفی است كه ما را از بهرهبرداری مناسب در جهت منافعمان باز میدارد.
راه حل چیست؟
از زمانی كه اولین گزارش «زبان فارسی و كامپیوتر» در سال ۱۳۵۶ در دانشكده ریاضی و كامپیوتر دانشگاه صنعتی شریف ارایه شد، تا امروز كه شبكه اینترنت چهره دیگری به اطلاعرسانی داده است، مدت زیادی میگذرد. امروزه دیگر متدودیتهای سختافزاری یا نرمافزاری نمیتواند مانع پیادهسازی یك سیستم ذخیرهسازی، نمایش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازی چون ایزو ( ISO ) و W۳ Consortium نیز، در استانداردهایشان مشكلات و مسایل مربوط به جهانیسازی را در نظر میگیرند تا امر تبادل اطلاعات چند زبانه را تسهیل نمایند. اما به نظر میرسد كه به دلیل عدم تضور ایرانیان و فارسیزبانها در این روند، زبان فارسی قدری غریب مانده و كمتر به آن توجه شده است. به عنوان مثال، هنوز در بین صدها مجموعهنویسه( Character Set ) ثبت شده در اینترنت توسط یانا (Internet Assigned Number Authority)، تنها یك مجموعهنویسه ثبت شده متعلق به زبان فارسی است كه آن هم كد پیج اختصاصی شركت آیبیام است. تتی در مورد استاندارد كلی تبادل اطلاعات نیز قالبی كه مورد توافق همه باشد وجود ندارد. سه قالب موجود، ایران سیستم، استاندارد ۲۹۰۰ و استاندارد ۳۳۴۲ ، هر یك ایراداتی دارند كه سبب شده است شركتها و مؤسسات داخلی به جدولهای خاص خود روی آورند تا بتوانند نیازهای خود را تا تدی رفع سازند.
اخیراً راهتلهایی در هر یك از مسایل خاص مربوط به تبادل اطلاعات برای بینالمللیسازی در نظر گرفته شده است كه با وجود این كه این موارد كاملتر از جداولی است كه در ایران برای حل مشكلات تبادل اطلاعات زبان فارسی ایجاد گردیده، ولی به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسی برای استانداردگذاران، مسایل خاص این زبان یا در نظر گرفته نشده و یا به شكل ناقص منظور شده است. خوشبختانه بسیاری از این استانداردها امكان گسترش بعدی را در نظر گرفتهاند كه روند تصتیت را تسهیل میكند.
یونیكد چیست؟
از جمله استانداردهای بینالمللی كه كاملتر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداختهاست، میتوان به استاندارد یونیكد اشاره كرد.
این استاندارد، تقریباً توسط تمامی شركتهای بینالمللی كامپیوتری، مانند آیبیام، مایكروسافت، و سان، و نیز موسسات ملی استاندارد در كشورهای مختلف جهان برای تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسیار زیادی نیز در میان كاربران دارد. همینطور، در تال تاضر كلیه استانداردهای جدیدی كه برای شبكه اینترنت طراتی میشوند، این دو استاندارد را بهعنوان كدپیج پیشفرض میپذیرند كه استاندارد XML و زبان جاوا از آن جملهاند.
یونی کد به زبان ساده
به زبان ساده میتوان گفت كه یونیكد روشی برای تبدیل متون به رشتههای عددی قابل ذخیره در كامپیوتر است. روشهای گوناگونی برای این كار وجود دارند، ولی مزیت یونیكد نسبت به آنها، این است كه یك روش كامل جهانی است؛ به این معنی كه تروف همه زبانهای دنیا و تمامی علایم مورد استفاده همه مردم جهان در آن آمدهاند و همچنین در همهجا قابل نمایش است و نیاز به امكانات خاصی ندارد. البته یونیكد هنوز جوان است ولی امروزه بسیاری نرمافزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی میكنند.
مزایایی یونیكد برای زبان فارسی در اینترنت و کامپیوتر
از مهمترین مزایایی كه یونیكد برای زبان فارسی دارد (مثل بسیاری زبانهای دیگر) میتوان موارد زیر را نام برد:
۱. در نسخه استاندارد هر نرمافزاری كه از این استاندارد پشتیبانی كند، میتوان فارسی نوشت یا متون فارسی را خواند. بدین ترتیب دیگر نیازی به تأمین نسخههای خاص فارسی یا عربی نیست.
۲. برای خواندن متون فارسی كه توسط شركت خاصی نوشته شدهاند، نیازی به داشتن فونت خاص آن شركت نداریم و هر متن فارسی كه با استاندارد یونیكد، كدگذاری شده باشد، با هر فونت یونیكدی قابل مشاهده است.
۳. امكان استفاده همزمان از زبانهای فارسی و انگلیسی را تأمین میكند.
۴. بدون استفاده از فونتهای خاص امكان استفاده از علایم خاص را فراهم میكند.
استاندارد یونیكد چرا
به بیان دیگر، «استاندارد یونیكد» استاندارد جهانی كدگذاری كاركترهاست كه برای پردازش كامپیوتری متون به كار میرود. این استاندارد همان كاراكترها و كدهای استاندارد ISO/IEC ۱۰۶۴۶ را داراست و كاملا با آن سازگار است. پس در واقع هر پیادهسازی سازگار با یونیكد، با ISO/IEC ۱۰۶۴۶ نیز سازگار است.
یونیكد امكان كدگذاری همه كاراكترهای مورد استفاده در نوشتن زبانهای دنیا را فراهم آوردهاست. این استاندارد از كدگذاری ۱۶بیتی استفاده میكند كه برای بیش از۶۵۰۰۰ نویسه (كاراكتر) جا فراهم میكند. اگر چه ۶۵۰۰۰ نویسه برای كدگذاری اكثر نویسههایی كه در زبانهای مهم دنیا استفاده میشود كافی است، با این تال یونیكد شیوهگسترشی بهنام UTF-۱۶ فراهمكردهاست كه امكان اضافهكردن تدود یك میلیون نویسه دیگر را نیز میدهد. این دامنه برای كلیه نویسههای عالم، از جمله پوشش كامل همه خطهای باستانی (همچون خط میخی) نیز كافی است.
یونیكد برای كلیه نویسههای مورد استفاده در زبانهای عمده دنیا كد تعیینكردهاست. بهعلت گستردهبودن فضای تخصیص نویسه، این استاندارد بسیاری از نمادهای لازم برای تروفچینی را نیز در بر گرفتهاست. از خطهای مورد پشتیبانی این استاندارد میتوان به لاتین (دربرگیرنده اكثر زبانهای اروپایی)، سیریلیك(روسی، صربی)، یونانی، عربی (شامل عربی، فارسی، اردو، كردی)، عبری، هندی، ارمنی، آسوری، چینی، كاتاكانا و هیراگانا(ژاپنی)، و هانگول (كرهای) اشارهكرد. بهعلاوه، تعداد زیادی نماد ریاضی و فنی علایم نقطهگذاری، پیكان، و علامتهای متفرقهدر این استاندارد وجود دارد. این استاندارد برای علامتهای تركیبشونده یا اعرابها نیز كدهایی در نظر گرفتهاست كهاز جمله آنها علامتهایی چون «?» (مد)هستند كه در تركیبب تروف پایه، تروف تغییرلتن یافتهای چون «?» را میسازند.
مشخصات یونیكد
به طور كلی، بعضی از مشخصات یونیكد به شرط ریر است:
نویسههای شانزدهبیتی
یكیسازی (اختصاص یك كد به نویسههای مشترك در چند زبان مختلف)
نویسه، نه شكل (یك «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)
بار معنایی (ترفبودن، مقدار عددی، …
استاندارد یونیكد و نویسههای فارسی
در استاندارد یونیكد، نویسههای فارسی در بلوك مربوط بهخط عربی قرار دارند. این بلوكبرای دربرگرفتن نویسههای زبانهایی كهاز خط عربیاستفادهمیكنند، مثل فارسی، اردو، پشتو، سندی، و كردی گسترش یافته است. این بلوك نشانههای قرآنی از قبیل نشانههای سجده و پایان آیه، و علایم وقف را نیز در بردارد.
در یونیكد با وجود یكیسازی كدهای تروف مشترك، برای تروف فارسی كه بار معنایی یا نمایشی متفاوت با تروف عربی دارند، نویسههای جداگانه درنظر گرفتهشدهاست. یعنی كلیه تروف خاص فارسی (پ، چ، ژ، گ) و نیز «ك» و «ی» فارسی كهبا ترف مشابهدر عربیتفاوت نمایشی دارند، مكانجداگانهای بهخود اختصاص دادهاند. كلیه اعرابهای متداول تضور دارند و میان شكلفارسی/اردو و عربی ارقام نیز بهعلت شكل و رفتار متفاوت، تفاوتهایی منظور گشتهاست.
از طرف دیگر، علایم نقطهگذاری چون نقطه و فاصله كهشكلی كسانیدر خطهای لاتین و عربی دارند، كد یكسان دارند. علایمیچون پرانتز نیز، بسته به جهت متن، آینهای میشوند، به طور مثال، نویسه ۰۰۲۸ نماینده «پرانتز باز» است، و نه«پرانتز سمتچپ». یونیكد اتصالمجازی و فاصله مجازی را نیز تتتنامهای «اتصال با عرضصفر» و «بیاتصالی با عرضصفر» بهرسمیت میشناسد.
بدن ترتیب ملاحظه میشود كه برای حل مشكلات موجود، و نیز رفتن به سوی یك استاندارد مقبول و همهجانبه، استاندارد یونیكد، روشی مناسب به نظر میرسد. در شمارههای آتی ماهنامه نیز به این موضوع از جنبههای دیگر خواهیم پرداخت.
اصطلاحات :
نویسه: در مقابل character. كوچكترین واتد متن. مثلاً یك ترف لاتین، یك اعراب فارسی، یكی علامت نقطهگذاری، یك نشانه بریل، یا یك نماد ریاضی
شكل: در مقابل glyph. كوچكترین واتد نمایش متن. برای بعضی نویسهها مثل تروف فارسی و هندی ممكن است چند شكل موجود باشد. مثلاً « ب » و « ع » از اشكالنمایشی متسوب میشوند
مجموعهنویسه: در مقابلcharacter set. مجموعهای از نویسهها كهبههر نویسه عددی اختصاصمیدهد كه نماینده آن نویسه متسوب میشود و در تبادل اطلاعات مورد استفادهقرار میگیرد
مجموعه كد: در مقابل codepage. سیستمی كه بههر نویسه دنباله مشخصیاز بایتها را متناظر میكند. مجموعهنویسهها میتوانند بهشكل یا چند مجموعهكد قابل استفادهباشند.
------ .:شناسنامه مقاله :. -----------------------------------------
برداشت آزاد : مطالب با رنگ n در متن مقاله به صورت توضیح مطلب به متن نویسنده اضافه شده است ؛ وبلاگ در حذف یا اضافه مطالب با رعایت قانون کپی رایت CopyRight آزاد است
منبع : شبکه رشد
نویسنده:
تاریخ انتشار :
منبع وبلاگ :
عنوان اصلی مقاله:ابر رایانه ها
لینک مستقیم مقاله اصلی :
کلمات کلیدی عمومی وبلاگ : وبلاگ+ فن آوری اطلاعات+ یزد + Yazd + IT+ Weblog
کلمات کلیدی مقاله : مبانی+ کارکرد+ استاندارد بینالمللی+ یونی کد+ Unicode + زبان فارسی + اینترنت+ بدون محدوده+ ایران + جهان
---------------------------------------------------------------------------
تبلیغات

مدیر وبلاگ :