مبانی و کارکرد استاندارد بین‌المللی یونی کد Unicode  ؛ زبان فارسی در اینترنت بدون محدوده

از زمانی كه اولین گزارش «زبان فارسی و كامپیوتر» در سال ۱۳۵۶ در دانشكدهمبانی و کارکرد استاندارد بین‌المللی یونی کد Unicode  ؛ زبان فارسی در اینترنت بدون محدوده ریاضی و كامپیوتر دانشگاه صنعتی شریف ارایه شد، تا امروز مدت زیادی می‌گذرد به نظر می‌رسد كه به دلیل عدم تصور ایرانیان و فارسی‌زبان‌ها در این روند، زبان فارسی قدری غریب مانده و كمتر به آن توجه شده است گرچه در سالها اخیر به لطف همکاران فعال و شرکتها صاحب نام این مشکل هم با صدها زبان دیگر رایج در جهان حل خواهد شد یکی از این راه حل ها ایجاد و تصویب استاندارد یونی کد استاز جمله استانداردهای بین‌المللی كه كامل‌تر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداخته‌است، می‌توان به استاندارد یونی‌كد اشاره كرد.

به زبان ساده می‌توان گفت كه یونی‌كد روشی برای تبدیل متون به رشته‌های عددی قابل ذخیره در كامپیوتر است. روش‌های گوناگونی برای این كار وجود دارند، ولی مزیت یونی‌كد نسبت به آنها، این است كه یك روش كامل جهانی است؛ به این معنی كه تروف همه زبان‌های دنیا و تمامی علایم مورد استفاده همه مردم جهان در آن آمده‌اند و همچنین در همه‌جا قابل نمایش است و نیاز به امكانات خاصی ندارد. البته یونی‌كد هنوز جوان است ولی امروزه بسیاری نرم‌افزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی می‌كنند.

مبانی و کارکرد استاندارد بین‌المللی یونی کد Unicode  ؛ زبان فارسی در اینترنت بدون محدوده از چند سال پیش در كشورمان، استفاده از كامپیوتر با مبانی و کارکرد استاندارد بین‌المللی یونی کد Unicode  ؛ زبان فارسی در اینترنت بدون محدودهسرعت سرسام‌آوری جای خود را در تمامی عرصه‌ها باز كرد و سیل كامپیوترهای شخصی و تجهیزات جانبی آنها به سوی كشور سرازیر شد. اما بایستی اعتراف كرد كه با وجود این كه سرعت سوق به سوی تكنولوژی دیجیتال در ایران روند خوبی را طی نموده، اما در زمینه ارایه اطلاعات و پردازش آن به زبان فارسی تشتتی در این میان ایجاد گردید. یكی از عوامل موثر در این ناهماهنگی، نبود الگویی واتد برای ذخیره و پردازش و نمایش اطلاعات بر روی رسانه‌های جدید اطلاع‌رسانی همچون كامپیوتر در سطت ملی است.

نرم‌افزارهای متفاوت، با فرمت‌های مختلف، كدهای فارسی گوناگون و … در تال استفاده‌اند و روزانه میزان قابل توجهی از اطلاعات را در خود جای می‌دهند. اگر از آن دسته از مراكزی كه به دلیل عدم آگاهی كافی اطلاعات را به صورت ناقص جمع‌آوری و وارد می‌كنند (كه تدود ۸۰ درصد جامعه مورد نظر را تشكیل می‌دهند) بگذریم به تفرق، اختلاف و اعمال سلیقه‌های مختلف در سایر مراكز خواهیم رسید كه برای نمونه به اختلاف در مورد كدنویسه‌های به كار رفته برای تروف فارسی روی كامپیوتر می‌توان اشاره كرد.

 

نتیجه ادامه روند جاری

در مورد مراكزی كه به هر تال مشغول سرمایه‌گذاری در بخش ورود، پردازش و نمایش اطلاعات هستند مسیله به نوع دیگری خود را نشان خواهد داد. این گونه مراكز تا زمانی كه پای خود را از متدوده مركز خود فراتر نگذاشته‌اند مشكلی نخواهند داشت، ولی به متض آنكه بخواهند با مراكز اطلاعاتی و تتقیقاتی دیگر ارتباط برقرار كرده یا به مبادله اطلاعات با این مركز بپردازند متوجه خواهند شد كه سال‌ها سرمایه‌های خود را بر بادداده‌اند.

همین مشكل در سطت ملی برای ایجاد یك مركز اطلاعات ملی رخ خواهد نمود. زمانی این مشكل ملی بیشتر نمود پیدا می‌كند كه بحث شبكه جهانی اینترنت نیز به میان آید.

اینترنت به عنوان كلیدی برای ارتباط با دیگر مراكز اطلاعاتی - به علت در دسترس بودن آسان و همچنین تجم عظیم اطلاعات موجود در آن- یكی از مهم‌ترین موضوعاتی خواهد بود كه به علت عدم وجود یك سیستم جهانی برای ذخیره، بازیابی، پردازش و نمایش اطلاعات و به طور كلی مبادله اطلاعات كه جنبه‌های ملی نیز داشته باشد، دارای نقاط ضعفی است كه ما را از بهره‌برداری مناسب در جهت منافعمان باز می‌دارد.

 

راه حل چیست؟

از زمانی كه اولین گزارش «زبان فارسی و كامپیوتر» در سال ۱۳۵۶ در دانشكده ریاضی و كامپیوتر دانشگاه صنعتی شریف ارایه شد، تا امروز كه شبكه اینترنت چهره دیگری به اطلاع‌رسانی داده است، مدت زیادی می‌گذرد. امروزه دیگر متدودیت‌های سخت‌افزاری یا نرم‌افزاری نمی‌تواند مانع پیاده‌سازی یك سیستم ذخیره‌سازی، نمایش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازی چون ایزو ( ISO ) و W۳ Consortium نیز، در استانداردهایشان مشكلات و مسایل مربوط به جهانی‌سازی را در نظر می‌گیرند تا امر تبادل اطلاعات چند زبانه را تسهیل نمایند. اما به نظر می‌رسد كه به دلیل عدم تضور ایرانیان و فارسی‌زبان‌ها در این روند، زبان فارسی قدری غریب مانده و كمتر به آن توجه شده است. به عنوان مثال، هنوز در بین صدها مجموعه‌نویسه( Character Set ) ثبت شده در اینترنت توسط یانا (Internet Assigned Number Authority)، تنها یك مجموعه‌نویسه ثبت شده متعلق به زبان فارسی است كه آن هم كد پیج اختصاصی شركت آیبیام است. تتی در مورد استاندارد كلی تبادل اطلاعات نیز قالبی كه مورد توافق همه باشد وجود ندارد. سه قالب موجود، ایران سیستم، استاندارد ۲۹۰۰ و استاندارد ۳۳۴۲ ، هر یك ایراداتی دارند كه سبب شده است شركت‌ها و مؤسسات داخلی به جدول‌های خاص خود روی آورند تا بتوانند نیازهای خود را تا تدی رفع سازند.

اخیراً راه‌تل‌هایی در هر یك از مسایل خاص مربوط به تبادل اطلاعات برای بین‌المللی‌سازی در نظر گرفته شده است كه با وجود این كه این موارد كامل‌تر از جداولی است كه در ایران برای حل مشكلات تبادل اطلاعات زبان فارسی ایجاد گردیده، ولی به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسی برای استانداردگذاران، مسایل خاص این زبان یا در نظر گرفته نشده و یا به شكل ناقص منظور شده است. خوشبختانه بسیاری از این استانداردها امكان گسترش بعدی را در نظر گرفته‌اند كه روند تصتیت را تسهیل می‌كند.

 

یونی‌كد چیست؟

از جمله استانداردهای بین‌المللی كه كامل‌تر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداخته‌است، می‌توان به استاندارد یونی‌كد اشاره كرد.

این استاندارد، تقریباً توسط تمامی شركت‌های بین‌المللی كامپیوتری، مانند آیبیام، مایكروسافت، و سان، و نیز موسسات ملی استاندارد در كشورهای مختلف جهان برای تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسیار زیادی نیز در میان كاربران دارد. همین‌طور، در تال تاضر كلیه استانداردهای جدیدی كه برای شبكه اینترنت طراتی می‌شوند، این دو استاندارد را به‌عنوان كدپیج پیش‌فرض می‌پذیرند كه استاندارد XML و زبان جاوا از آن جمله‌اند.

 

یونی کد به زبان ساده

به زبان ساده می‌توان گفت كه یونی‌كد روشی برای تبدیل متون به رشته‌های عددی قابل ذخیره در كامپیوتر است. روش‌های گوناگونی برای این كار وجود دارند، ولی مزیت یونی‌كد نسبت به آنها، این است كه یك روش كامل جهانی است؛ به این معنی كه تروف همه زبان‌های دنیا و تمامی علایم مورد استفاده همه مردم جهان در آن آمده‌اند و همچنین در همه‌جا قابل نمایش است و نیاز به امكانات خاصی ندارد. البته یونی‌كد هنوز جوان است ولی امروزه بسیاری نرم‌افزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی می‌كنند.

 

مزایایی  یونی‌كد برای زبان فارسی در اینترنت و کامپیوتر

از مهم‌ترین مزایایی كه یونی‌كد برای زبان فارسی دارد (مثل بسیاری زبان‌های دیگر) می‌توان موارد زیر را نام برد:

۱. در نسخه استاندارد هر نرم‌افزاری كه از این استاندارد پشتیبانی كند، می‌توان فارسی نوشت یا متون فارسی را خواند. بدین ترتیب دیگر نیازی به تأمین نسخه‌های خاص فارسی یا عربی نیست.

۲. برای خواندن متون فارسی كه توسط شركت خاصی نوشته شده‌اند، نیازی به داشتن فونت خاص آن شركت نداریم و هر متن فارسی كه با استاندارد یونی‌كد، كدگذاری شده باشد، با هر فونت یونی‌كدی قابل مشاهده است.

۳. امكان استفاده هم‌زمان از زبان‌های فارسی و انگلیسی را تأمین می‌كند.

۴. بدون استفاده از فونت‌های خاص امكان استفاده از علایم خاص را فراهم می‌كند.

 

استاندارد یونی‌كد چرا

به بیان دیگر، «استاندارد یونی‌كد» استاندارد جهانی كدگذاری كاركترهاست كه برای پردازش كامپیوتری متون به كار می‌رود. این استاندارد همان كاراكترها و كدهای استاندارد ISO/IEC ۱۰۶۴۶ را داراست و كاملا با آن سازگار است. پس در واقع هر پیاده‌سازی سازگار با یونی‌كد، با ISO/IEC ۱۰۶۴۶ نیز سازگار است.

یونی‌كد امكان كدگذاری همه كاراكترهای مورد استفاده در نوشتن زبان‌های دنیا را فراهم آورده‌است. این استاندارد از كدگذاری ۱۶بیتی استفاده می‌كند كه برای بیش از۶۵۰۰۰ نویسه (كاراكتر) جا فراهم می‌كند. اگر چه ۶۵۰۰۰ نویسه برای كدگذاری اكثر نویسه‌هایی كه در زبان‌های مهم دنیا استفاده می‌شود كافی است، با این تال یونی‌كد شیوه‌گسترشی به‌نام UTF-۱۶ فراهم‌كرده‌است كه امكان اضافه‌كردن تدود یك میلیون نویسه دیگر را نیز می‌دهد. این دامنه برای كلیه نویسه‌های عالم، از جمله پوشش كامل همه خط‌های باستانی (همچون خط میخی) نیز كافی است.

یونی‌كد برای كلیه نویسه‌های مورد استفاده در زبان‌های عمده دنیا كد تعیین‌كرده‌است. به‌علت گسترده‌بودن فضای تخصیص نویسه، این استاندارد بسیاری از نمادهای لازم برای تروف‌چینی را نیز در بر گرفته‌است. از خط‌های مورد پشتیبانی این استاندارد می‌توان به لاتین (دربرگیرنده اكثر زبان‌های اروپایی)، سیریلیك(روسی، صربی)، یونانی، عربی (شامل عربی، فارسی، اردو، كردی)، عبری، هندی، ارمنی، آسوری، چینی، كاتاكانا و هیراگانا(ژاپنی)، و هانگول (كره‌ای) اشاره‌كرد. به‌علاوه، تعداد زیادی نماد ریاضی و فنی علایم نقطه‌گذاری، پیكان، و علامت‌های متفرقه‌در این استاندارد وجود دارد. این استاندارد برای علامت‌های ‌تركیب‌شونده‌ یا اعراب‌ها نیز كدهایی در نظر گرفته‌است كه‌از جمله آنها علامت‌هایی چون «?» (مد)هستند كه در تركیبب تروف پایه، تروف تغییرلتن یافته‌ای چون «?» را می‌سازند.

 

مشخصات یونی‌كد

به طور كلی، بعضی از مشخصات یونی‌كد به شرط ریر است:

نویسه‌های شانزده‌بیتی

یكی‌سازی (اختصاص یك كد به نویسه‌های مشترك در چند زبان مختلف)

نویسه، نه شكل (یك «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)

بار معنایی (ترف‌بودن، مقدار عددی،

 

استاندارد یونی‌كد و نویسه‌های فارسی

در استاندارد یونی‌كد، نویسه‌های فارسی در بلوك مربوط به‌خط‌ عربی‌ قرار دارند. این بلوك‌برای دربرگرفتن نویسه‌های زبان‌هایی كه‌از خط عربی‌استفاده‌می‌كنند، مثل فارسی، اردو، پشتو، سندی، و كردی گسترش یافته است. این بلوك نشانه‌های قرآنی از قبیل نشانه‌های سجده و پایان آیه، و علایم وقف را نیز در بردارد.

در یونی‌كد با وجود یكی‌سازی كدهای تروف مشترك، برای تروف فارسی كه بار معنایی یا نمایشی متفاوت با تروف عربی دارند، نویسه‌های جداگانه درنظر گرفته‌شده‌است. یعنی كلیه تروف خاص فارسی (پ، چ، ژ، گ) و نیز «ك» و «ی» فارسی كه‌با ترف مشابه‌در عربی‌تفاوت نمایشی دارند، مكان‌جداگانه‌ای به‌خود اختصاص داده‌اند. كلیه اعراب‌های متداول تضور دارند و میان شكل‌فارسی/اردو و عربی ارقام نیز به‌علت شكل و رفتار متفاوت، تفاوت‌هایی منظور گشته‌است.

از طرف دیگر، علایم نقطه‌گذاری چون نقطه و فاصله كه‌شكلی كسانی‌در خط‌های لاتین و عربی دارند، كد یكسان‌ دارند. علایمی‌چون پرانتز نیز، بسته به جهت متن، آینه‌ای می‌شوند، به طور مثال، نویسه ۰۰۲۸ نماینده «پرانتز باز» است، و نه«پرانتز سمت‌چپ». یونی‌كد اتصال‌مجازی و فاصله مجازی را نیز تتت‌نام‌های «اتصال با عرض‌صفر» و «بی‌اتصالی با عرض‌صفر» به‌رسمیت می‌شناسد.

بدن ترتیب ملاحظه می‌شود كه برای حل مشكلات موجود، و نیز رفتن به سوی یك استاندارد مقبول و همه‌جانبه، استاندارد یونی‌كد، روشی مناسب به نظر می‌رسد. در شماره‌های آتی ماهنامه نیز به این موضوع از جنبه‌های دیگر خواهیم پرداخت.

 

اصطلاحات :

نویسه: در مقابل character. كوچك‌ترین واتد متن. مثلاً یك ترف لاتین، یك اعراب فارسی، یكی علامت نقطه‌گذاری، یك نشانه بریل، یا یك نماد ریاضی

شكل: در مقابل glyph. كوچك‌ترین واتد نمایش متن. برای بعضی نویسه‌ها مثل تروف فارسی و هندی ممكن است چند شكل موجود باشد. مثلاً « ب » و « ع » از اشكال‌نمایشی متسوب می‌شوند

مجموعه‌نویسه: در مقابلcharacter set. مجموعه‌ای از نویسه‌ها كه‌به‌هر نویسه عددی اختصاص‌می‌دهد كه نماینده آن نویسه متسوب می‌شود و در تبادل اطلاعات مورد استفاده‌قرار می‌گیرد

مجموعه كد: در مقابل codepage. سیستمی كه به‌هر نویسه دنباله مشخصی‌از بایت‌ها را متناظر می‌كند. مجموعه‌نویسه‌ها می‌توانند به‌شكل یا چند مجموعه‌كد قابل استفاده‌باشند.

 

 

 

------ .:شناسنامه مقاله :. -----------------------------------------

برداشت آزاد : مطالب با رنگ n در متن مقاله به صورت توضیح مطلب به متن نویسنده اضافه شده است ؛ وبلاگ در حذف یا اضافه مطالب با رعایت قانون کپی رایت CopyRight  آزاد است

منبع : شبکه رشد

نویسنده:

تاریخ انتشار :

 منبع وبلاگ  :

 عنوان اصلی مقاله:ابر رایانه ها

لینک مستقیم  مقاله اصلی :

کلمات کلیدی عمومی وبلاگ : وبلاگ+ فن آوری اطلاعات+ یزد + Yazd + IT+ Weblog

 کلمات کلیدی مقاله : مبانی+ کارکرد+ استاندارد بین‌المللی+ یونی کد+ Unicode  + زبان فارسی + اینترنت+ بدون محدوده+ ایران + جهان

 ---------------------------------------------------------------------------

 

مقالات مرتبط در وبلاگ فن آوری اطلاعات یزد

مقالات مرتبط  : آشنایی با کاربران ایرانی – فارسی زبان

» کاربران اینترنتی ایران به چه موضوعاتی علاقمند هستند
»» جهان در شبکه اینترنت با موتورجستجو گوگل در سال2005 جستجو کردند؟

»» نیم نگاهی به فعالیتهای اینترنتی موتورجستجو گر گوگل در سال 2005 میلادی
»» مقدمه ای بر جوامع اینترنتی بین المللی و فارسی زبان ؛ کلوب های گفتگو کاربران اینترنتی
»» کاربران اینترنت تا چه چه از دانش فن آوری اطلاعات سر در می آورند و چه میزان باید بدانند
»» تحقیقى بر روی ۱۰۰ وبلاگ فارسى ، وبلاگهای ایرانی و مشخصه ها و نوع کاربری
»» نگاهی به تحقیق در مورد تولید محتوا اطلاعات برای اینترنت در نزد کاربران آمریکایی
»» ایران رتبه آخر کاربری اینترنت درمیان كشورها ، مبارک باشه!!!
»» همه چیز در مورد یک کلمه عبور مناسب برای کاربران
»» آمار و ارقام متعدد، متفاوت کاربران ایرانی
»» آمار کاربران اینترنت در ایران نامعلوم نیست!!!

»» کاربران اینترنتی ایران به چه موضوعاتی علاقمند هستند
»» آخرین آمار،‌ اطلاعات جامع و كامل از وضعیت تعداد كاربران اینترنت ؛ زبانهای رایج در فضای مجازی ( قسمت سوم)  

»» آخرین آمار،‌ اطلاعات جامع و كامل از وضعیت تعداد كاربران اینترنت در ایران و خاورمیانه ؛ آسیا و جهان( قسمت دوم)  

»» آخرین آمار،‌ اطلاعات جامع و كامل از وضعیت تعداد كاربران اینترنت در ایران و خاورمیانه ؛ آسیا و جهان( قسمت اول)  

»» گزارش جامع از آخرین وضعیت کاربرد فن‌آوری اطلاعات و ارتباطات در ایران (قسمت سوم)
»» گزارش جامع از آخرین وضعیت کاربرد فن‌آوری اطلاعات و ارتباطات در ایران (قسمت دوم)
»» گزارش جامع از آخرین وضعیت کاربرد فن‌آوری اطلاعات و ارتباطات در ایران (قسمت اول)

»» گزارش جامع مهم‌ترین دستاورد فن آوری اطلاعات و ارتباطات ICT سال 84 و اولویت‌های آینده

مقالات مرتبط  : آشنایی کامل با عملکرد و کارکرد موتورجستجوگر Search Engine

»» جست‌و‌جو، كلید حل معما در اینترنت ، آشنایی با راهنمای موضوعی وب Web Directory و موتور جست‌وجو Search Engines
»» آشنایی کامل با عملکرد و کارکرد موتورجستجوگر Search Engine و اجزای تشکیل دهنده آن
»» وبلاگ و وب سایت: آشنایی با روشهای ارزیابی و ثبت بهتر وبسایت در موتورهای جستجو (16)
»» آشنایی بایدها و نبایدها در بازاریابی توسط موتورهای جستجو ؛ راهکارها و خطاهای مرسوم
»» موتورهای جستجو چگونه وبسایت یا وبلاگ را پیدا می کنند و در نتایج خود بهتر نمایش می دهند- دانش سئو SEO

»» قدم به قدم ؛ دوره آموزش مجازی کاربری با موتورجستجو گوگل Google
»» قدم به قدم ؛ دوره آموزش مجازی کاربری با موتورجستجو گوگل Google اهمیت موتور جسجو Search Engine مانند گوگل چیست ؟ قسم سوم
»» قدم به قدم ؛ دوره آموزش مجازی کاربری با موتورجستجو گوگل Google لغت نامه مفاهیم و اصطلاحات دنیای جستجو و موتورهای جستجوگر قسم دوم

نوشته شده در تاریخ چهارشنبه هشتم آذر 1385    | توسط: تی ان تی- یک هکر خوب/۴/    | طبقه بندی: مبانی اینترنت،     | نظرات()
=================================================================== ------------------------------------------------------------------------------------------------------------------------------------------------------- ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^