Tuesday, February 5, 2008

ইউনিকোড পাঠ ০৪

এ লেখায় পাঠক হারানোর হার সন্তোষজনক।

হিসেব করা যাক, প্রথম কিস্তির পাঠসংখ্যা ১০৭ বার। দ্বিতীয় কিস্তিতে ৯০ বার। তৃতীয় কিস্তিতে ৫৯ বার। তার মধ্যে আমিই পড়েছি, মানে ক্লিক করেছি অনেকবার।

কতজন পাঠক হবেন এবার, চতুর্থ কিস্তিতে?
বেশি হলে ভাববেন, লেখকের ক্লিক।
কম হলে 'সন্তোষজনক'!
______________________________________
চার.

প্রতিটি ভাষার লিপিতে থাকে কিছু লেখনী চিহ্ন। এ চিহ্নের মধ্যে থাকতে পারে বর্ণ (’ক’, A ইত্যাদি), জাপানি হিরাগানার মতো অক্ষর (syllable) কিংবা চীনাদের মতো সরাসরি ধ্বনি-জ্ঞাপক প্রতীক (ideograph)। ইউনিকোডে এগুলোর সাধারণ নাম কোড এলিমেন্ট।

লেখায় কীভাবে ব্যবহৃত হয় তার ওপর ভিত্তি করে নির্ধারণ করা হয় এ কোড এলিমেন্ট। যেমন, বাংলায় ‘ডিম’ লেখার সময় আমরা ‘ি’‌ দিয়ে শুরু করলেও অভিধানে তা 'ড' অনুচ্ছেদে থাকে।

প্রতিটি কোড এলিমেন্টের জন্য একটি নির্দিষ্ট সংখ্যাবাচক মান থাকে। একে বলে কোড পয়েন্ট। শুরুতে U বসিয়ে কোড পয়েন্টগুলো প্রকাশ করা হয় হেক্সাডেসিমেলে । যেমন : A কোড এলিমেন্টের জন্য নির্ধারিত কোড পয়েন্ট U+0041 (A হরফের হেক্সাডেসিমেল মান 0041)। ইউনিকোডে প্রতিটি কোড এলিমেন্টকে আবার নির্দিষ্ট নাম আছে। যেমন : A(U+0041) এর নাম "LATIN CAPITAL LETTER A"।

একই লিপিভুক্ত কোড এলিমেন্টগুলো একসাথে ব্লক আকারে থাকে। এর নাম কোড ব্লক। কোড ব্লকগুলোর আকার লিপিভেদে ভিন্ন হতে পারে।

কোড ব্লকগুলো আবার সাজানো থাকে বিভিন্ন তলায়। যেমন, নানা ভাষায় সবচেয়ে বেশি ব্যবহৃত বর্ণগুলো রাখা হয়েছে একদম শুরুতে, নিচ তলায়। এ তলার নাম বেসিক মাল্টিলিংগুয়্যাল প্লেন (BMP)। দ্বিতীয় তলার নাম সাপ্লিমেন্টারি মাল্টিলিংগুয়্যাল প্লেন।

এরকম করে তলা আছে ১৭টি । প্রতি তলার আকার ৬৪ কিলোবাইট। মানে ৬৫ হাজার ৫৩৬টি কোড পয়েন্ট বসতে পারে প্রতি তলায়। চার তলা থেকে চৌদ্দ তলায় কোনো বর্ণ বসানো হয়নি, কোড পয়েন্টগুলো খালি। সেখানে বসবে বিপন্ন, বিলুপ্ত, প্রায়-বিলুপ্ত ভাষার লিপিগুলো। এখনও সেসব ইউনিকোডে অন্তর্ভুক্ত হবার অপেক্ষায়।

১৬ এবং ১৭ তলা সংরক্ষিত ব্যক্তিগত ব্যবহারের জন্য। সংরক্ষিত এ কোড ব্লক কোনো জাতি বা অঞ্চলের ভাষার জন্য নয়, বরং কোনো বিশেষ পেশাজীবীদের প্রয়োজনে ব্যবহৃত হয়। যেমন, কোরিওগ্রাফাররা নাচের মুদ্রার জন্য আলাদা এক সেট বর্ণমালা তৈরি করলে, সেগুলো বসবে সংরক্ষিত কোড ব্লকে।

এবার, ইউনিকোড ক্যারেক্টার সেটকে কল্পনা করুন একটা বহুতল ভবন হিসেবে। দশ লাখের বেশি কোডপয়েন্টকে জায়গা দেয়ার ক্ষমতা আছে এ ভবনে। পঞ্চম সংস্করণে তার মাত্র দশ ভাগ (এক লাখ দু হাজার ১২টি কোড পয়েন্ট) পূর্ণ হয়েছে। ১২ ভাগ (এক লাখ ৩৭ হাজার ৪৮৬টি কোডপয়েন্ট) সংরক্ষিত কোড ব্লকের জন্য বরাদ্দ। এবং ফাঁকা আছে এখনও প্রায় ৭৮ শতাংশ।
___________________________________
অল্প কথায় এ কিস্তি :
লেখনী চিহ্ন হলো কোড এলিমেন্ট। প্রতি কোড এলিমেন্টের জন্য আছে আলাদা কোড পয়েন্ট। কোড পয়েন্ট গুলো বিভক্ত কোড ব্লকে। ব্লকগুলো ছড়িয়ে আছে ১৭ তলা জুড়ে। ১৭ তলার এ ভবনটির নাম ইউনিকোড ক্যারেক্টার সেট।

বাইরে বৃষ্টি। থামলে পরের কিস্তি।

No comments:

Post a Comment