Zipf এর আইন গাণিতিক পরিসংখ্যান ব্যবহার করে প্রণীত একটি অভিজ্ঞতামূলক আইন যা এই সত্যকে বোঝায় যে ভৌত এবং সামাজিক বিজ্ঞানে অধ্যয়ন করা অনেক ধরণের ডেটার জন্য, র্যাঙ্ক-ফ্রিকোয়েন্সি বন্টন একটি বিপরীত সম্পর্ক। Zipfian বন্টন সম্পর্কিত বিচ্ছিন্ন ক্ষমতা আইন সম্ভাব্যতা বিতরণের একটি পরিবারের একটি। এটি জেটা বিতরণের সাথে সম্পর্কিত, তবে অভিন্ন নয়। Zipf-এর আইনটি মূলত পরিমাণগত ভাষাবিজ্ঞানের পরিপ্রেক্ষিতে প্রণয়ন করা হয়েছিল, যেখানে বলা হয়েছে যে প্রাকৃতিক ভাষার উচ্চারণের কিছু কর্পাস দেওয়া হয়েছে, যে কোনও শব্দের ফ্রিকোয়েন্সি ফ্রিকোয়েন্সি টেবিলে এর র্যাঙ্কের বিপরীতভাবে সমানুপাতিক। এইভাবে সর্বাধিক ঘন ঘন শব্দটি দ্বিতীয় সর্বাধিক ঘন ঘন শব্দের প্রায় দ্বিগুণ, তৃতীয় সর্বাধিক ঘন ঘন শব্দের চেয়ে তিনগুণ, ইত্যাদি ঘটবে। উদাহরণস্বরূপ, আমেরিকান ইংরেজি পাঠ্যের ব্রাউন কর্পাসে, "the" শব্দটি প্রায়শই ঘটতে থাকা শব্দ, এবং নিজেই সমস্ত শব্দের প্রায় 7% এর জন্য দায়ী (1 মিলিয়নের কিছু বেশির মধ্যে 69,971)। Zipf-এর আইন অনুসারে, দ্বিতীয় স্থানে থাকা শব্দ "of" শব্দের 3.5% এর কিছু বেশি (36,411 ঘটনা), তারপরে "এবং" (28,852)। অর্ধেক ব্রাউন কর্পাসের জন্য শুধুমাত্র 135টি শব্দভান্ডার আইটেম প্রয়োজন।আইনটির নামকরণ করা হয়েছে আমেরিকান ভাষাবিদ জর্জ কিংসলে জিপফ (1902-1950), যিনি এটিকে জনপ্রিয় করেছিলেন এবং এটি ব্যাখ্যা করতে চেয়েছিলেন (Zipf 1935, 1949), যদিও তিনি এটির উদ্ভব বলে দাবি করেননি। ফরাসী স্টেনোগ্রাফার জিন-ব্যাপটিস্ট এস্টুপ (1868-1950) Zipf এর আগে নিয়মিততা লক্ষ্য করেছিলেন বলে মনে হয়। এটি 1913 সালে জার্মান পদার্থবিদ ফেলিক্স অয়ারবাখ (1856-1933) দ্বারাও উল্লেখ করা হয়েছিল।আইনটি বেনফোর্ডের আইনের অনুরূপ, যদিও বিতরণে অভিন্ন নয়।
একই সম্পর্ক মানব-সৃষ্ট সিস্টেমের অন্যান্য অনেক র্যাঙ্কিংয়ে দেখা যায় যেমন গাণিতিক অভিব্যক্তির র্যাঙ্ক বা সঙ্গীতে নোটের র্যাঙ্ক এমনকি অনিয়ন্ত্রিত পরিবেশেও, যেমন কর্পোরেশনের আকার, আয়ের র্যাঙ্কিং, সংখ্যার র্যাঙ্ক। একই টিভি চ্যানেল দেখার লোকেদের, কোষের ট্রান্সক্রিপ্টোম ইত্যাদি। জনসংখ্যা অনুসারে শহরগুলির র্যাঙ্কিংয়ে বণ্টনের উপস্থিতি প্রথম 1913 সালে ফেলিক্স অয়ারবাচ দ্বারা লক্ষ্য করা যায়,যা শহরগুলির জন্য Zipf-এর আইনের বিস্তৃত সাহিত্যের দিকে পরিচালিত করে। যাইহোক, সাম্প্রতিক অভিজ্ঞতামূলক এবং তাত্ত্বিক গবেষণাগুলি শহরের জন্য Zipf-এর আইনের প্রাসঙ্গিকতাকে চ্যালেঞ্জ করেছে।
অভিজ্ঞতাগতভাবে, কোলমোগোরভ-স্মিরনভ পরীক্ষার সাথে অনুমানিত শক্তি আইন বন্টনের সাথে একটি অভিজ্ঞতামূলক বিতরণের উপযুক্ততার ভালতা পরীক্ষা করে এবং তারপর শক্তি আইনের (লগ) সম্ভাবনা অনুপাতের সাথে তুলনা করে Zipf-এর আইন প্রযোজ্য কিনা তা পরীক্ষা করা যেতে পারে। একটি সূচকীয় বন্টন বা সাধারণ বন্টন মত বিকল্প বন্টন.
লগ-লগ গ্রাফে ডেটা প্লট করে Zipf-এর আইন সবচেয়ে সহজে পর্যবেক্ষণ করা হয়, অক্ষগুলি লগ (র্যাঙ্ক অর্ডার) এবং লগ (ফ্রিকোয়েন্সি)। উদাহরণস্বরূপ, x = log(1), y = log1 এ প্রদর্শিত হবে। কম্পাঙ্কের বিপরীতে পারস্পরিক র্যাঙ্ক বা পারস্পরিক কম্পাঙ্ক বা র্যাঙ্কের বিপরীতে আন্তঃশব্দ ব্যবধান প্লট করাও সম্ভব। প্লটটি রৈখিক হওয়া পর্যন্ত ডেটা Zipf-এর আইনের সাথে সামঞ্জস্যপূর্ণ।আনুষ্ঠানিকভাবে,
n উপাদানের সংখ্যা হতে হবে;
k তাদের পদমর্যাদা হবে;
s বন্টনের বৈশিষ্ট্যযুক্ত সূচকের মান।
Zipf এর আইন তখন ভবিষ্যদ্বাণী করে যে N উপাদানগুলির একটি জনসংখ্যার মধ্যে, র্যাঙ্ক k, f(k;s,N) উপাদানটির স্বাভাবিক ফ্রিকোয়েন্সি হল:
অ্যাটলাস মডেলগুলি হল ড্রিফট এবং ভ্যারিয়েন্স প্যারামিটার সহ বিনিময়যোগ্য ইতিবাচক-মূল্যের বিচ্ছুরণ প্রক্রিয়াগুলির সিস্টেম যা শুধুমাত্র প্রক্রিয়ার র্যাঙ্কের উপর নির্ভর করে। এটি গাণিতিকভাবে দেখানো হয়েছে যে Zipf এর আইনটি অ্যাটলাস মডেলগুলির জন্য ধারণ করে যা নির্দিষ্ট প্রাকৃতিক নিয়মিততার শর্ত পূরণ করে। অ্যাটলাস মডেলগুলিকে সময়-নির্ভর বহুভেরিয়েট ডেটার অভিজ্ঞতামূলক সিস্টেমের প্রতিনিধিত্ব করতে ব্যবহার করা যেতে পারে, যেমন, লিখিত ভাষায় শব্দের ফ্রিকোয়েন্সি বা কোম্পানির আকার। একটি অ্যাটলাস মডেল যা একটি অভিজ্ঞতামূলক সিস্টেমের প্রতিনিধিত্ব করে তার অভিজ্ঞতামূলক সিস্টেমের মতো একই স্থির বন্টন থাকবে, তাই যদি অ্যাটলাস মডেল Zipf-এর আইন অনুসরণ করে, তাহলে সিস্টেমটিও Zipf-এর আইন অনুসরণ করবে। যেহেতু অ্যাটলাস মডেলগুলি যেগুলি প্রাকৃতিক নিয়মিততার শর্তগুলিকে সন্তুষ্ট করে সেগুলি Zipf-এর আইন অনুসরণ করে, এটি এর সার্বজনীনতার জন্য দায়ী। 10 মিলিয়ন উইকিপিডিয়া শব্দের উপরের চিত্রে, লগ-লগ প্লটগুলি সুনির্দিষ্টভাবে সরলরেখা নয় বরং বক্ররেখা বরাবর কিছু স্থানে ঢাল -1 এর স্পর্শক সহ সামান্য অবতল বক্ররেখা। এই জাতীয় বিতরণগুলিকে সাধারণত আধা-জিপফিয়ান বিতরণ হিসাবে উল্লেখ করা হয় এবং সময়-নির্ভর অভিজ্ঞতামূলক ডেটার বেশিরভাগ সিস্টেম যা Zipf-এর আইন অনুসরণ করে বলে বলা হয় আসলে তারা আধা-Zipfian। কোয়াসি-জিপফিয়ান সিস্টেমগুলিকে আধা-অ্যাটলাস মডেল দ্বারা প্রতিনিধিত্ব করা যেতে পারে, এবং আধা-অ্যাটলাস মডেলগুলি জিপিএফ-এর আইনের মতো গাণিতিক চিকিত্সার জন্য উপযুক্ত।
0 Comments