محرك البحث جوجل: نظرة تشريحية على أسلوبه فى التحليل والفرز
[SIZE=5][COLOR=#ee82ee]د- خالد عبد الفتاح
مدرس علم المعلومات بكلية الآداب جامعة المنيا – قسم المكتبات والمعلومات- مصر
محرك البحث جوجل:
[B]يعد محرك البحث جوجل من أكثر محركات البحث شهرة على المستوى العالمي نظراً لما يتمتع به من سرعة في ملاحقة الصفحات الجديدة وتكشيفها، حيث يبلغ حجم قاعدة بياناته وفقاً لآخر التقديرات حوالي 9 مليار صفحة. وقد قام بتطوير هذا المحرك اثنان من طلبة الدكتوراه بجامعة ستانفورد عام 1998 هما: سيرغي برين ولاري بايج Sergey Brin and Larry Page. والمصطلح جوجل يعنى بالإنجليزية ملايين المليارات كما تعنى أيضا يبحلق أو ينظر بشدة وتركيز مما يع**** رغبة مؤسسيه على ملاحقة وتكشيف أكبر قدر ممكن من صفحات ومواقع الويب، كما يع**** أيضا إدراكهم منذ البداية للنمو السريع لشبكة الإنترنت. وتشير إحصائيات محرك البحث جوجل إلى أنه يجيب على أكثر من 150 مليون استفسار يوميا بمختلف لغات العالم، حيث يتيح البحث بحوالي 35 لغة منها اللغة العربية . وقد أثبت محرك البحث جوجل كفاءة كبيرة في تعامله مع اللغة العربية من خلال العديد من التجارب والدراسات التي سعت إلى تقييم أداء محركات البحث .
ومن أهم الملامح التي تميز محرك البحث جوجل هو قدرته الفائقة على عرض وترتيب النتائج وفقا لارتباطها بموضوع الاستفسار، حيث أشارت العديد من دارسات تقييم نتائج البحث والاسترجاع من محركات البحث إلى أن محرك البحث جوجل يتفوق على كل المحركات المنافسة مثل AltaVista, Yahoo, Alltheweb وغيرها. ويرجع الفضل في هذه الميزة إلى الطريقة التي يعتمد عليها محرك البحث في ترتيب نتائج الاسترجاع والتي تعرف بنموذج بترتيب الصفحة Page Rank ، . ويرجع تفوق محرك البحث جوجل على غيره من محركات البحث المعروفة في معدلات الاستدعاء Recall والتحقيق Precision ودقة الترتيب Ranking Accuracy في تصورنا إلى:
o السبب الأول يتمثل في اعتماده على استخدام بنية روابط الويب Web Link Structure لحساب ترتيب الصفحات Rank Order Calculation. وهو النظام الذي يطلق عليه نموذج ترتيب الصفحة Page Rank Model.
o السبب الثاني هو استخدام الروابط Links لتحسين نتائج البحث من حيث معدلات الاستدعاء (عدد الصفحات المسترجعة) حيث يسترجع محرك البحث الصفحات المصدرية ذات العلاقة بموضوع الاستفسار وغيرها من الصفحات المرتبطة بها.
§ نموذج ترتيب الصفحة Page Rank Model
تعتبر الروابط Hyperlinksواحدة من أهم الملامح المميزة للشبكة العنكبوتية حيث تشبه العلاقة بين الصفحات والروابط تلك العلاقة التي أستخدمها يوجين جارفيلدد (Eugene Garfield) في منتصف الخمسينات من القرن الماضي في إعداد كشافات الإستشهادات المرجعية. وتعتمد فكرة هذه الكشافات على افتراض منطقي يدعى وجود علاقة تربط بين المقالة المصدرية والمصادر المستشهد بها في هذه المقالة. وهو ما يساعد على حساب مدى قوة أو ضعف العلاقات التي تربط بين مصادر المعلومات سواء كانت مقالات أو دوريات أو مؤلفين. وهو نفس الأساس الذي اعتمد عليه القائمون على بناء محرك البحث جوجل حيث افترضوا وجود علاقة بين الصفحة والصفحات التي تشير إليها من خلال الروابط الفائقة، وقد ثبت نجاح هذا الافتراض بشكل كبير.
وقد اعتمد القائمون على بناء محرك البحث جوجل على مجموعة من الخرائط Maps التي قاموا بتجهيزها وتضمنت ما يقرب من 518 مليون وحدة من الروابط الفائقة Hyperlinks لكي تمثل عينة متميزة للعلاقات التي تربط بين صفحات المعلومات على الشبكة العنكبوتية. وقد أتاحت هذه الخرائط إجراء حسابات سريعة للتعرف على مدى قوة العلاقة التي تربط بين مجموعة من الصفحات. ثم ترتيب هذه الصفحات من خلال الاعتماد على تحليل ما تحويه من روابط داخلية تربطها بصفحات أخرى والروابط الخارجية التي تربط الصفحات الأخرى بها. ويتميز هذا المقياس بأنه مقياس ديمقراطي إلى حد كبير حيث يحدد مكانة الصفحة بين غيرها من الصفحات بناء على مدى أهميتها بالنسبة للصفحات الأخرى سواء بالإشارة إلى هذه الصفحات أو بالإشارات التي تتلقاها الصفحة من الصفحات الأخرى .
§ طريقة حساب ترتيب الصفحة Page Rank Calculation Methodيتم حساب عدد الروابط الموجودة في الصفحة وتشير إلى صفحات أخرى كما يتم حساب عدد الروابط التي تشير إلى الصفحة المصدرية ثم يتم تطبيع Normalization هذه الحسابات لتحديد قيمة تشابه Similarity Score بين الصفحة والصفحات أخرى.
وتتم عملية التطبيع وفقاً للمعادلة التالية:
نفترض أن الصفحة A مرتبطة بصفحات أخرى تشير إليها (Point to it) وعددها T1-----Tn والمعامل d هو معامل ثابت ما بين (0,1) وعادة ما يأخذ القيمة 0.85 إلا في حالات استثنائية سنوضحها فيما بعد. وتشير C إلى عدد الروابط الخارجة من الصفحة وتشير إلى صفحات أخرى (Point to other Pages) بالتالي يكون حساب ترتيب الصفحة PR(A) كما يلى:
PR• (A) = (1-d) + d (PR(T1) / C(T1) +------------ PR(Tn) / C(Tn))نلاحظ من المعادلة أن ترتيب الصفحة Page Rank يمثل توزيع احتماليProbability Distribution لكل صفحات الويب Over Web Pages مما يعنى أن مجموع ترتيب الصفحات لكل عملية يعادل واحدًا صحيحًا، مما يسمح بترتيب الصفحات تنازلياً وفقا لقيمة A.
ويتم حساب معامل آخر لترتيب الصفحة يعتمد أيضا على بنية الروابط Link Structure وهو معامل يتعلق بسلوك المستفيدين عند التعامل مع الصفحة. وهذا المعامل يتعلق بمعدلات الإفادة من صفحة معينه، مما يعنى أن المستفيد يمكن أن يغير من ترتيب الصفحات وفقاً لمدى استخدامه لهذه الصفحات. ويتم تحديد مدى الإفادة من صفحة معينة وفقاً لعدد مرات النقر على الرابط الفائق المتعلق بهذه الصفحة في كل مرة تظهر فيه هذه الصفحة ضمن نتائج البحث، حيث يتم تعديل قيمة المعامل d. فإذا قام المستفيد بفتح الصفحة التي تظهر في ترتيب 3 مثلاً ولم يفتح الصفحة التي تظهر في الترتيب 1 يعتبر محرك البحث جوجل أن هذا إعلان من المستفيد أن الصفحة 3 أفضل من الصفحة 1 بالنسبة لهذا الاستفسار، مما يجعل محرك البحث يعدل من قيمة المعامل d الخاص بترتيب الصفحة 3 مما يجعلها تظهر قبل الصفحة 1 ، 2 إذا كان سلوك كل أو معظم المستفيدين منها يسير في نفس الاتجاه. ويعتبر هذا المقياس أيضا من المقاييس الديمقراطية التي تميز محرك البحث جوجل عن غيره من المحركات. وتعرف عملية تعديل قيمة المعامل d برد فعل الصلاحية Relevance Feedback والذي يتوقف على مجموع سلوك المستفيدين من صفحة معينة خلال فترة زمنية معينة .
§ نصوص الزاوية Anchor Text :
يتم معاملة النصوص التي تعبر عن الروابط في الملف المصدري Source File- وهو الملف الذي يشتمل على أكواد لغة تكويد النصوص الفائقة HTML- بطريقة خاصة في محرك البحث جوجل. حيث تتعامل معظم محركات البحث التي تستخدم أسلوب تحليل الروابط Link Analysis مع الروابط التي توجد داخل الصفحة وتكشف النصوص التي توجد داخل هذه الروابط بينما يكشف محرك البحث جوجل الروابط التي تشير إلى الصفحة Point to it. ولهذه الطريقة العديد من المزايا ومنها :
• أولاً نصوص الزاوية Anchor Text عادة ما تتضمن وصف دقيق لصفحة الويب يفوق ما تقدمه الصفحة في جسمها الرئيسي من كلمات مفتاحية تصف الموضوع الذي تتناوله، وهو ما أثبتته العديد من الدراسات حيث أن هذه النصوص تمثل عناوين الموضوعات الرئيسية التي تتناولها هذه الصفحات.
• ثانياً نصوص الزاوية تساعد على تكشيف الصفحات التي لا يمكن تكشيفها من خلال محركات بحث نصية Text Based Search Engines ، وبالتالي يمكن استخدام هذه النصوص في تكشيف الوسائط المتعددة Multimedia مثل ملفات الصوت، الفيديو، الصور، برامج الكمبيوتر، الخرائط، قواعد البيانات...الخ.•
ثالثاً تساعد نصوص الزاوية على تكشيف صفحات لم تقوم الزواحف Crawlers بتجميعها أو زيارتها، بالتالي يمكن من خلال هذا الأسلوب تجميع أكبر عدد ممكن من الصفحات أو التعرف عليها دون الحاجة إلى زيارة الخوادم التي تستضيفها.
خاصة إذا ما عرفنا أن هذه الزواحف عادة ما تكون متحيزة جغرافياً ولغوياً في تغطيتها. وهو ما جعل محرك البحث جوجل من أكبر محركات البحث وأشملها من حيث حدود التغطية سواء الجغرافية أو اللغوية أو الموضوعية أو وفقاً للأسماء السائدة Domain Names.
وتجدر الإشارة هنا إلى أن هذه الميزة قد تنقلب إلى عيب كبير وتسبب مشاكل كثيرة حيث أن محرك البحث يمكن أن يسترجع نتائج لصفحات لم يزورها الزاحف مطلقاً ويتأكد من وجودها. ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24 مليون صفحة تتطلب على الأقل معالجة 259 مليون نص زاوية في محرك البحث جوجل حتى عام 2000 بمتوسط 10.8 نص زاوية للصفحة الواحدة .
وقد استخدمت فكرة توسيع التغطية من خلال التعامل مع نصوص أقواس الزاوية Anchor Text Propagating للصفحات التي تشير إلى الصفحات المصدرية في محرك البحث WWW WORM وهو أول محرك بحث يتضمن زاحف – تم بناءه عام 1994 – لتكشيف الصفحات الغير نصية Non Textual Pages. ويعتبر استخدام نصوص أقواس الزاوية عملية في غاية الصعوبة نظراً لضخامة حجم البيانات التي يتم معالجتها حيث أن معالجة 24 مليون صفحة تتطلب على الأقل معالجة 259 مليون نص زاوية في محرك البحث جوجل حتى عام 2000 بمتوسط 10.8 نص زاوية للصفحة الواحدة .
يتـــــــبع ..