تستحضر شبكة الويب العالمية صورًا لشبكة عنكبوتية عملاقة حيث يرتبط كل شيء بكل شيء آخر بنمط عشوائي ويمكنك الانتقال من حافة الويب إلى أخرى بمجرد اتباع الروابط الصحيحة. من الناحية النظرية ، هذا ما يجعل الويب مختلفًا عن نظام الفهرس النموذجي: يمكنك متابعة الارتباطات التشعبية من صفحة إلى أخرى. في نظرية الويب “العالم الصغير” ، يُعتقد أن كل صفحة ويب منفصلة عن أي صفحة ويب أخرى بمتوسط 19 نقرة. في عام 1968 ، اخترع عالم الاجتماع ستانلي ميلجرام نظرية العالم الصغير للشبكات الاجتماعية من خلال ملاحظة أن كل إنسان انفصل عن أي إنسان آخر بست درجات فقط من الفصل. على الويب ، كانت نظرية العالم الصغير مدعومة بأبحاث مبكرة على عينة صغيرة من مواقع الويب. لكن البحث الذي أجراه علماء في IBM و Compaq و Alta Vista بشكل مشترك وجد شيئًا مختلفًا تمامًا. استخدم هؤلاء العلماء زاحف الويب لتحديد 200 مليون صفحة ويب وتتبع 1.5 مليار رابط على هذه الصفحات.
اكتشف الباحث أن الويب لم يكن مثل شبكة العنكبوت على الإطلاق ، ولكنه يشبه ربطة العنق. تحتوي شبكة الويب الملتوية على “مكون متصل قوي” (SCC) يتكون من حوالي 56 مليون صفحة ويب. على الجانب الأيمن من ربطة الانحناءة ، كانت هناك مجموعة من 44 مليون صفحة OUT يمكنك الحصول عليها من المركز ، لكن لا يمكنك العودة إلى المركز منها. تميل الصفحات الخارجة إلى أن تكون شبكة إنترانت خاصة بالشركات وصفحات مواقع ويب أخرى مصممة لاعتراضك في الموقع عندما تهبط. على الجانب الأيسر من ربطة العنق ، كانت هناك مجموعة من 44 مليون صفحة IN يمكنك من خلالها الوصول إلى المركز ، لكن لا يمكنك السفر إليها من المركز. كانت هذه صفحات تم إنشاؤها مؤخرًا ولم يتم ربطها بعد بالعديد من صفحات المركز. بالإضافة إلى ذلك ، تم تصنيف 43 مليون صفحة على أنها صفحات “محلاقات” لا ترتبط بالمركز ولا يمكن ربطها من المركز. ومع ذلك ، كانت صفحات المحلاق مرتبطة أحيانًا بصفحات IN و / أو OUT. من حين لآخر ، ترتبط المحلاق ببعضها البعض دون المرور عبر المركز (وتسمى هذه “الأنابيب”). أخيرًا ، كان هناك 16 مليون صفحة منفصلة تمامًا عن كل شيء.
يتم توفير المزيد من الأدلة على الطبيعة غير العشوائية والمنظمة للويب في البحث الذي أجراه ألبرت لازلو باراباسي في جامعة نوتردام. وجد فريق Barabasi أنه بعيدًا عن كونه شبكة عشوائية ومتفجرة بشكل كبير من 50 مليار صفحة ويب ، فإن النشاط على الويب كان في الواقع مركّزًا بشكل كبير في “العقد الفائقة المتصلة جدًا” التي وفرت الاتصال بالعقد الأقل اتصالًا جيدًا. أطلق باراباسي على هذا النوع من الشبكات اسم شبكة “خالية من المقاييس” ووجد أوجه تشابه في نمو السرطانات وانتقال الأمراض وفيروسات الكمبيوتر. كما اتضح ، فإن الشبكات الخالية من المقاييس معرضة بشدة للتدمير: تدمير عقدها الفائقة ويتعطل إرسال الرسائل بسرعة. على الجانب الإيجابي ، إذا كنت مسوقًا تحاول “نشر الرسالة” حول منتجاتك ، ضع منتجاتك على إحدى العقد الكبرى وشاهد الأخبار تنتشر. أو قم ببناء عُقد فائقة وجذب جمهورًا كبيرًا.
وبالتالي فإن صورة الويب التي تظهر من هذا البحث مختلفة تمامًا عن التقارير السابقة. الفكرة القائلة بأن معظم أزواج صفحات الويب مفصولة بعدد قليل من الروابط ، دائمًا تقريبًا أقل من 20 ، وأن عدد الاتصالات سينمو بشكل كبير مع حجم الويب ، غير مدعوم. في الواقع ، هناك فرصة بنسبة 75٪ لعدم وجود مسار من صفحة تم اختيارها عشوائيًا إلى أخرى. من خلال هذه المعرفة ، أصبح من الواضح الآن سبب فهرسة محركات البحث الأكثر تقدمًا على الويب لنسبة مئوية صغيرة جدًا من جميع صفحات الويب ، وحوالي 2 ٪ فقط من إجمالي عدد مضيفي الإنترنت (حوالي 400 مليون). لا تستطيع محركات البحث العثور على معظم مواقع الويب لأن صفحاتها ليست متصلة جيدًا أو مرتبطة بالجوهر المركزي للويب. اكتشاف آخر مهم هو تحديد “شبكة الويب العميقة” المكونة من أكثر من 900 مليار صفحة ويب لا يمكن الوصول إليها بسهولة بواسطة برامج زحف الويب التي تستخدمها معظم شركات محركات البحث. بدلاً من ذلك ، فإن هذه الصفحات إما مملوكة (غير متوفرة للزواحف وغير المشتركين) مثل صفحات (وول ستريت جورنال) أو لا يمكن الحصول عليها بسهولة من صفحات الويب. في السنوات القليلة الماضية ، تمت مراجعة محركات البحث الأحدث (مثل محرك البحث الطبي Mammaheath) والمحركات الأقدم مثل yahoo للبحث في الويب العميق. نظرًا لأن عائدات التجارة الإلكترونية تعتمد جزئيًا على قدرة العملاء على العثور على موقع ويب باستخدام محركات البحث ، يحتاج مديرو مواقع الويب إلى اتخاذ خطوات لضمان أن تكون صفحات الويب الخاصة بهم جزءًا من النواة المركزية المتصلة ، أو “العقد الفائقة” للويب. تتمثل إحدى طرق القيام بذلك في التأكد من أن الموقع يحتوي على أكبر عدد ممكن من الارتباطات من وإلى المواقع الأخرى ذات الصلة ، خاصةً المواقع الأخرى داخل SCC.