معمای فناوری - داده های بزرگ Big Data

گراف ها برای نمایش ارتباطات بین موجودیت ها در زمینه های مثل :ترافیک وب ، تراکنش مالی ، تبادلات بر خط، زیست شناسایی و … استفاده می شوند.  این گراف ها دارای انجمن های مختلفی با اندازه های متنوع هستند حال یک انجمن در یک گراف به صورت زیر مجموعه ای از راس های گراف تعریف می شود که با تعداد زیادی یال به هم متصل می شوند.در حالی این زیر مجموعه با بقیه گراف ارتباط کمی دارد.  ممکن است این انجمن ها با  یکدیگر هم پوشانی داشته باشند.

در مجموعه های داده های مربوط به شبکه های اجتماعی، بازی چند نفره برخط یا مدیریت پروژه های بر خط ، به ترتیب انجمن های متناظر با گروه های دوستان در شبکه ای مثل فیس بوک، بازیکنان یک بازی مشخص یا کارمندانی هستند که در یک پروژه به صورت همکار با یکدیگر همکاری دارند.

در گراف شبکه های همکاری می توان محقیقین با حوزه تحقیقاتی یکسان و مشابه را به عنوان انجمن در نظر گرفت.هم چنین انجمن ها را در انواع مختلفی از گراف های دیگر ، مثل گراف شبکه های محاوره پروتئین-پروتئین می توان یافت. یکی از کاربردهای مهم یافتن انجمن های در شبکه های پروتئین-پروتئین یافتن توده های سرطانی در بافت مورد نظر است.

از کاربردهای دیگر یافتن انجمن ها، بازاریابی هدفمند و تبلیغات است به این صورت که افراد یک انجمن به تبلیغات مورد علاقه اعضای دیگر انجمن با احتمال بالایی پاسخ مثبت خواهند داد.و اهمیت این موضوع را از آنجا می توان درک کرد که در سال ۲۰۱۵ سود حاصل از تبلیغات بر خط تنها در ایالت متحده ۵۹/۶ میلیارد دلار برآورد شده است. و اگر افراد در شبکه هایی مثل Amazon بر اساس علاقه های مشترک تشکیل انجمن دهند کار تبلیغات خیلی راحت تر خواهند شد.

هم چنین انجمن ها در گراف شبکه جهانی وب می توانند نشانگر گروه های مصنوعی ساخته شده توسط مزرعه اتصال برای افزایش رتبه صفحه یک وب سایت خاص باشد که در این صورت می توان از افزایش نامعتبر رتبه صفحات وب جلوگیری کرد.

به عنوان یکی از زمینه های کاربردی مهم الگوریتم های تشخیص انجمن می توان به کاربردهای آن در سیستم توصیه گر اشاره کرد.به طور خاص می توان این زمینه را توصیه انجمن-محور نامید که در آن ابتدا گراف را توسط یک الگوریتم تشخیص انجمن به انجمن ها تقسیم بندی می کنیم و سپس کار توصیه را توسط الگوریتم هایی مثل پالایش اشتراکی بر مبنای این انجمن ها انجام می دهیم.

مشکل اصلی که خیلی از روش ها دارند این است که در نهایت گراف را افراز بندی می کنند و در نتیجه هرگره تنها متعلق به یک انجمن خواهد بود در صورتی که در گراف شبکه های دنیای واقعی ممکن. است یک گره هم زمان در چند انجمن عضو باشد یا اینکه در هیچ انجمنی عضو نباشد.

مشکل دیگر بسیاری از روش ها موجود این است که مسئله پویا بودن شبکه را در نظر نمی گیرند و در نتیجه انجمن های حاصل از آن ها پس از مدت کوتاهی نسبت به وضع فعلی شبکه متفاوت خواهد بود و اطلاعات حاصل از آن ها قدیمی و ناکارآمد می شود.

مشکل دیگر که در این زمینه مطرح می شود سرعت دستیابی به جواب نهایی است که به دلیل حجم بالای داده ها، رسیدن به سرعت مطلوب مشکل است.تحلیل گراف شبکه های حجیم حتی برای کامپیوترهای پرسرعت نیز چالش بزرگی می باشد.