امروزه با پیشرفت تکنولوژی و رسانه های دیجیتال با انبوهی از اطلاعات در زمینه های گوناگون مواجه هستیم.این اطلاعات تا جایی گسترش یافته که برای یافتن اطلاعات مورد نیاز باید زمان زبادی را صرف آن نمودکه این پدیده را Information Overload نامیده اند.
از موضوعات اصلی تحقیقات در پردازش زبان اصلی (NLP)ارائه راه حل هایی برای این مسئله و بخصوص خلاصه سازی اسناد اطلاعاتی می باشد تا به کمک آن فرایند بازیابی اطلاعات به صورت مناسب و موثر امکان پذیر باشد.
بازیابی اطلاعات به عملیات استخراج اطلاعات مرتبط با نیاز تعریف شده، از مجموعه منابع اطلاعاتی گفته می شود.
هدف اصلی از خلاصه سازی متن،استخراج جملات با اهمیت بیشتر از مستندات گوناگون می باشد.
خلاصه سازی متن،از بخش های مهم در یادگیری ماشین و داده کاوی محسوب می شود.امروزه، تکنیک های خلاصه سازی متن، در صنایع گوناگونی مورد استفاده قرار می گیرد که به عنوان مثال می توان به موتورهای جستجویی همچون گوگل اشاره کرد.
بسیاری از روش های پیشنهادی از روش های آماری، زنجیره واژگانی، الگوریتم های گراف و یا مدل های زبان بیزی برای تولید خلاصه سازی متن استفاده می نمایند.
در سال اخیر دسته بندی (Clustering) مانند سازماندهی مستندات ، کاربردهای فراوانی در حوزه متن پیدا کرده است.یکی از بهترین روش ها به منظور دستیابی آسان به اطلاعات مورد نیاز در انبوهی از اطلاعات، خلاصه سازی و طبقه بندی موضوعی آن به صورت سلسله مراتبی می باشد.