Distributed web crawling

Distributed web crawling is a distributed computing technique whereby Internet search engines employ many computers to index the Internet via web crawling. The idea is to spread out the required resources of computation and bandwidth to many computers and networks

.

Contents

[hide]

Implementations

As of 2003 most modern commercial search engines use this technique. Google uses thousands of individual computers in multiple locations to crawl the Web.

Newer projects are attempting to use a less structured, more ad-hoc form of collaboration by enlisting volunteers to join the effort using, in many cases, their home or personal computers. LookSmart is the largest search engine to use this technique, which powers its Grub distributed web-crawling project.

This solution uses computers that are connected to the Internet to crawl Internet addresses in the background. Upon downloading crawled web pages, they are compressed and sent back together with a status flag (e.g. changed, new, down, redirected) to the powerful central servers. The servers, which manage a large database, send out new URLs to clients for testing.

It appears that many people (including founding members) behind Grub left the project. The side effect of that is that bugs aren't being fixed and even after 4 years the project doesn't give the option for searching among crawled results.

Draw-backs

According to the Nutch, an open-source search engine FAQ, the savings in bandwidth by distributed web crawling are not significant, since "A successful search engine requires more bandwidth to upload query result pages than its crawler needs to download pages...".

Web crawler

Web crawler (also known as a Web spider or Web robot) is a program or automated script which browses the World Wide Web in a methodical, automated manner. Other less frequently used names for Web crawlers are ants, automatic indexers, bots, and worms (Kobayashi and Takeda, 2000).

This process is called Web crawling or spidering. Many legitimate sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine, that will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML code. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses (usually for spam).

A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier. URLs from the frontier are recursively visited according to a set of policies.

Contents

[hide]

ادامه مطلب ...

Deep web

The deep web (or invisible web or hidden web) is the name given to pages on the World Wide Web that are not part of the surface web that is indexed by common search engines. It consists of pages which are not linked to by other pages (e.g., dynamic pages which are returned in response to a submitted query). The deep web also includes sites that require registration or otherwise limit access to their pages (e.g., using the Robots Exclusion Standard), prohibiting search engines from browsing them and creating cached copies. Pages that are only accessible through links produced by JavaScript and Flash also often reside in the deep web since most search engines are unable to properly follow these links.

.

ادامه مطلب ...

Digital library

A digital library is a library in which a significant proportion of the resources are available in machine-readable format (as opposed to print or microform), accessible by means of computers. The digital content may be locally held or accessed remotely via computer networks. In libraries, the process of digitization began with the catalog, moved to periodical indexes and abstracting services, then to periodicals and large reference works, and finally to book publishing. Some of the largest digital libraries are purely digital having few if any physical holdings

Types of Digital Libraries

The term Digital Library is diffuse enough to be applicable to a wide range of digital entities. Divisions can be made between libraries that have some physical presence where patrons are able to access physical holdings as well as digital holdings and libraries where collections are almost completely digital. Project Gutenberg, ibiblio, International Children's Digitial Library and the Internet Archive can serve as examples of this later case.

.

ادامه مطلب ...

تجارت اینترنتى و شبکه اى ( Networking Business )

در دنیایى که معاصرش هستیم بدون شک کسى نیست که از ارزش وقت و کاربرد اطلاعات آگاهى نداشته باشد . از طرفى سخن از اهمیت اطلاعات کمى دیر لست ، چرا که حالا قدم در مرحله بعدى نهاده ایم و عصر IT را تجربه مى کنیم . همه چیز با سرعت در حال تحول است و در دنیاى امروز اتلاف وقت و انرژى براى انجام کارهاى روزمره یعنى عدم استفاده بهینه از تکنولوژى .

روزى که نخستین رایانه در حجم یک ساختمان سه طبقه اختراع شد ، کمتر کسى باور داشت که این دستگاه عظیم الجثه روزى در ابعاد یک ساعت مچى مورد بهره بردارى قرارگیرد .
رایانه ها با سرعت غیرقابل مهارى وارد زندگى انسان معاصر شد و اور راقادر ساخت تا بر پیچیدگیهاى موضوع قرن بیستم غلیه نماید . یک فکر ساده توانست نجات دهنده نوع بشر باشد ، براى چند لحظه تجسم کنید در عصر انفجار جمعیت و لزوم ارتباط و تامین مایحتاج ایشان چه مقدار وقت تلف مى شد که به صورت سنتى و دستى امور روزانه خود را سامان دهیم ، گرچه ما هنوز نتوانسته ایم به درستى از این فرصت بى نظیر استفاده کنیم و بیشتر سرگرم حاشیه هستیم .
ادامه مطلب ...

شهرهاى اینترنتى در قرن ۲۱

امروزه بحث توسعه شهرها به شبکه جهانى (اینترنت) نیز سرایت پیدا کرده است. شهرها و شهرک هاى جدیدى در فضاى مجازى ظاهر مى شوند که مصالح آنها از خشت و ملات دیجیتالى تشکیل شده اند. این شهر هاى الکترونیکى در زبان عامه با اصطلاح شهرهاى مجازى (Virtual Cities) شناخته مى شوند.

در هر لحظه هزاران نفر از مردم سراسر دنیا مشغول استفاده از این شهرهاى مجازى براى انجام کارهاى روزمره مثل خرید، استراحت و یا ملاقات دوستان هستند.شهرها به طور کلى مراکز جغرافیایى تجمع انسان ها و فعالیت ها و خدماتى است که توسط آنها انجام مى شود. به همین دلیل است که نحوه آرایش عناصر شهرى و شکل امروزى شهرنشینى براى مردم بسیار آشنا است. در نتیجه شهرهاى مجازى مى توانند مدل استعارى تمام اطلاعات و خدماتى باشند که در شهرهاى حقیقى وجود دارند. این شهرها کانون هاى الکترونیکى هستند که حتى انسان هاى ساکن محلات و ساختمان ها را نیز بر روى صفحه نمایش کامپیوتر شما به تصویر مى کشند.براى بررسى شهرهاى مجازى لازم است ابتدا به طبیعت آنها بپردازیم و سپس به سراغ نحوه ساخت و انواع سه بعدى آنها برویم. در نهایت نیز رویکردى به آینده این شهرها خواهیم داشت؛ زمانى که «شهرهاى مجازى- حقیقى» با ظاهرى کاملاً مشابه شهرها و ساختمان ها، ظرفیت ذخیره اطلاعات و از همه مهم تر احساس حقیقى شهرنشینى متولد خواهند شد.عبارت شهر مجازى براى توصیف اشکال گوناگون ذخیره و نمایش اطلاعات به کار مى رود. با این حال تفاوت هاى عمده اى میان انواع شهرهاى مجازى در اینترنت وجود دارد و مى توان آنها را به چهار گروه بزرگ تقسیم کرد.
ادامه مطلب ...

BPR :مفاهیم BPR برای تجارت الکترونیک

اینترنت موجب توسعه ی ارتباطات پیشرفته در همه جا، دسترسی در هر لحظه و ابزاری ساده از طریق مرورگرهای WEB گردید. سازمان ها سنتی با به کارگیری روش های نو و ابتکاری پا به عرصه ی تجارت الکترونیکی گذاشتند تا از تمام مزایا و قابلیت های اینترنت استفاده کنند. شرکت ها از طریق اینترنت فورا با مشتری ها، فروشنده ها و شرکای خود تماس برقرار می کنند. اینترنت موجب تغییر حرکت اطلاعات در سازمان ها، تغییر نحوه ی تبادل اطلاعات تجاری و ارتباطات گردیده است. این شرایط جدید موجب ایجاد ارزش های جدید در صحنه های اقتصادی و اجتماعی گردید. BPR برای تجارت الکترونیکی نقش بیشتری نسبت به توانمندی های وب دارد.BPR شامل طراحی مجدد فرآیندها در سرتاسر حلقه های ارتباطات درون سازمانی و بین سازمانی است.

ادامه مطلب ...

مدیریت پروژه های فناوری اطلاعات

فناوری اطلاعات یک صنعت رو به رشد، پویا و فرا رشته ای است از این رو کاربری رو به رشد آن در رشته ها و شاخه های مختلف علمی و اجرایی غیرقابل اغماض است. با توجه به تغییرات مداوم و حرکت رو به جلو دانش فناوری اطلاعات و ظهور پدیده ها و امکانات جدید قابل استفاده در بخش های مختلف سازمان ها، مدیران باید از توانمندی لازم برای شناسایی تحولات جدید و نحوه استفاده از آنها در جهت افزایش راندمان کاری سازمان آگاه باشند. همانطور که اشاره شد فناوری اطلاعات یک دانش فرارشته ای است و به همین خاطر مدیران با هر تخصصی و در هر سازمانی به هنگام پیاده سازی و بهینه سازی فناوری اطلاعات نیازمند آگاهی پایه ای و دانش تخصصی نسبت به تحولات روز دنیای IT هستند.
جنبه ترکیبی فناوری اطلاعات با سایر علوم همچون تبلیغات، بازاریابی، مدیریت و... باعث می شود تا برای انطباق و پیاده سازی هر چه بهتر فناوری اطلاعات در یک بخش تخصصی مثل واحد بازاریابی یا آموزش یک سازمان نیازمند مطالعه، برنامه ریزی، و اجرای پروژه های کوتاه مدت و بلند مدت باشیم. ادامه مطلب ...