Matt Cutts nói rõ rằng, Google không Search các Website, Google chỉ search các chỉ mục của những website đã được lập. Google thực hiện việc lập chỉ mục (index) này bằng NHỮNG chương trình (software) gọi là Spider (còn gọi là "bọ" hay robot).
Google hoạt động như thế nào? |
Spider lấy một vài website làm căn cứ, và đi theo (follow) những liên kết (link) trên các website đó để tìm ra những website khác, và quá trình này cứ tiếp diễn như vậy ... Sau đó, Google lưu trữ lại hàng tỷ trang (page) trên hàng ngàn máy tính khác nhau.
Nói thêm về bọ tìm kiếm. "Bọ" là cách nói hình tượng về đường đi và theo chân các liên kết để thu thập thông tin. Thực ra các chương trình Index này là cách tổ chức các quy tắc theo nền tảng hạ tầng mạng và Internet có sẵn để đưa ra các phương pháp thu thập thông tin tốt nhất. Tùy vào khả năng tư duy của chương trình Index này (thường thì các thuật toán về thu thập thông tin và tối ưu đường đi rất có ý nghĩa), mỗi một chương trình "bọ" của mỗi công cụ tìm kiếm sẽ có những sức mạnh khác nhau.
Bọ chỉ có nguyên tắc, chứ không có đường đi cố định |
Đây là hình dạng con bọ của tôi |
Từ khóa (keywords) xuất hiện bao nhiêu lần trong trang này?
Những từ này có xuất hiện trong tiêu đề hay đường link của trang không (URL)?
Từng từ này có liền kề nhau hay không?
Những từ đồng nghĩa có xuất hiện trong nội dung trang không?
Nguồn gốc của trang có phải xuất hiện từ một website chất lượng và uy tín? PageRank của trang là bao nhiêu?
Google trả lời các câu hỏi trên từng trang, và điều này diễn ra hoàn toàn tự động |
Video trình bày nguyên tắc hoạt động Google của Matt Cutts
Link bài học gốc: http://www.powersearchingwithgoogle.com/course/ps/lesson13.html
Bài tập cho phần này (tiếng Anh): http://www.powersearchingwithgoogle.com/course/ps/activity13.html
Bài tập cho phần này (tiếng Việt): http://www.proprofs.com/quiz-school/story.php?title=NjM1MTk07IRF
Không có nhận xét nào:
Đăng nhận xét