Thứ Năm, 23 tháng 1, 2014

Google Power Searching - Công cụ tìm kiếm hoạt động như thế nào?

Phần 1.3 -  Công cụ tìm kiếm hoạt động như thế nào?

Matt Cutts nói rõ rằng, Google không Search các Website, Google chỉ search các chỉ mục của những website đã được lập. Google thực hiện việc lập chỉ mục (index) này bằng NHỮNG chương trình (software) gọi là Spider (còn gọi là "bọ" hay robot).

Google hoạt động như thế nào?
Google hoạt động như thế nào?

Spider lấy một vài website làm căn cứ, và đi theo (follow) những liên kết (link) trên các website đó để tìm ra những website khác, và quá trình này cứ tiếp diễn như vậy ... Sau đó, Google lưu trữ lại hàng tỷ trang (page) trên hàng ngàn máy tính khác nhau.

Nói thêm về bọ tìm kiếm. "Bọ" là cách nói hình tượng về đường đi và theo chân các liên kết để thu thập thông tin. Thực ra các chương trình Index này là cách tổ chức các quy tắc theo nền tảng hạ tầng mạng và Internet có sẵn để đưa ra các phương pháp thu thập thông tin tốt nhất. Tùy vào khả năng tư duy của chương trình Index này (thường thì các thuật toán về thu thập thông tin và tối ưu đường đi rất có ý nghĩa), mỗi một chương trình "bọ" của mỗi công cụ tìm kiếm sẽ có những sức mạnh khác nhau.

Bọ chỉ có nguyên tắc, chứ không có đường đi cố định
Bọ chỉ có nguyên tắc, chứ không có đường đi cố định
Để minh họa rõ hơn một cách đơn giản về "bọ" trong thực tế, tôi viết một con bọ Index dựa vào sitemap có sẵn để lấy các tiêu đề trang của các Blogger. Ở đây, tôi dùng nền tảng spreadsheet của Google, nghĩa là tôi đã được hỗ trợ bởi nền tảng của những công thức tính fuction cơ sở hơn. Nếu bạn lập trình từ một ngôn ngữ, bạn phải trải qua hết các giải thuật liên quan. Bạn có thể xem con bọ của tôi hoạt động như thế nào TẠI ĐÂY, hãy chỉnh sửa địa chỉ blogger để crawl, tôi đã public cho mọi người.

Đây là hình dạng con bọ của tôi
Đây là hình dạng con bọ của tôi
Mỗi khi bạn gõ truy vấn tìm kiếm vào Google, phần mềm của họ sẽ tìm kiếm trong những chỉ mục đã được lập sẵn như vậy, xem qua thông tin rất nhiều trang như vậy, và chọn lọc xem những trang nào phù hợp với truy vấn của bạn, và mang lại giá trị về thông tin cao nhất. Những câu hỏi mà Google phải vượt qua như:


Từ khóa (keywords) xuất hiện bao nhiêu lần trong trang này?
Những từ này có xuất hiện trong tiêu đề hay đường link của trang không (URL)?
Từng từ này có liền kề nhau hay không?
Những từ đồng nghĩa có xuất hiện trong nội dung trang không?
Nguồn gốc của trang có phải xuất hiện từ một website chất lượng và uy tín? PageRank của trang là bao nhiêu?

Google trả lời các câu hỏi trên từng trang, và điều này diễn ra hoàn toàn tự động
Google trả lời các câu hỏi trên từng trang, và điều này diễn ra hoàn toàn tự động
Sau đó các dữ kiện này được kết hợp lại - để tính thứ hạng cho các trang và sau đó xuất kết quả trong vòng nửa giây cho bạn. Matt Cutts cũng nói đến kết quả hiển thị quảng cáo theo Click chuột của Google được hiển thị ở trên cùng và cột phía bên tay phải. Ông nói rằng các kết quả hiển thị, kể cả Ads là rất nghiêm túc và được chọn lựa kỹ lưỡng, nếu không có ads nào phù hợp với truy vấn thì Google không hiển thị quảng cáo.

Video trình bày nguyên tắc hoạt động Google của Matt Cutts

Link bài học gốc: http://www.powersearchingwithgoogle.com/course/ps/lesson13.html
Bài tập cho phần này (tiếng Anh): http://www.powersearchingwithgoogle.com/course/ps/activity13.html
Bài tập cho phần này (tiếng Việt): http://www.proprofs.com/quiz-school/story.php?title=NjM1MTk07IRF

Không có nhận xét nào:

Đăng nhận xét