Chào mừng các bạn quay trở lại với loạt bài
Tự Học SEO online của
Blog GiaLinhIT. Tiếp theo chúng ta sẽ tìm hiểu về vấn đề Indexing.
Nội dung chính của bài bao gồm:
Khái niệm web index, thu thập thông tin, caching và cách kiếm tra cache của một trang web.
Web index là gì?
Web index được hiểu là cơ sở dữ liệu lưu trữ các trang web.
Mỗi bộ máy tìm kiếm sẽ đặt máy chủ ở khắp nơi trên thế giới để lưu trữ trang web trong CSDL của chính bộ máy tìm kiếm đó. Điều này giúp tối ưu thời gian tìm kiếm của người dùng và kết quả trả về nhanh hơn.
Thu thập thông tin:
Có nhiều người cho rằng khi tìm kiếm theo một từ khóa nào đó có nghĩa là máy tìm kiếm sẽ quét hết thế giới website và trả về cho bạn những kết quả tối ưu nhất, nhưng thực tế không phải vậy, các cỗ máy tìm kiếm không tìm kiếm trên thế giới website mà sẽ tìm kiếm trong cơ sở dữ liệu để lấy ra các trang web có cùng chủ đề hoặc có chứa các từ liên quan.
Là một SEO-er: Với các làm việc trên của bộ máy tìm kiếm, để lọt vào “ cùng chủ đề” trong cơ sở dữ liệu của các bộ máy tìm kiếm bạn phải biết cách chèn từ khóa và đa dạng hóa từ khóa để có các từ khóa liên quan.
Ví dụ: Bạn đang SEO cho từ
Thiết kế website bán hàng thì bạn có thể đa dạng thành “ thiết kế website bán hàng giá rẻ”, hay giữa từ không dấu và có dấu “thiet ke website ban hang”.
Nhưng vấn đề đặt ra ở đây là làm cách nào các công cụ tìm kiếm có thể biết được trang web bạn đang chứa nội dung liên quan đến từ khóa được tìm kiếm. Có 3 cách: Sử dụng trực tiếp từ khóa, dựa vào tần suất xuất hiện, tần số nghịch của từ trong văn bản, dựa vào các từ khóa liên quan.
Sử dụng từ khóa:
Giả sử bạn tìm kiếm từ khóa sau: "Dịch vụ thiết kế web giá rẻ"
Có 2 nội dung mà chúng ta hiểu nó là liên quan:
- Dịch vụ thiết kế web giá rẻ của OSVN Company Limited – Website giá rẻ nhưng chất lượng không hề rẻ.
- Web của OSVN chi phí thấp nhưng chất lượng không thấp bởi giao diện, module quý khách được lựa chọn sẵn trong kho giao diện sẵn có của công ty chúng tôi, các kho giao diện này có đầy đủ các chức năng cho mọi lĩnh vực cần thiết.
Đánh giá 2 nội dung trên:
Đoạn 1 có chứa từ khóa, đoạn 2 không có chứa từ khóa, vì vậy bộ máy tìm kiếm sẽ dễ dàng xác định rằng đoạn 1 sẽ liên quan đến từ khóa trên.
Tần suất xuất hiện*tần số nghịch của từ trong văn bản.
(Term Frequency * Inverse Document Frequency)
Tần suất xuất hiện là số lần xuất hiện của từ khóa trong văn bản.
Tần số tỷ lệ nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Những từ nào được sử dụng phổ biến thì trọng số thấp hơn.
Ví dụ: Bạn tìm kiếm cùm từ “tuyển sinh đại học thái nguyên” , ta xét nội dung sau:
- Kỳ tuyển sinh đại học thái nguyên năm 2014 có nhiều thành công, dù điểm chuẩn không cao hơn năm ngoái nhưng trong điểm thi có sự phân loại thí sinh rõ ràng.
- Đại học thái nguyên là một trường đại học quy mô lớn thứ 4 trong cả nước với nhiều ngành đào tạo như : Công nghệ thông tin, kinh tế….
Với phương pháp TF*IDF thì từ “đại học thái nguyên” ít phổ biến hơn “ tuyển sinh” => IDF của “đại học thái nguyên” sẽ cao hơn IDF của “tuyển sinh”.
Với cùng tỉ lệ TF thì nội dung B liên quan đến cụm từ truy vấn hơn nội dung A nên công cụ tìm kiếm sẽ trả về nội dung B.
Máy tìm kiếm sử dụng IDF để chia từ khóa ra, ví dụ từ khóa trên sẽ được chia ra “tuyển sinh” , “đại học” , “thái nguyên”. Trong các từ này “thái nguyên” sẽ có IDF cao nhất. Máy tìm kiểm sẽ tìm trong cơ sở dữ liệu các nội dung có chứa từ “thái nguyên” rồi sau đó sẽ đánh giá và so sánh dựa trên các từ còn lại trong câu truy vấn.
Máy tìm kiếm tính toán rằng những từ xuất hiện nhiều trong văn bản này, ít trong văn bản khác là những từ có giá trị TF*IDF cao và là từ giá trị hơn.
c. Những từ liên quan.
Ví dụ: Tìm kiếm cụm từ “Tôn ngộ không”.
Tôn ngộ không hay còn gọi là tề thiên đại thánh, là nhân vật chính quan trọng trong tây du ký
Theo truyền thuyết tôn ngộ không được sinh ra từ hồn đá và có 72 phép thần thông.
Cụm “tôn ngộ không” thường được sử dụng với “ tây du ký” nên nội dung thứ nhất liên quan đến cụm từ cần tìm hơn nội dung thứ 2=> nó có
thứ hạng cao hơn.
3. Caching.
Caching giải thích về vấn đề các máy tìm kiếm copy nội dung của một trang web để lưu vào cơ sở dữ liệu phục vụ cho việc đánh giá thứ hạng. Những bản được copy này gọi là cache.
Là một SEO-er trong quá trình làm việc bạn sẽ thấy dù bạn đã tối ưu nội dung nhưng website của bạn vẫn ở thứ hạng cũ, đơn giản vì bộ máy tìm kiếm chưa quay lại copy nội dung cập nhật của bạn, nghĩa là vấn dùng cache cũ để đánh giá thứ hạng cho website của bạn. Bạn hãy kiên nhẫn chờ đợi các bộ máy tìm kiếm được cập nhật lại ( cache cập nhật mới).
Bài viết có tham khảo ebook SEO của vietmoz
Chúc các bạn học tốt!