里約奧運會結束了,資訊站點的小編們終于可以松口氣了,可有些SEOer卻高興不起來:編輯辛苦搶先制作的原創(chuàng)稿件,百度卻不!收!錄!奧運會期間接到了四五起這樣的反饋,經(jīng)追查,原來是站點的搶發(fā)行為不夠友好,導致spider抓取失敗。結論:
1,頁面制作完成后再放到spider可以發(fā)現(xiàn)的地方,這樣才能達到最好的抓取效果。
2,頁面未對外公開之前,千萬不要通過工具推送給百度呀。
接到站長反饋后,聯(lián)系了spider工程師,工程師在后臺查詢了這些未收錄的鏈接,發(fā)現(xiàn)均顯示為“死鏈”,然而這些所謂的死鏈現(xiàn)在訪問都是好好的。根據(jù)后臺顯示的抓取時間,反復和站點進行溝通,終于找到了根源:原來,站點為了搶新聞,提前制作了新聞稿并制作成鏈接并且發(fā)布,雖然沒有在首頁等重要頁面推送給用戶,但卻被BaiduSpider發(fā)現(xiàn),更重要的是,這些鏈接向BaiduSpider返回的狀態(tài)碼是404。
舉個例子,中國女排進入決賽后,某網(wǎng)站做了A和B兩個頁面,分別為奪冠和摘銀,為了防止用戶在比賽結束之前閱讀到頁面內容,站點將兩個鏈接都設置為404!404!(等到比賽結束后,再將其中一個頁面的html返回碼改為200)。雖然頁面并沒有向用戶推送,但還是被聰明的BaiduSpider發(fā)現(xiàn)。然而這里的問題是,BaiduSpider發(fā)現(xiàn)頁面是404,又無法判斷出這是一個重要頁面,于是直接打入冷宮不再理睬。
所以,小編反復強調,確認頁面真的不需要被搜索引擎保留時可以使用404(臨時閉站可使用百度站長平臺的閉站保護工具),如果還希望和搜索引擎保持友好關系的話,請使用503,防止頁面被刪除。雖然Baidu有對高價值內容的“刪除保護”功能,但畢竟不是每個站點都可以享受到這個特權的。