早之前記的一個筆記了,之前只是記錄了兩句代碼,放出來的話也是一個低質(zhì)量的頁面,于是設(shè)置為了僅自己可見,今晚抽空補充一下。
記得當(dāng)?shù)那榫皯?yīng)該是提交sitemap時百度老提示有錯誤的URL,導(dǎo)致sitemap不能正常被抓取,于是在想辦法解決這個問題,所以才有下面這些筆記:用shell批量找出網(wǎng)站空頁面和404錯誤頁面。
廢話不多說,直接上shell代碼:
前面加了一個time是為了看看代碼執(zhí)行所花的時間
%{http_code}意思是返回HTTP狀態(tài)碼,通過這個狀態(tài)碼我們就能知道該鏈接是正常的200鏈接,還是404錯誤鏈接;
%{size_download}意思是返回當(dāng)前頁面的大小,如果值太小的話,說明這些頁面很有可能是低質(zhì)量的空頁面,得想辦法剔除掉。
標(biāo)簽:隨州 延邊 青島 朝陽 通遼 西藏 南充 雅安
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《使用shell腳本找出網(wǎng)站的空頁面和404錯誤頁面》,本文關(guān)鍵詞 使用,shell,腳本,找出,網(wǎng),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。