當前位置:首頁 >新聞資訊 >企業新聞

【長沙網站建設】解決網站不收錄的必備思路

來源:站多多作者:武漢網站建設發布時間:2019-03-13 15:25:35

網站不收錄可謂說是老生常談了,太多SEO從業者有遇到這樣的問題而無從下手,導致苦惱萬分。我們解決網站不收錄的問題前,應該思考一個問題:“讓網站收錄的影響因素都有哪些呢?”,先弄明白這件事情,然后再去解決收錄的問題就會變得很有頭緒。

下面我以一個案例的形式針對性的描述下如果一步一步解決網站不收錄。

我在剛加入環球網校的時候,他們的網站已經將近1年的時間在百度的收錄少之又少。在我去應聘的時候,CEO知道我在SEO方面有些能力,就令我盡快解決網站不收錄的問題。

首先,我只是聽到公司的人和我說這個網站不收錄,那到底是哪里不收錄、怎么不收錄我完全不清楚,所以我開始了數據整理和問題排查的工作。

將網站按照類型做分類,分為了頻道頁、列表頁、專題頁、聚合頁以及新聞頁5類。然后核技術溝通將這5類URL全部導出給我(新聞頁,由于很多考試相關的新聞具有時效性,所以我只導出了30天的數據),然后我按照不同的分類開始收錄查詢工作。最后收錄查詢的結果如下:

【長沙網站建設】解決網站不收錄的必備思路

如上圖,我發現公司人員和我反饋的網站不收錄,具體的問題是在新聞頁。而環球網校的新聞是面向考試的信息發布、資料發布等。是具有一定時效性的文章,按理說這么大的網站應該秒收才對。

于是,我和相關人員要了網站最近7天的網站日志,技術給我的是原始的網站日志,既包含了爬蟲數據也包含了用戶數據等等,沒辦法,只能自己清洗一下這些數據了。

SEO清洗網站爬蟲日志的流程

1、我先按照user-agent包含baiduspider的進行過濾,只保留包含baiduspider的數據,這樣我就擁有了百度爬蟲的數據;

2、但百度爬蟲數據中,也有很多假爬蟲,按照ip反查的思路,我先把所有baiduspider的ip地址拿下來,然后去重;

3、得到600多個不重復的唯一ip地址。我對這些ip地址通過程序批量識別真假爬蟲,最后是真爬蟲的ip地址有82個;

4、我再在第一步的所有爬蟲數據中進行過濾,只保留ip地址為真的百度爬蟲的這82個。最后得到的數據就是真的爬蟲數據了;

5、我將最近7天內發布的url在這個清洗后的日志中進行查詢,最后發現所有的新頁面在發布后的1分鐘內爬蟲都有抓取,可想抓取是多么的及時,并且在第二天、第三天都還會有對這篇文章的抓取。

最終我看到爬蟲抓取的行為數據表現很好,應該不是抓取上出了問題。

然而,在我分析日志之前,也和技術、產品、運維同步了一個需求,我需要1年前網站突然開始不收錄那個大概時間節點他們各部門都做了什么改動。就在我分析完日志的晚上,技術老大找到我說,他想起來當年是因為網站被攻擊,大量注入了很多的垃圾數據后,網站收錄才出現異常的。

我可能知道問題就出在這里,但為了更全面的考究問題,我還是讓他們按規定把之前做的一些改動同步給我。

第二天早上我就開始圍繞網站被攻擊的問題與技術進行了徹底的排查,看網站之前被注入的垃圾信息有沒有清除干凈。最后確認垃圾信息早就徹底清除了,且正確返回了404狀態碼和404錯誤頁面。

然后我懷疑是不是百度沒有修正我們的狀態,被攻擊的時候開始不收錄正常,畢竟檢測到了我們網站的風險,那時隔一年還是如此,一定是百度的問題。我通過百度的反饋中心詳細的說明了問題的始末,然后百度的技術也在一直排查,我等了有一周時間沒見回復,其他部門也把之前的一些調整和改動都給我了,我也確認那時大家的做法沒有問題。

于是,我主動聯系了百度站長平臺的朋友,希望他們能夠盡快處理,查明問題。

可最后我得到的結論是百度也沒發現什么問題,據說幾個部門的技術針對我的問題還各自篩查一遍,沒找到問題。好吧,百度的兄弟已經給足了面子,能這么幫咱跟進需求很到位了。還是靠自己,這畢竟是我入職CEO的第一個托付,一定要搞定。

我也找了我們的編輯,詢問并且檢查文章本身的質量問題,大家和幾年前一樣,一直按部就班的發著信息,沒什么變化。及時性、可讀性、需求滿足度都可以保證。具體是哪出了問題呢?

我思前想后,會想到問題的本質是開始于網站被攻擊開始的,那如果真的是百度沒反應過來的話,我就要讓百度重新對我的新聞頁進行計算,以重新評估這類頁面。于是我有了對新聞頁改版的念頭。

開始與產品溝通,但他們忙,無奈下,我獨挑大梁,自己畫原型開干了。

通過對頁面的重新設計、豐富了內鏈的鏈接策略,也增加了很多廣告自定義的場景。通過20多天的努力,新的頁面上線了。

由于網站每天發布的新聞很多,大約在幾百條,所以我寫了一個收錄查詢的程序,每天這個程序都會自動幫我查收錄,然后以excel附件的形式發到我的郵箱,我進行查看。

就在新版的新聞頁上線的第4天,收錄率從之前每天的1~5個,突然有100多個了,收錄率之前都是零點零幾,現在有40%多了,又過一天82%,再過一天79%,又過一天85%,就這樣80%上下持續了一周的時間,到了下周突然達到了97%,而且是秒收的。然后中間也有個別的天是浮動的。但整體都在95%上下。

到這,我認為收錄問題徹底解決了,很多編輯的同事也早就知道了這個事情?,F在幾年過去了,我策劃的新聞頁仍在,且收錄情況一直良好。

下圖是我剛查詢環球網校最近一天的收錄情況:

時間上有10分鐘前、15分鐘的。由于你也想查一下的話,而且整體數量也在幾百條的數量上。

那我們來總結一下當網站不收錄后的解決這個問題的思路:

1、鎖定網站不收錄的是哪類型的頁面,就像案例所說,最終我鎖定到了新聞頁;

2、思考網站不收錄的這個時間點內,對網站有改動權限的人都做了什么,這些改動會不會是網站不收錄的原因;

3、分析網站的日志,看不收錄的那個網站類目是不是有抓取,沒抓取就是抓取問題,有抓取就不存在問題;

4、當網站改動上沒問題,抓取沒問題。就在站長工具反饋中進行詳細的反饋;

5、反饋的同時也可以對該類型的模版頁面進行適當的調整,例如增加鏈接入口、增加網頁豐富度,新聞頁提高原創比例,文章內容的質量程度。

6、要是還不能收錄的話,就對當前類型的模版頁面進行大改版,重構頁面進行嘗試。

如未特殊注明,文章均來源于網絡! 轉載請注明來自:http://www.yibifu014.com 

国产一级毛片三邦车视|免费在线人人电影网|一本加勒比HEZYO无码|国产亚洲精品资源在线26u|日本欧美大码aⅴ