自己寫的就一定會被搜索引擎認爲這是(shì)一篇原創文章,并不是(shì)網站有文章百度優化。因爲其中還有很多技術方面的問題,搜索引擎還未能解決。記得我曾經在一個網站每天更新一篇文章,一篇文章的字數隻有100字左右,但(dàn)是(shì)文章頁面非常簡單,簡單到整個頁面沒有JSCSSHTML代碼,隻有文字,但(dàn)收錄卻非常好,而有一些網站,用JSCSShtml代碼把網站修飾的非常漂亮,但(dàn)是(shì)發布的文章卻不收錄,這讓我開始覺得代碼與原創度有直接關系。
200KB算是(shì)很大了博客隻有30KB左右,忘記了哪裏看到過這樣的一句話(huà)“搜索引擎隻能識别200KB以内的内容”對于一個網頁而言。所以我博客在搜索引擎中抓取是(shì)完全沒有壓力,如果你網站有超過200KB覺得你應該要優化了
來看看,這和網站的文件大小有什麽關系呢?好。搜索引擎在抓取一個頁面的流程是(shì)從頭到底,任何一個頁面都有一個共同點,那就是(shì)頭部一樣、底部一樣,唯一不一樣的就是(shì)文章内容,那麽搜索引擎在抓取頭部有10KB左右是(shì)一模一樣的中部文字的時候隻有2KB不一樣的而底部又(yòu)有10KB一模一樣的那麽還會認爲這是(shì)原創文章嗎(ma)?
那就是(shì)搜索引擎是(shì)不認識字的隻有把這個漢字放(fàng)到數據庫去(qù)對比,這裏還得給大家灌輸一個理念。當一對比一個新文章頁面的時候,總共22KB頁面,居然有20KB一模一樣,就算是(shì)寫了原創文章,也會被列入到僞原創的列表中去(qù)。
對原創文章的判斷得出了這樣的一個理論,經過我3年的SEO優化加測試百度優化。當一個頁面比較大的時候,一個頁面的不同點至少占頁面的1/3那麽寫多少文字呢,比方你頁面有10KB那麽至少的寫3KB文字,剩下的7KB相(xiàng)同,這些才不容易被列入到僞原創的列表中。當然,這是(shì)個人得出的理論,并沒有完全的證據和理論來證明。
爲什麽剽竊者的網站更容易收錄?
爲何剽竊我網站的内容還先收錄呢,那麽還有一個問題來了既然要抓取、識别、釋放(fàng)這麽複雜(zá)的流程。這是(shì)大家很糾結的這個問題,也糾結了很久,直到有一天,自己做了一個平台,每天讓自媒體人發布非常原創内容的時候,才總結出來,爲何越剽竊越容易收錄!
覺得咱們先要搞清楚新聞内容是(shì)收錄流程,談論剽竊者網站爲何會收錄塊的時候。新聞内容相(xiàng)對普通的内容收錄較快,因爲新聞内容具有時效性,所以必需當場發當場收錄,然後釋放(fàng)進去(qù),不然拖到第二天在收錄的話(huà),這個新聞可能不熱了關注的人也就少了百度從而失去(qù)了這個體驗。
通常剽竊者的網站是(shì)剽竊過多篇文章,而抄襲者的網站與新聞内容類似。其中有直接剽竊原創者,也就剽竊二手文章,抄來抄去(qù),互聯網同樣的文章就非常多了當一篇文章被互聯網多次剽竊,這就意味着這篇文章比較熱門,不熱門怎麽會這麽多人抄襲呢?最終就出現(xiàn)了一個熱點效應,收錄的門檻也就降低了所以就出現(xiàn)了剽竊者抄襲了文章,比你還先收錄。
下一篇:沒有了