Google Search Consoleのインデックス情報が少し変ったようです。
ソースという項目が増えています。「ソース」と言われるとなんだかよくわかりませんが、要はインデックスされない要因がサイト側(自分側)なのかGoogle側なのかということみたいです。
インデックスされていないページがかなりあるのはやはり気になります。まずはウェブサイト側、つまり、自分の問題の方から詳細を見てみます。
【noindexタグによって除外されました】
ほとんどはコメントやタグ、あるいは、日付アーカイブのページですね。これらはインデックスしてもしょうがないのでnoindex指定になっているのは想定された話です。ですので、問題ありません。
ひとつ、「5675.html」という一般のページのURLがあります。これは気になります。開いてチェックしたらパスワード入力のページでした。これも意図的にインデックスから外していますので、正しい動作です。
ざっと見た限り、このnoindexタグによるインデックス除外は問題なさそうです。
【見つかりませんでした(404)】
これらはチェックしてみたところ、削除したページでした。削除しているので見つからないのは当然なのですが、それをGoogleのクローラが知っていることが問題。おそらく、ページは削除したものの、どこかにリンクが残っているのでしょうね。
それを探して潰すのが本来はいいのでしょうが面倒…。これがSEO的にどれくらいまずいのかはわかりません。もし、外部サイトからのリンクだと自分ではどうしようもないですね。まぁ、おそらくそういうリンクは付いていないと思いますけど。
【クロール済み – インデックス未登録】
これはGoogleシステム側の問題ですので、サイト運営者では手の打ちようはありません。クロールしておきながらインデックスしないというのは、Googleから見て「価値がないページ」と判断されたのだろうと思います。
URLから判断するに、feedとかタグインデックスとかなので、たしかにインデックスする必要はないページです。noindexを付けてもいいくらいですが、付いていないんでしょうね。ともかく、これらもインデックスされないことに問題はなさそうです。
今回見た範囲ではインデックスされていないものの中に問題は見つかりませんでした(インデックスする必要がないものばかり)。インデックスしてほしいのにされれていないものがもしあったら、原因を探して対処するといいでしょうね。一時、インデックスされづらい状況がありましたけど、最近はそうでもない気がしています。