En muchas ocasiones al realizar una búsqueda en Google, Bing, etc.. nos encontramos con información que en principio no debería ser accesible para el público en general, esto se debe en la mayoría de los casos a que no se han tomado las medidas básicas de protección.
Lo primero a tener en cuenta es reflexionar sobre si determinada documentación sensible debe estar en internet (no siempre es necesario), lo segundo establecer el nivel de privacidad poniendo un barrera adecuada al acceso (por ejem. la información solo esta disponible después de identificarnos con un nombre de usuario y su correspondiente contraseña) y lo tercero indicar a los buscadores si deseamos que esa información sea indexada o no.
Como evitar la indexación:
Crear previamente un archivo robots.txt en el sitio web ayudará evitando el rastreo de las páginas seleccionadas, aunque hay que tener en cuenta que si otras páginas las enlazan, se indexarán igualmente y la información estará disponible.
Para evitarlo la etiqueta "noindex" se puede colocar en el código fuente de tus páginas web restringidas como cualquier meta-etiqueta y prohibe que los motores de búsqueda indexen dicha página, incluso cuando encuentran enlaces desde otras páginas.
<meta name="robots" content="noindex">
NO solo se indexan las páginas Html, hay que prestar especial atención a los documentos en Pdf.
más información:


