Chargement...
 
[Voir/Cacher menus de gauche]
[Voir/Cacher menus de droite]

3 - Le site : philosophie, organisation, problèmes...

Dernier post

[résolu] crash du site

pianolivier utilisateur non connecté France
Hello,

Je créé ce sujet pour reporter les nouveaux crash du site depuis janvier 2012, en espérant qu'il ne serve pas beaucoup.

Ce qu'il se passe à mon avis : Lors de la MAJ du site en janvier 2011, nous avons interdit les visites de robots (indexeurs pour moteurs de recherche) car ajoutées à l'afflut de visiteurs curieux et le fait que le serveur devait re-mettre en mémoire toutes les pages d'un coup, cela faisait planter le site en permanence.
Juste avant janvier 2012, un an après, nous avons ré-autorisé l'accès pour les robots, google est arrivé dans les premiers et le trafic a augmenté d'un coup.
Depuis, en ce qui me concerne, le site est devenu 5 fois plus lent et j'obtient régulièrement des échecs de connexion ("Tiki is unable to connect to the database"). D'autres robots sont arrivés (Voila, BaiDuSpider, Yahoo pour les principaux) et...

Le site était down à partir de cette nuit/ce matin jusqu'à au moins 13h.

Merci de confirmer par vos experience et de reporter ici d'éventuelles nouvelles inaccessibilités du site.

oliv'

allany utilisateur non connecté
Hello, Piano'

Comme tu le sais, pour ma part, j'ai constaté tout début janvier que vers 6-7 heures le matin, il y avait déjà ~50 connectés.

Une semaine après, toujours aux mêmes horaires, 85-90.

Durant la semaine écoulée, entre 100 et 150.
Hier matin (13/01), entre 185 et 200, toujours aux mêmes heures.

Ce matin, c'était le mess tiki puis ensuite Firefox "unable to connect".

Depuis le début du mois, des déconnexions intempestives au moment des validations de messages ou mails.
Après déconnexion, le pseudo reste quand même toujours affiché comme connecté...

A+

pianolivier utilisateur non connecté France
merci Jacques,

Du coup ca me fait penser à :
Lors d'échecs de connexion ("Tiki is unable to connect to the database"), le travail en cours (message de forum, édition du wiki) n'est pas nécessairement perdu !
Il suffit généralement, une fois arrivé sur la page d'erreur avec le logo Tiki, de "re-charger" la page, avec le bouton dédié de votre navigateur par exemple. Si ca se trouve c'est même inutile, le message est bien envoyé, j'ai pas vérifié exactement.

oliv'

ps @allany : utilises-tu la fonction "se souvenir de moi pendant 1 an" ? c'est bien pratique wink

allany utilisateur non connecté
@Piano' :
- utilises-tu la fonction "se souvenir de moi pendant 1 an ?
- Yes !

pianolivier utilisateur non connecté France
nouveau crash du site aujourd'hui apparement, voici un bout de message d'olinuxx :
le site était planté.
J'ai causé avec UNGI et ils ont relancé le SQL.
Veux bien des détails, moi wink

oliv'

allany utilisateur non connecté
Hello !

Les ghostbusters sont passés par là ? Pince-moi, je rêve !
Ce matin, 8, 10, 12, une petite pointe à 15 connectés.
Et puis fluide, le site, fluide !

Y'a du nouveau ?

A+,
Jacques.

olinuxx utilisateur non connecté France
coucou,


alors oui, le site était planté hier. Le SQL (la base de données) a lâchée. Je suis passé voir ungi (notre hébergeur) et ils ont relancé la base de donnée et le site est reparti.

J'en ai profité pour poser quelques questions :

1) que représente la charge des crawleurs en plusse de la navigation des humains sur le site ?
réponse: x2
2)avez vous des pistes pour améliorer la charge sur le serveur?
réponse: virer les images de la base de données

petite précision sur le 2) :

de ce que je comprends de tout ca, en gros, on a :
  • un serveur : Apache. Quand un utilisateur du site clique sur une page, il demande a Apache de faire apparaitre la page (image, menu, contenu, ...)
  • une base de donnée, mySQL. Les pages sont "construites a la demande", c'est a dire que lorsque qu'un utilisateur demande une page, Apache dit a Mysql : donne moi "tel contenu", "tel menu", "tel autre contenu", "telle image", ... et Apache fini par envoyer la page a l'utilisateur chez qui elle s'affiche.

Pourquoi le fait de paramétrer "les images" pourraient améliorer la charge serveur ?

parce que pour l'instant, les images sont stockées dans mySQL et donc, a chaque fois qu'Apache a besoin d'une image, il la demande a mySQL et une image, c'est "lourd" (en terme de poids informatique, comparé a du texte).

Que fau(drai)t-il faire ?
Il faudrait configurer Tiki pour qu'il stocke les images en dehors de la base de données, ainsi, quand un utilisateur demanderait une image, Apache pourrait aller la chercher tout seul sans le demander a mySQL ... et mySQL ne se ramasserait plus la tronche.




Autre méthode, autre solution.

Le résumé est celui-ci :
Depuis que les robots ont été ré-autorisés a crawler (indexer) le site, on a eu 2 plantages en une semaine.

l'autorisation ou non des robots sur le site se fait a l'aide d'un fichier "robots.txt"

Pour l'instant, il est utilisé en mode "tout ou rien", c'est a dire, les robots ont le droit de tout indexer, ou alors on les bloquent complétement.

Ce qui est sur, c'est que lorsque l'on autorise les robots-indexeurs a indexer le site, on se tape un crash de SQL tous les 2 jours.

Une possibilité que j'ai suggéré pourrait être de les bloquer complétement (moi je m'en s'coue de google, c'est pas lui qui écrit les pages de documentation ici et linuxmao est relativement bien connu des gens qui peuvent être intéressés, y'a plein de site qui en parlent). Gilles a peur que de ce fait, le site ne soit plus indexé et qu'un beau jour, quelqu'un fasse un fork de linuxmao et le fasse indexer.

Du coup, il pense que quelqu'un devrait "prendre en main" le fignolage de "robots.txt" avec comme idées :

  • étudier si on peut autoriser certains robots que quelques jours dans le mois en modifiant dynamiquement le fichier robots.txt par un mécanisme de crontab. Ce cas nécessite de regarder de façon empirique combien de temps on reste présent dans google si on lui interdit l'accès. Il faut voir aussi en combien de temps google arrête de crawler quand on lui coupe le sifflet

  • si quelqu'un ouvre une page développeur dans Google, il dispose d'un code à mettre dans le robot, ce code permet de spécifier un crawlage lent et des plages d'accès. Il faut répéter le processus pour bing, pour yahoo et les autres crawler donc il faut que quelqu'un ait accès aux logs pour voir au bout de combien de temps on cesse un crawlage et qu'il fasse un document dans Linuxmao avec des indications pour chaque crawler

Gilles sait faire ca, mais n'a pas le temps. Moi, je voudrais bien m'y intéresser, mais j'ai pas le temps de me lancer dans cette aventure-apprentissage en ce moment et je veux pas dire que je le ferai alors que je suis bien occupé actuellement).
Gilles pense que le niveau technique demandé est très simple, il faut juste quelqu'un de patient qui donne dix minutes de temps par jour pendant 1 mois ou même 15 jours et qu'il faut juste que quelqu'un s'y colle, quelqu'un que ça intéresse de devenir spécialiste des questions de gestion des crawlers



A la question "ghostbuster ou pas ?", j'ai demandé si quelqu'un (chez ungi, ou gilles) avait coupé les crawleurs, a priori non. Je me demande s'il n'y a pas un effet:
  • le site plante,
  • les crowleurs google voit qu'il est planté,
  • ils arretent de crawler quelques temps
  • et ne reprennent que dans quelques jours
c'est juste une idée, j'ai pas les compétences pour savoir.


Voila un peu pour le topo,
Cellule-de-crisement,
Olivier

pianolivier utilisateur non connecté France
merci pour ce topo plutôt complet olinuxx, et merci d'avoir réagit rapidement pour remettre le site d'aplomb smile

du coup j'ai quelques questions en réaction :
  • je pensais que tout avait été fait déjà, niveau conf tiki pour les images, ce n'est pas le cas ? Que peut-on faire d'autre, déplacer toutes les anciennes images encore utilisées dans la nouvelle galerie ?
  • si je comprend bien, il y a deux types de crash : SQL (on voit un message d'erreur) et complet (pas de reponse du site du tout), c'est ça ?
  • pour les robots, on est pas tout à fait en mode "tout ou rien". le mieux pour voir cela est de lire ce fameux fichier qui est publique : robots.txt
    j'essayerai de me renseigner sur les paramètres comme Crawl-Delay, mais je sens que si je me propose pour cette tache d'optimisation des réglages, on va encore me dire "encore lui !". Alors j'attend un peu mais je me propose quand même.
  • par rapport au "je m'en s'coue de google", on en a déjà parlé en privé et apparement on est pas vraiment d'accord. Mon opinion perso est donc que "selon mes calculs", google apporte la plupart des nouveaux visiteurs sur le site. Après on ne sait pas si la majorité de ces nouveaux (j'en fait partie) sont sympa ou même s'il viennent plus d'une fois, mais on ne peut pas nier complètement la "contribution" de google sur ce plan. En attendant une meilleure solution, je suis cependant d'accord avec le compromis proposé.
  • au vu des logs existants, je ne m'inquieterai pas trop pour le moment des autres de moteurs de recherche que google : c'est surtout ce dernier qui a l'air de "pomper" le site.

Je me permettrai enfin de rappeler une troisième solution plus radicale et long terme à titre de complément d'info : obtenir un serveur assez costaud pour supporter le trafic du site.

oliv'

olinuxx utilisateur non connecté France
Yop,

D'un cote, je suis naze, d'un autre je veux que ce soit clair, du coup, je la fait rapide et sans beaucoup de forme :


pianolivier : je pensais que tout avait été fait déjà, niveau conf tiki pour les images, ce n'est pas le cas ?

Ba, ca m'a tout l'air que non.


pianolivier : Que peut-on faire d'autre, déplacer toutes les anciennes images encore utilisées dans la nouvelle galerie ?

c'est a investiger, mais je suis pas sur que le fait de mettre les images dans les "nouvelles galeries" fassent que ces images ne soient pas placées en base de données. Je regarde ca ce weekend.


pianolivier : si je comprend bien, il y a deux types de crash : SQL (on voit un message d'erreur) et complet (pas de réponse du site du tout), c'est ça ?

oui,
  • si SQL tombe, Apache est toujours la et nous envoie le message d'erreur qui (traduit) dit "SQL est tombé"
  • si Apache tombe, ca donne un message du navigateur qui dit "j'arrive pas a me connecter a ton site bonhomme, regarde si t'es pas hors ligne, si ton routeur est bien configuré, ... blablabla"


pianolivier : ''pour les robots, on est pas tout à fait en mode "tout ou rien". le mieux pour voir cela est de lire ce fameux fichier qui est publique : robots.txt
j'essayerai de me renseigner sur les paramètres comme Crawl-Delay, mais je sens que si je me propose pour cette tache d'optimisation des réglages, on va encore me dire "encore lui !". Alors j'attends un peu mais je me propose quand même.''

c'est gilles qui me l'a dit comme ca. En plusse, oui y'a des trucs dans ce fichier, mais bon, ca a pas l'air de fonctionner terrible.


pianolivier : par rapport au "je m'en s'coue de google", on en a déjà parlé en privé et apparemment on est pas vraiment d'accord. Mon opinion perso est donc que "selon mes calculs", google apporte la plupart des nouveaux visiteurs sur le site. Après on ne sait pas si la majorité de ces nouveaux (j'en fait partie) sont sympa ou même s'il viennent plus d'une fois, mais on ne peut pas nier complètement la "contribution" de google sur ce plan. En attendant une meilleure solution, je suis cependant d'accord avec le compromis proposé.

C'est des calculs foireux. Je t'en refais une demo quand tu veux.
En plusse, moi, par principe, je cours pas (ou plus) après les nouveaux arrivants, je préfère prendre soin de ceux qui sont la, qui contribuent. Donc, google, ca me gonfle (et la, j'ai mis le filtre "olivier-politesse" en marche a son plus haut niveau) , autant que les facebook et consort, et ca n'a rien a faire sur ce site, ici c'est un bout de web libre et libérant (et toujours en essayant de faire avancer ceci le plusse possible). C'est clair, c'est precis, et c'est positionné. Et de ce genre de discussion dépend ma motivation a continuer ici.


pianolivier : au vu des logs existants, je ne m'inquieterai pas trop pour le moment des autres de moteurs de recherche que google : c'est surtout ce dernier qui a l'air de "pomper" le site.

+1

pianolivier : Je me permettrai enfin de rappeler une troisième solution plus radicale et long terme à titre de complément d'info : obtenir un serveur assez costaud pour supporter le trafic du site.

+1, moyennant la même réponse qu'a "concernant google ... ..."

nenuit-ement,
Olivier

allany utilisateur non connecté
Hello !

Sur ce qui est des images, du SQL et autres "apaches", je n'interviens pas car j'entrave queue d'ale, désolé !

pianolivier : pour les robots, on est pas tout à fait en mode "tout ou rien". le mieux pour voir cela est de lire ce fameux fichier qui est publique : robots.txt

De mon côté, je vais faire un effort, promis !

j'essayerai de me renseigner sur les paramètres comme Crawl-Delay, mais je sens que si je me propose pour cette tache d'optimisation des réglages, on va encore me dire "encore lui !". Alors j'attends un peu mais je me propose quand même.''

Moi, je ne dirai rien, sinon "merci" ! Promis !

Olinuxx :
''C'est des calculs foireux. Je t'en refais une demo quand tu veux.
En plusse, moi, par principe, je cours pas (ou plus) après les nouveaux arrivants, je préfère prendre soin de ceux qui sont la, qui contribuent. Donc, google, ca me gonfle (et la, j'ai mis le filtre "olivier-politesse" en marche a son plus haut niveau) , autant que les facebook et consort, et ca n'a rien a faire sur ce site, ici c'est un bout de web libre et libérant (et toujours en essayant de faire avancer ceci le plusse possible). C'est clair, c'est precis, et c'est positionné. Et de ce genre de discussion dépend ma motivation a continuer ici.''

Ma question initiale reste en suspens : "beaucoup de touristes ou un petit nombre de gens motivés et prêts à enrichir le thésaurus ?"


pianolivier : au vu des logs existants, je ne m'inquieterai pas trop pour le moment des autres de moteurs de recherche que google : c'est surtout ce dernier qui a l'air de "pomper" le site.

+1
et re+1 !


pianolivier : Je me permettrai enfin de rappeler une troisième solution plus radicale et long terme à titre de complément d'info : obtenir un serveur assez costaud pour supporter le trafic du site.

+1, moyennant la même réponse qu'a "concernant google ... ..."
et re+1, dans les limites de mon savoir actuel...


A+,
Jacques.

pianolivier utilisateur non connecté France
coucou,

Citation :
oui y'a des trucs dans ce fichier (robots.txt), mais bon, ca a pas l'air de fonctionner terrible.

Qu'est-ce qui te fait penser que ça ne fonctionne pas ? Ça m'a juste l'air d'être à affiner, non ?

Citation :
C'est des calculs foireux. Je t'en refais une demo quand tu veux.

Rappel du résultat des calculs foireux basés sur les stats officielles : En dehors de l'accès direct par marque-page (des utilisateurs qui connaissent donc déjà le site), la majorité des utilisateurs vient en passant par google. On peut donc subororer que c'est la majorité des nouveaux utilisateurs qui découvre le site via google, rien de plus rien de moins.
Détails (copie de notre discussion en privé) :

[+]
Je veux bien une démo foireuse qui me montrerai mon erreur.

Sinon, d'après mes débuts de lectures, je pense qu'on peut faire beaucoup avec les outils d'admin web de google, comme carrément stopper momentanément le robot.
J'ai créé un nouveau sujet dans le forum des admins pour en parler en détails : tiki-view_forum_thread.php?forumId=24&comments_parentId=35296

adminement

oliv'

pianolivier utilisateur non connecté France
message transféré
posté originellement par allany aujourd'hui-même

Hello !

Bon, hier après-midi, hier soir, impossible d'accéder au site...
Même pas de message du navigateur (timeout). Bloqué en page d'accueil Google !

Du coup, je réfléchissais aux débats que nous avions eu à propos de GG et du potentiel de visiteurs que ça pouvait drainer. Il avait également été question du référencement sur les sites "amis" en rapport avec Linux ou la MAO.

Aussi, personnellement, ça m'intéresserait d'avoir une visibilité sur la façon dont ces visiteurs prennent connaissance de l'existence du site et des services offerts par Linuxmao.

Dans ce cas, sur une durée limitée (ou non) pourquoi ne pas adjoindre au "formulaire" de présentation un mini-questionnaire genre :
- Qu'est-ce qui vous a amené à connaitre Linuxmao ?
  • un moteur de recherche, lequel ?
  • un site consacré à Linux, lequel ?
  • un site dédié MAO, lequel ?
  • le bouche à oreille ?
  • une démo ou install' party ?
  • ...

Pour éviter de rendre le truc trop fastidieux, un petit topo "motivant" (...en vue de l'amélioration, blah, blah, ...) sur l'objectif de ces quelques questions sondagières serait offert en préambule.

Qu'en pensez-vous ?

Bonne journée, à+,
Jacques.

pianolivier utilisateur non connecté France
coucou Jacques,

Je suis plutot pour, mais en plus simple : ajoindre une question supplémentaire au formulaire de présentation proposé par le coin des débutants et envoyé par admins-accueil : Débuter - présentations.

oliv'

allany utilisateur non connecté
Hello, piano',

Je n'y avais pas pensé, ne connaissant pas cette procédure...
Ce qui me parait intéressant c'est de poser la question à un endroit où le passage est obligé, ce qui semble être le cas, dans ce que tu décris...
Le pré-formatage du "questionnaire" c'est juste parce que la rédaction "libre" ne semble pas être du goût de tout le monde.
Mais, comme vous l'aurez compris, le but n'est pas de faire une statistique imparable mais plutot d'obtenir un cliché de l'air du temps, rapidos.

A+

allany utilisateur non connecté
Bon, je continue mon reporting :
- comme souligné dans le Nimp' par Fender76, hier après-midi certains sujets (pas le sien) étaient inaccessibles dans les forums (Tiki unable...) alors qu'au même moment (testé) les autres répondaient normalement.
- ce matin, l'affichage est très lent avec la bannière orange qui s'affiche puis toute une séquence de pavés multicolores (bleus, jaunes,...) puis, enfin, petit à petit, l'ensemble des libellés.
- mon login mémorisé disparait d'une connexion à l'autre, contrairement au comportement habituel.
Soit les mêmes symptômes que l'an dernier.
Il n'y a pourtant que... 45 utilisateurs connectés (6h25)...

Strange days...
A+, Jacques.

pianolivier utilisateur non connecté France
message original d'allany (source) :
Citation :
Hello !

Juste pour signaler un bon p'tit plantage ce matin entre 7 et 8.
Site inaccessible, sans aucun message.

''A+, Jacques.'


Afficher les articles :
Aller au forum :

Documentation [Afficher / Cacher]

Connexion
[Afficher / Cacher]


technomagniaque

Mégaphone [Afficher / Cacher]

sub26nico, 22:18, sam. 14 Sep 2019: Salut et bienvenue à Gretsh56 :-)
olinuxx, 13:44, sam. 14 Sep 2019: Bonjour et bienvenue à T-Yo cool
PenZyh, 16:09, mar. 10 Sep 2019: Merci ^^
olinuxx, 16:08, mar. 10 Sep 2019: Bienvenue e bonjour également à PenZyh cool
olinuxx, 14:47, mar. 10 Sep 2019: Bonjour et bienvenue à SKUNKLOAD cool
sub26nico, 10:29, lun. 09 Sep 2019: Salut et bienvenue à aldepr :-)
olinuxx, 09:01, dim. 08 Sep 2019: Bonjour et bienvenue à nuka cool
sub26nico, 20:21, jeu. 05 Sep 2019: Salut et bienvenue à smo :-)
olinuxx, 10:31, jeu. 05 Sep 2019: Il est tout beau, il est tout chaud, c'est l'édito de linuxmao ! [Lien]
olinuxx, 20:15, dim. 01 Sep 2019: Bonjour et bienvenue à Gordus cool
olinuxx, 01:46, ven. 30 Aug 2019: Bonjour et bienvenue à leouiche et à Bellus cool
allany, 12:15, mer. 28 Aug 2019: Coucou, r1 ! Content de te croiser ici !