3 anciens de Google lancent un nouveau moteur de recherche : Cuil

Trois ingénieurs ont annoncé dimanche l'ouverture d'un nouveau moteur de recherche baptisé Cuil (prononcez « cool »), dont l'index s'élèverait à 120 milliards de pages Web, à comparer aux 40 milliards de liens revendiqués par Google. Les fondateurs de Cuil, qui estiment être en mesure d'indexer plus vite et pour moins cher les tréfonds du Web, affirment en outre être parvenus à établir des algorithmes de classement tenant compte du contexte de chaque page pour mieux décider quels sont les résultats qui doivent être mis en avant. A terme, le système se révèlerait selon ses créateurs bien plus pertinent que les mécanismes Pagerank et TrustRank implémentés par Google.

A l'origine de Cuil, on trouve Tom Costello, à l'origine du premier moteur de recherche sémantique développé chez IBM, accompagné de sa femme, Anna Patterson, qui fut un temps l'architecte de l'outil d'indexation TeraGoogle, déployé sur les centres de données de la firme de Mountain View depuis 2006. Lancée en 2005, la société dispose d'un capital de 33 millions de dollars, obtenus lors de deux levées de fonds. Seuls 5 millions de dollars auraient été nécessaires à la constitution de cet index de 120 milliards de pages, indiquent les fondateurs.

Outre cet index démesuré, Cuil essaiera de se démarquer par une certaine « éditorialisation » des résultats de recherche : ceux-ci sont regroupés en catégorie, et des suggestions de recherche plus précises sont proposées. Une démarche plus proche de ce qu'ont entrepris des moteurs comme Ask.com ou le français Exalead que du modèle Google. Actuellement limité à l'anglais, Cuil devrait s'ouvrir aux langues européennes dès la fin de l'année.


Cuil sera-t-il un véritable Google killer ?

http://www.cuil.com/
 

Hibou57

Comme-même (tm)
VIB
Si pour diverses raisons (désaprobation des monopôle, multiplicité des sources, etc), vous-vous interessez aux moteurs de recherches autres que Google (et Yahoo.... Ask est HS lui), il y a Exalead.fr qui existe déjà depuis quelques années, qui ne tari pas d'évolutions dans le bon sens, et qui me renvoie fréquement des résultats plus pertinants même que ceux de Google (l'inverse se produit parfois aussi d'ailleurs)

Le problème de Google, en plus d'être un monopole qui commence à inquieter (il était temps), c'est également qu'il s'est déllement empêtré dans ses filtres-spamdexing (je ne fais pas un cours, les personnes concernées comprendront), qu'il ecarte fréquement des résultats interessants, pour des raisons incompréhensible.

Question monopole maintenant, juste un exemple : Google, c'est « faites ce que je dis, mais pas ce que je fais ». Il profite de sa position dominante pour éliminer du web (inutile de dire que quand un site n'est pas renvoyé par Google, il est invisible aux yeux de 80% des internautes) les sites qui lui font trop concurrence en matière de publicité. Ainsi, des sites se sont vu radier des indexes de Google, pour avoir vendu des liens publicitaires sur leur page d'accueil.... Il y a de quoi rire, connaissant Google et ses activités.

Google n'aime pas la concurrence et profite de sa position dominante pour l'éliminer. Google n'évolue plus et s'emêlent complétement les pinceaux question pertinance des résultats....

Alors c'est effectivement une bonne chose de découvrir d'autres outils de recherche d'information.

De toute manière, en matière de recherche documentaire, il est préférable de multiplier les sources et les moyens de recherche.

Je ne résiste pas à l'envie de redonner le liens vers mon p'tit favoris : Exalead.fr

Il existe d'ailleur un autre moteurs, un projet Européen, et non pas seulement français (Exalead est français, même s'il est d'usage international) : Quaero, mais celui-ci n'est encore qu'à l'état de projet.

Annecdote sur Exalead : Google a tenté de débaucher deux chercheurs (qui sont d'ailleurs mari et femme) qui travaille pour Exlead.
 

Hibou57

Comme-même (tm)
VIB
Mmmmmm, ca peut être intéressant, a utilisé (tant qu'il n'y pas trop de lien commercial)

Les liens commerciaux sont inévitables mon chèr.... sauf si tu accepte de payer pour le service.

Soit tu as du gratuit, mais avec des liens commerciaux
Soit tu n'as pas de liens commerciaux, mais alors c'est payant

Tu en connais beaucoup toi des gens qui accepteraient de travailler gratuitement ? ;) Et un moteur de recherche, ça demande un énorme niveau de compétence, des années de recherche et de travail.... alors si tu crois qu'on va te le faire gratuitement et sans liens commerciaux, il faut revenir à la réalité ;) ... ce n'est pas possible

Cela vaut pour beaucoup d'autres choses, et pas seulement pour les moteurs de recherches
 
Si pour diverses raisons (désaprobation des monopôle, multiplicité des sources, etc), vous-vous interessez aux moteurs de recherches autres que Google (et Yahoo.... Ask est HS lui), il y a Exalead.fr qui existe déjà depuis quelques années, qui ne tari pas d'évolutions dans le bon sens, et qui me renvoie fréquement des résultats plus pertinants même que ceux de Google (l'inverse se produit parfois aussi d'ailleurs)

Le problème de Google, en plus d'être un monopole qui commence à inquieter (il était temps), c'est également qu'il s'est déllement empêtré dans ses filtres-spamdexing (je ne fais pas un cours, les personnes concernées comprendront), qu'il ecarte fréquement des résultats interessants, pour des raisons incompréhensible.

Question monopole maintenant, juste un exemple : Google, c'est « faites ce que je dis, mais pas ce que je fais ». Il profite de sa position dominante pour éliminer du web (inutile de dire que quand un site n'est pas renvoyé par Google, il est invisible aux yeux de 80% des internautes) les sites qui lui font trop concurrence en matière de publicité. Ainsi, des sites se sont vu radier des indexes de Google, pour avoir vendu des liens publicitaires sur leur page d'accueil.... Il y a de quoi rire, connaissant Google et ses activités.

Google n'aime pas la concurrence et profite de sa position dominante pour l'éliminer. Google n'évolue plus et s'emêlent complétement les pinceaux question pertinance des résultats....

Alors c'est effectivement une bonne chose de découvrir d'autres outils de recherche d'information.

De toute manière, en matière de recherche documentaire, il est préférable de multiplier les sources et les moyens de recherche.

Je ne résiste pas à l'envie de redonner le liens vers mon p'tit favoris : Exalead.fr

Il existe d'ailleur un autre moteurs, un projet Européen, et non pas seulement français (Exalead est français, même s'il est d'usage international) : Quaero, mais celui-ci n'est encore qu'à l'état de projet.

Annecdote sur Exalead : Google a tenté de débaucher deux chercheurs (qui sont d'ailleurs mari et femme) qui travaille pour Exlead.


J ai essayé : http://www.exalead.fr/search il est vraiment pas mal
Je crois que je vais modifier ma page d'accueil, plus de google sur firefox
 

MarxIslam

K.ZNIDAR
VIB
Si pour diverses raisons (désaprobation des monopôle, multiplicité des sources, etc), vous-vous interessez aux moteurs de recherches autres que Google (et Yahoo.... Ask est HS lui), il y a Exalead.fr qui existe déjà depuis quelques années, qui ne tari pas d'évolutions dans le bon sens, et qui me renvoie fréquement des résultats plus pertinants même que ceux de Google (l'inverse se produit parfois aussi d'ailleurs)

Le problème de Google, en plus d'être un monopole qui commence à inquieter (il était temps), c'est également qu'il s'est déllement empêtré dans ses filtres-spamdexing (je ne fais pas un cours, les personnes concernées comprendront), qu'il ecarte fréquement des résultats interessants, pour des raisons incompréhensible.

Question monopole maintenant, juste un exemple : Google, c'est « faites ce que je dis, mais pas ce que je fais ». Il profite de sa position dominante pour éliminer du web (inutile de dire que quand un site n'est pas renvoyé par Google, il est invisible aux yeux de 80% des internautes) les sites qui lui font trop concurrence en matière de publicité. Ainsi, des sites se sont vu radier des indexes de Google, pour avoir vendu des liens publicitaires sur leur page d'accueil.... Il y a de quoi rire, connaissant Google et ses activités.

Google n'aime pas la concurrence et profite de sa position dominante pour l'éliminer. Google n'évolue plus et s'emêlent complétement les pinceaux question pertinance des résultats....

Alors c'est effectivement une bonne chose de découvrir d'autres outils de recherche d'information.

De toute manière, en matière de recherche documentaire, il est préférable de multiplier les sources et les moyens de recherche.

Je ne résiste pas à l'envie de redonner le liens vers mon p'tit favoris : Exalead.fr

Il existe d'ailleur un autre moteurs, un projet Européen, et non pas seulement français (Exalead est français, même s'il est d'usage international) : Quaero, mais celui-ci n'est encore qu'à l'état de projet.

Annecdote sur Exalead : Google a tenté de débaucher deux chercheurs (qui sont d'ailleurs mari et femme) qui travaille pour Exlead.
Ze3ma ze3ma, tu ignores le "pourquoi" ?
 

Hibou57

Comme-même (tm)
VIB
J ai essayé : http://www.exalead.fr/search il est vraiment pas mal
Je crois que je vais modifier ma page d'accueil, plus de google sur firefox

Quand on parle du loup .... il y a justement une sacré affaire entre FireFox et Google.

Pour revenir aux moteurs de recherche, il en existe quelques autres également, mais avec un index trop petit, alors je ne les donne pas ici.

Sinon, même si ce n'est pas tout à fait l'objet de ce fil, qui parle d'un moteur généraliste, il ne faut pas oublier l'existance des moteurs spécialisé dans certains type de recherche.

Par exemple, j'utilise fréquement ces deux moteurs de recherche spécialisés dans la recherche d'icônes :


Impossible d'atteindre la même chose avec un moteur de recherche généraliste, même en employant le fonction de recherche d'image.

.. et ce n'est qu'un exemple de moteur spécialisé.

Bref, la recherche de document va redevenir ce qu'elle était : un art avec des moyens diversifiés.

Au passage, j'ai testé Cuil, et effectivement, il est pas mal.

Ce que j'ai apprécié dans Cuil : le synopsis des pages, qui est bien meilleur que celui des autres moteurs de recherche (et plus long aussi). Je recontre fréquement des problèmes avec des pages dont l'extrait n'a rien à voir avec les contenu (j'y retrouve pêle-mêle, des liens de copyright, des textes de pied de page, etc). J'ai testé des pages qui posent habituellement problèmes, et il est le seul moteur à extraire correctement le texte qui consititue le véritable corps de la page.
 

Hibou57

Comme-même (tm)
VIB
Ze3ma ze3ma, tu ignores le "pourquoi" ?

J'en ai une idée dans certains cas, mais j'ai vu des chose tellement bizzare avec Google, que j'en perd mon latin.

Maintenant concernant les filtre anti-spamdexing, s'il n'avait pas pris cette position de monopole, il n'aurait pas participé lui-même à favoriser le spamdexing justement (un aubaine pour les referenceurs douteux, que de n'avoir quasiement qu'un seul moteur à ciblé).

Sans compter la prouesse que Google a réussi à nous faire : la déstruction de la notion de lien hypertexte ! (je parle du rel=nofollow qu'on retrouve absoluement partout, et qui empoisonne le sang du web) Une folie, malheureusement maintenant irréparable tant les dégats son devenus profonds.

On pourra dire que pendant son monopole, il aura fait sacré cirque.
 
En 2005-2006 le plus puissante algorithms qui a jamais exicité dans l'histoire de la recherche (search engine ) étais developer par un post-doc qui terminé le travaile de son encadreure allemends, mais qui a mieux peux developpe l'ensembe de l'algorithmes, aurais peux étais le premier vrai concurance de google ..

mais malhreusement le developeur a préfairer de ne pas aller dans l'histoire de l'internet et a vendre son algorithmes à google avec un prix jusqu'a mnt que personn ne connais !

actuellement google utilise son algorithme et non pas l'algorithme intiale !

c'est bien dommage mais je comprends sa désicition la tentation de l'argent c'est pas facile ! en tous cas bravo ! pour le monsieur qui prové encore une fois que les grands choses ca ne se developpe pas dans les coloires mais des labratoires de recherches universtaires mais il faut deux choses :

- l'inspiration
- et la chance pour y arrivé !

Saife,
 

Hibou57

Comme-même (tm)
VIB
En 2005-2006 le plus puissante algorithms qui a jamais exicité dans l'histoire de la recherche (search engine ) étais developer par un post-doc qui terminé le travaile de son encadreure allemends, mais qui a mieux peux developpe l'ensembe de l'algorithmes, aurais peux étais le premier vrai concurance de google ..

Il ne semble pas y avoir d'algorithme en matière de moteurs de recherches, mais plutôt des heuristiques.

Ceci signifie entre autre, qu'il n'existe pas d'algorithme optimal (il n'existe que des optimums locaux).

Parler du « meilleur algorithme de recherche », est une expression qui n'inspire rien de réel.
 
Il ne semble pas y avoir d'algorithme en matière de moteurs de recherches, mais plutôt des heuristiques.

Ceci signifie entre autre, qu'il n'existe pas d'algorithme optimal (il n'existe que des optimums locaux).

Parler du « meilleur algorithme de recherche », est une expression qui n'inspire rien de réel.

je sais très bien ce que je dit ! lgorithms concues une search engine ! , par contre le type de recherche texte , semantic .. au autre c'est un autre sujet !

il se trouve que je me connais un peux dans ce sujet ;)

Saife,
 
... et un environnement favorable, autant pour la personne qui développe la chose, que pour l'accueil fait à ce qu'il/elle a conçu.

je l'est déja dit au debut de la phrase : labratoire de recherche universtaires !

Espoo en filande, KHG suéde ou MIT en USA ou KIT en allemagne, les labos de IBM ou de sun ...c'est des labos qui sont plus que favorable !

Saife,
 

farid_h

<defunct>
Contributeur
Trois ingénieurs ont annoncé dimanche l'ouverture d'un nouveau moteur de recherche baptisé Cuil (prononcez « cool »), dont l'index s'élèverait à 120 milliards de pages Web, à comparer aux 40 milliards de liens revendiqués par Google.

Ce qui est interessant avec cuil: si on cherche pour la premiere foi quelque chose, on recoit souvent une page avec 0 resultats. Si on repete la recherche quelques secondes ou minutes plus tard, le nombre de resultats augmente. C'est comme si cuil obtenait en arriere plan des infos de Google ou d'autres moteurs de recherches avec chaque demande pour seeder son index et l'augmenter. Si je ne me trompe pas, plus cuil sera populaire, plus son index augmentra.

Mais concernant le nombre de pages indexees, je reste sceptique. Prends par ex. un forum comme Bladi.net. Peut-etre que google n'indexe pas tout, alors que cuil indexe chaque page, chaque vue de message individuel etc... Est-ce que cuil aura plus de contenu reel, etant donne que la plupart des pages generees dymaniquement ne contiennent que quelques phrases, souvent redondantes? Meme s'ils arrivent a indexer 100x plus de pages que google (et techniquement rien n'est plus facile a faire), qu'en est-il de la qualite des resultats?

Google fait du tuning manuel de ses methodes depuis des annees et a utilise la popularite des sites comme indicateur majeur. Cuil n'a pas ce background et semble utiliser une autre methode. C'est toujours bien d'avoir plusieurs methodes de recherche, et dans ce sense cuil pourrait devenir tres util, mais je ne pense pas qu'ils pourront remplacer google (ou un systeme qui fonctionne comme google) si facilement.
 

farid_h

<defunct>
Contributeur
...Et ça change quoi de Google? Ils veulent se faire du fric hada makane.

Ca change de google, parce qu'ils essayent d'indexer le "deep web", c.a.d. des pages qui ne sont pas normalement accessibles a ou rejetees par google. Si tu ne trouves pas une information sur Google, ca ne veut pas dire qu'elle n'existe pas sur le Web. Ca veut uniquement dire que Google ne l'a ou bien pas visitee, ou que Google a decide (algorithmiquement) que la page sur laquelle cette info se trouve n'est pas importante.

Mais j'ai pas l'impression que cuil deviendra un moteur de recherche pour le deep web. Si on veut ca, il faut s'addresser a la NSA (mais il ne vont pas donner acces au publique general a leur moteur de recherche). ;)
 
Eh oui, il n'est pas encore conscient de soi-meme. Cogito, ergo cuil? : D

il n'est tjr pas conscient d'avoir arrivé avec ce bull-shit (sorry farid pour cette exprecetion:D) front-end beta-version a recevoir 30 million de dollars d'avance avancé par ces 4 investisseurs dit capitaliste venturiste : Madrone Capital Partners, Greylock Partners, Tugboat Ventures :D

bon on dit pas tjr on dois copier le markting de microsoft .. bientôt on va dire on doit copier le busniessplan de cuil !

je dit bravo à cuil team pour leurs busniessplan ! :D

Saife,
 
Rien ne remplacera un bon vieeux gogole.

c'est ce que on disait de al marhoma de altavista, et yahou et les autres metasearch webmart ..etc au debut fin des annés 90 :D

ceux qui vont arriver a avoir une serache engine renovatrice avec les meilleurs services et surtous profiter des erreurs de google avec un petit truc d'originalité .. serais bien de noveaux concurant ..

mais il faut comme j'ai dit l'innovation et un peux de temps !

Saife,
 

farid_h

<defunct>
Contributeur
il n'est tjr pas conscient d'avoir arrivé avec ce bull-shit (sorry farid pour cette exprecetion:D) front-end beta-version a recevoir 30 million de dollars d'avance avancé par ces 4 investisseurs dit capitaliste venturiste : Madrone Capital Partners, Greylock Partners, Tugboat Ventures :D

Ben il faut de l'argent pour financer leurs factures de bandwidth. S'ils telechargent une grande parti du Web 4x par an, c'est extremement cher! Ce qui m'etonne, c'est qu'ils sont arrive a denicher du venture capital pour ca!

je dit bravo à cuil team pour leurs busniessplan ! :D

Yep. Il semble tout aussi aggressif que leur spider. J'ai du le bloquer il y a deja quelques mois sur plusieurs sites que j'administre, parce qu'il ne respectait pas robots.txt et qu'il attaquait les serveurs a courts intervals d'une maniere extremement aggressive. Bon, je pense qu'il est temps de le reautoriser au niveau IP: peut-etre qu'ils l'ont ameliore? Hmmm...
 
1-Ben il faut de l'argent pour financer leurs factures de bandwidth. S'ils telechargent une grande parti du Web 4x par an, c'est extremement cher! Ce qui m'etonne, c'est qu'ils sont arrive a denicher du venture capital pour ca!



2-Yep. Il semble tout aussi aggressif que leur spider.

3-J'ai du le bloquer il y a deja quelques mois sur plusieurs sites que j'administre, parce qu'il ne respectait pas robots.txt et qu'il attaquait les serveurs a courts intervals d'une maniere extremement aggressive. Bon, je pense qu'il est temps de le reautoriser au niveau IP: peut-etre qu'ils l'ont ameliore? Hmmm...

1-oui tu a raison mais comme même pas 30 million c'est bcp plus pour une start-up surtous pour le début car facto qu'ils sont encore des problems de performance et d'optimisation dans leurs résultats (erreurs/réussit ).. même les simples information retrieval truc ne fonctione pas bien !

2-oui :D

3- oui esprons le incha Allah ..en tous cas l'erreur c'est surement c'étais le mauvais moment de lancer ca à la press en ce moment .. avant qu'ils sont le minum de performance c'est mauvais pour l'image de la marque !! un mauvais start ..

mais tiens nous au courants comme cela va se developper !

Saife,
 

BenBomba

Johnny le Reb
P.S.: J'adore cet intitule!

plaisir partagé mon cher farid

c'est ce que on disait de al marhoma de altavista, et yahou et les autres metasearch webmart ..etc au debut fin des annés 90 :D

ceux qui vont arriver a avoir une serache engine renovatrice avec les meilleurs services et surtous profiter des erreurs de google avec un petit truc d'originalité .. serais bien de noveaux concurant ..

mais il faut comme j'ai dit l'innovation et un peux de temps !

Saife,

j'ai toujours utilisé google jusqu'à maintenant , je me demande ce que ce nouveau venu va apporter de plus?

Mais bon comme tu dis, rien ne dure trop longtemps
 

farid_h

<defunct>
Contributeur
que veux-tu dire?

Aucun des moteurs de recherches publiques n'ont indexe le deep web, c.a.d. les fichiers qui sont en deca de la partie visible et autorisee (par robots.txt) du Web. Mais rien n'empeche un crawler de parcourir aussi les parties cachees, essayer d'obtenir des infos en utilisant les moteurs de recherches locaux des sites etc... Ces crawlers specialises lisent bien sur aussi les fichiers PDF, DOC et autres a la recherche d'infos et de liens textuels...

La NSA a un moteur de recherche specialise qui parcourt le deep web, et il est accessible a certaines institutions du gouvernement americain et de gouvernements amis. Compare a ce moteur de recherche de la NSA, Google (ou Cuil) sont a peine des jouets d'enfants. ;)
 

Hibou57

Comme-même (tm)
VIB
Aucun des moteurs de recherches publiques n'ont indexe le deep web, c.a.d. les fichiers qui sont en deca de la partie visible et autorisee (par robots.txt) du Web. [...]

Un robot qui lit ce qui est interdit par le robots.txt, ... il ne va se faire que des ami(e)s chez les webmasters/resses ;)

Pour répondre à la question que tu te pose, concernant la crédibilité de la source des 140 milliards de pages indéxées par Cuil, je peux te donner une réponse toute simple : il existe de nombreux sites que Google n'indexe qu'à hauteur de 20%, 10% et des brouettes...

Il n'y a pas besoin d'indéxer le contenu interdits pour atteindre 140 milliards de pages... une indexation plus complète de la plupart des sites devrait suffire à atteindre ce nombre de pages.
 
La NSA a un moteur de recherche specialise qui parcourt le deep web, et il est accessible a certaines institutions du gouvernement americain et de gouvernements amis. Compare a ce moteur de recherche de la NSA, Google (ou Cuil) sont a peine des jouets d'enfants. ;)

indeed !!mais si tu dit ca au informaticiens de maroc il vont te prendre comme un fous :D

ceci dit il faut aussi dire que la NSA est l'un des plus grand sponsors des algorithmes au monde .. je me rapple déja de ces millions dollars pour chaque packet d'algorithmes que NSA offraient pour chaque personn pour son algorithm !


Saife,
 

farid_h

<defunct>
Contributeur
Un robot qui lit ce qui est interdit par le robots.txt, ... il ne va se faire que des ami(e)s chez les webmasters/resses ;)

Oh, mais tu crois qu'il s'annonce ouvertement, a la: NSA-Spider/2.3? :D

Pour répondre à la question que tu te pose, concernant la crédibilité de la source des 140 milliards de pages indéxées par Cuil, je peux te donner une réponse toute simple : il existe de nombreux sites que Google n'indexe qu'à hauteur de 20%, 10% et des brouettes...

Il n'y a pas besoin d'indéxer le contenu interdits pour atteindre 140 milliards de pages... une indexation plus complète de la plupart des sites devrait suffire à atteindre ce nombre de pages.

Oui, t'as raison et je confirme: ca correspond a peu pret aussi a mes stats ici, du moins pour le contenu dynamique. Le contenu statique est traverse en entier.
 

farid_h

<defunct>
Contributeur
ceci dit il faut aussi dire que la NSA est l'un des plus grand sponsors des algorithmes au monde .. je me rapple déja de ces millions dollars pour chaque packet d'algorithmes que NSA offraient pour chaque personn pour son algorithm !

C'est pas etonnant. La NSA est le plus grand employeur de mathematiciens dans le monde. Tu savais qu'ils ont attire et employe plusieurs dixaines de genies mathematiques marocains rien que ces 3 dernieres annees? D'ailleurs, que ce soit dans le domaine des algorithmes de recherche, ou dans leur domaine primaire (cryptanalyse et cryptographie), ils parait qu'ils ont entre 10 a 15 ans d'avance sur la recherche civile des facultes les plus renommees du monde. C'est dire! :D
 
Haut