Gleichgesinnte gesucht

Hey Leute

Wenn ausser mir noch jemand zu dem Schluss gekommen ist, dass

  1. G nur noch Werbung und Junk liefert bzw. seinen Zenith überschritten hat und
  2. Yacy absolut das Potenzial hat, dagegen anzutreten, dann würde ich gerne mithelfen, sich zu organisieren um Yacy zu boosten.

Jede Idee ist willkommen.

4 Likes

I can read your post because when I click the world icon it is translated by Google. I really don’t think YaCy is interested in competing with Google. At least I sincerely hope not.

Having said that, I do however agree in substance and I think YaCy will surpass other search engines in popularity without trying.

2 Likes

Hallo @zooom ,

Punkt 1. kann ich eigentlich nicht bestätigen, denn Werbung finde ich zwar, aber Junk ist mir bei Google noch nicht begegnet!

Zu Punkt 2:

YaCy existiert nun seit ~15 Jahren, aber wenn so wenige Leute mitmachen, dann wird das einfach nichts! Es gibt einfach viel zu wenige Peers, welche zudem auch viel zu wenig Websites indexieren. YaCy könnte wirklich ein harter Konkurrent für andere Suchmaschinen sein, aber wohl erst so ab 20.000 Peers und mit einem entsprechend großen Index!

Problem:

Je nach Art des Peers wird der eigene Rechner unbarmherzig ausgebremst, das ist für einen normalen Nutzer nicht akzeptabel! Ich kann das machen, da neben mir ein alter Büro-PC nur als YaCy-Server (Principal Peer) dient. Spätestens beim Crawlen einer Website könnte man aber mit einem normalen Arbeitsrechner nichts mehr anfangen.

Deine Idee an sich finde ich gut, aber wenn ich mir meine entsprechenden Blogartikel zu YaCy ansehe wird mir klar, daß die meisten Leute nicht wirklich weg wollen von Google und Co. Vor allem die schlechten Ergebnisse und natürlich die langsame Suche sind für viele ein KO-Kriterium. Mit mehr Peers würde das zwar besser werden, aber das begreifen die einfach nicht.

Ein weiterer Aspekt ist zudem die deutsche Gesetzgebung, welche ziemlich verunsichernd auf eventuelle Teilnehmer wirkt. Dabei läuft YaCy ja gar nicht auf einem öffentlichen Server und daher gelten hier andere Regeln wie z. B. für Google! Als Beispiel seien hier nur das neue Gesetz zum Urheberrechtsschutz, die DSGVO und das NetzDG genannt. Alle drei sind für YaCy nicht relevant, da es ja auf dem eigenen PC läuft!

Du kannst es ja versuchen, YaCy kann wirklich jede Unterstützung gebrauchen! Allerdings wüßte ich nicht, was Du an der derzeitigen Situation großartig ändern könntest.

Übrigens siehst Du das “große” Interesse an solche Aktionen auch an der gehäuften Anzahl der Antworten zu deinem Anliegen… oder so!

Edit: Derzeit sind gerade mal ~900 Peers online mit etwas über 2 Milliarden Dokumenten im Index, damit kann YaCy nicht einmal einen leeren Blumentopf gewinnen. :scream: :sob:

Grüße nun aus Augsburg

Mike, TmoWizard

1 Like

I think YaCy was intended mostly as a proof of concept. It proves a peer-to-peer distributed search engine is possible. That is a milestone.

The lack of interest or lack of adoption by the masses is understandable while many easier to use alternatives are available. YaCy is currently too complicated for the average internet user. Someone would need to be a pretty in-deep computer nerd to get under the hood and utilize it to it’s full potential.

Personally I’m not a big fan of Java. I like Perl.

Too bad, in a way, Google has worked so well for most people, but all these years after YaCy was first introduced the problems predicted stemming from centralized search engines are beginning to become evident to everybody, so I think now, interest in YaCy and decentralized search engines in general will grow rapidly.

Speed is something of an issue I suppose, but I also remember in the early days of the internet I could just about go have lunch or a coffee while waiting for a single page to download, but even that was lightning fast compared with the alternative of Going down to the public library and requesting a book or article through inter-library loan or something and wait a week or two for some bit of information to arrive by land delivery.

YaCy is nearly a one of a kind development. I wouldn’t be too critical.

Hallo Michael

Nun, Yacy ist keine Software, die man nebenbei auf seinem 10-jährigen Schlepptopp laufen hat.

Bei näherer Betrachtung der aktuellen westlichen Suchmaschinenszene kann man gewisse Entwicklungen feststellen und Erkenntnisse ableiten:

Wenn man weiss, was man sucht (d.h. man hat es schon mal gefunden), dann ist G gut, weil schnell und umfangreich.

Wenn man neugierig ist und auf der Suche nach neuen Dingen, dann ist G nur bedingt geeignet, weil komplett Advertising driven.

Der anfänglich gepriesene Brin’sche Algorithmus kann aufgrund der vielen unzusammenhängenden Inseln im Web gar nicht wirklich funktionieren.

Um echt Neues zu finden ist eigentlich jede Art von Suchmaschine nur 2. Wahl. Woher weiss denn eine Suchmaschine, wo die neuen Dinge sind? Eben.

Dies ist der Grund, weshalb G und andere selbsternante Sicherheitswächter gratis Nameserver bereitstellen: Von neuen Domains erfahren die DNS immer zuerst.

Aus dem gleichen Grund sind Virenscanner gratis, denn nur der weiss wirklich, welche Seiten Papa besucht.

Personalisierte Ads empfide ich hingegen sogar ganz angenehm, allerdings nur, wenn sie mir coole NEUE Sache zeigen - und nicht 5 Wochen lang Reifen verkaufen wollen, nur weil ich bei G mal nach nem Online Händler gesucht habe.

Am Besten fahre ich im Moment mit einem Setup aus einer Metasuchmaschine, in der meine Yacy Instanzen zuliefern. Im Bereich, wo ich meine YaCys mit Content gefüttert habe (EU Homepages, v.a. B2B und Schweizer Regional Zeitungen und Links), sind sie bei den Ergebnissen immer vorne mit dabei (2 Sekunden Timeout über alle Maschinen). Richtig gut performt das Ganze, seit ich G tatsächlich rausgeworfen habe. Bing, DuckDuck…und neuerdings mojeek liefern Ergebnisse mit einer Performance, da tropfen Dir die Augen.

Ach ja, von G kann man viel lernen. Die pfeifen auf das EU DSGwhatever VO Zeugs, im Gegenteil:
Seit es das gibt, klickt jeder alle Enverständnisserklärungen nur noch weg - und die grossen können endlich durchdrücken was sich schon immer wollten.

Den privaten spannenden Content habe sie sehr wohl - wie sonst sollte denn auch der Index funktionieren. Jeder Depp lässt ja seine Hosen Runter wenn der G Bot hinten rein will.

Im Suchergebnis erscheint ja nur - ganz legal - der Link zum Content.

Mit diesem Wissen lässt sich G und Konsorten übrigens perfekt als “DB-Cloud” benutzen, du musst das nur noch automatisieren. Die Suche funktioniert so: “Namen plus eins.”

Name kann dabei auch Produkt, Firma oder Ort sein. das “Plus eins” ist das Stichwort, bzw Thema.
Kombiniert und permutiert gibt das ein paar Mio. Abfragen für G und eine schöne Liste an Starturls für YaCy.

Auf die Art - genug YaCy Ressourcen vorausgesetzt - lässt sich mit überschaubarem Aufwand sehr schnell eine eigene Suchmaschine aufbauen. Jetzt müssen nur noch mehrere Gleichgesinnte mitmachen. 2-3 YaCy Büchsen nebeneinander haben sich bei mir als Best Practice herausgestellt.

Ich beschäftige damit meine ausrangierten Serverlein mit 200GB - 1TB Plattenspeicher.
Auf Windoofs läuft YaCy bei mir lustigerweise stabiler als auf FreeBSD oder Debian, aber ohne Reboot alle paar Tage geht es nirgends.

Schönen Gruss nach Augsburg, dort bin ich aufgewachsen und: Gute Besserung!

Markus

1 Like

Hi Tom

If you want easy access to YaCy- and some other’s, try: zooom.io

This is my backbone. IMO text driven search is “old school” already, so I am working on a new front-end concept, which will go live soon and will be as easy as watching TV.

Best regards

Markus

P.S.: The hard work in everything of my stuff is done by perl :wink: The most money I earned in the past, was paid for the issues my clients had, caused by software written in JAVA, so I do like JAVA!

Best regards
Markus

1 Like

zooom.oi appears to be one of many instances of searx meta-search engine, but I don’t see that it returns anything from YaCy. Several search engines seem to be blocking results here. I’m only getting results from zooom and zooom3.

Anyway, I like being able to configure YaCy in the admin, do custom crawls etc. none of which is accessable using any searx instance, as far as I can see. That does not seem to be easy access. more like no access.

Also, I like running YaCy on a flash drive. I installed YaCy on a “Live” MX-Linux system running on a USB flash drive with “persistence” earlier, so right now I’m burning the setup to an iso to clone onto another flash drive. I really like the idea of a customized personal search engine I can carry in my pocket and use anywhere as well as clone and share.

1 Like

You are right. I had to customize the engine’s default settings. Now G is out and mojeek, quant, startpage, faroo and yandex is in. zooom* of course too :wink:

The former setup I was going for was the susper.com app but unfortunately this is “YaCy only” and even worse, the handling of a setup w/ distributed solr’s does not work properly. searx (if customized properly) at least leads to results all the time.

Ich versuche YaCy derzeit aktiv zu unterstützen. Derzeit habe ich den ersten Host laufen auf nem Server mit 24 Cores (2,1GHz/Core), der davon so 40-70% ausgelastet wird. Mit knapp 2.400 PPM macht laut der Statistik von “freeworld” er die Hälfte der Indexierungen/Minute aus - liegt das daran, dass der Index neu kreiert wird oder dass es so wenige Peers gibt, die Aktiv crawlen?

Mein Ziel wäre es >4 Peers in nächster Zeit zu bringen. Allerdings habe ich bisher noch kaum Erfahrung mit YaCy - @zooom könntest du hier vielleicht helfen bzgl. sinnvoller Einrichtung/Verteilung? ggf. auch andere. Würde mich freuen YaC aktiv unterstützen zu können.

Hi Tom. Ich habe auch ein paar YaCy Instanzen am Laufen. Was der YaCy Cloud guttun würde, ist eine koordinierte Organisation der Starturls und der Blacklists. Ich crawle im Moment 1. News und Polizeimeldungen und 2. Homepages mit Focus auf B2B aus CH und DE.

Einige Peers legen mehr Wert auf Porn, Tech oder Alternative News.

Ein zentrales Domainverzeichnis wäre nicht schlecht, wo alle Peers ihre Domains dumpen könnten.
Gleiches gilt für Blackliststs oder Listen von Suchmaschinen Spammer.

Wie man frischen Content findet, ist ein Thema für sich :wink:

Ich habe hierzu ein kleines botnet (ca. 200), mit dem ich unter dem Radar G***** etc. mit tausenden Suchbegriffen abfische um meine Starturls zu erzeugen.

LG

Markus

1 Like

Hi, wie groß ist dort dein Index so? Ich konnte seit Dienstag 1,6 Millionen Seiten indexieren. Ich habe vor allem Seiten zum Starten gewählt, wo man kaum was fand. Also von regionalen Seiten wie Gemeinden, verschiedene Open Source Projekte, Sportverbände…
Die erste Instanz und demnächst noch eine Zweite versuche ich halbwegs gemischt und mit so allem mit für jedem was zu füttern - bei meinen Tests musste ich feststellen, dass man bei vielen alltäglichen Dingen mit YaCy von anderen Peers rein gar nichts bekommt. Und wenn doch mal was kam, dann so mau und karg, dass das auch in keinster Weise nützlich war.

Was die Koordination betrifft hast du vollkommen recht. Damit könnte man Qualität und die Effizienz steigern. Wichtig ist allerdings, dass es leichte Überlappungen gibt und auch ein Themengebiet von mindestens 2-3 Instanzen versorgt wird, denn nicht immer wird eine Instanz gefunden bzw. ist auch mal nicht erreichbar. Was ich sehr auffällig finde ist, dass das YaCy Netz “freeworld” einen schwankenden Index von 1,2-1,9 Milliarden Einträgen hat - dass je nach Tageszeit und Wochentag einfach mal 700 Millionen Einträge weg sind und sich das durchaus in den Ergebnissen bemerkbar macht.

Man kann ja den Solr Index einer Instanz in seine anderen Instanzen einbinden, richtig? Hast du das bei dir eingestellt?Wie ist die Erfahrung damit?

Kann man auch selbst Index reinpushen? Also Wenn man Daten aus anderen Quellen hat um so den Crawler zu entlasten und für manche Bereiche hochwertige Einträge zu generieren (z.B. aus Auswertungen von Suchen über APIs)

Dazu werde ich noch einige Themen-Instanzen dazuwerfen - hast du eigentlich Tipps für die Einstellungen zum Crawlen?

Kannst ja selbst mal reinschauen. Im Moment unter 1www.org:8090 erreichbar.
Hier findest Du die anderen Peers (Link zu Details):
http://z3o.org/yacymin/?action=peerlist.

Was die Trefferqualität angeht hast Du recht, aber das coole an YaCy ist, dass mit Prio 1 in Deinem Eigenen lokalen Index gesucht wird. Der liefert die Treffer am Schnellsten (hoffentlich :slight_smile: )
Zu Beginn hatte ich eine zu langsame Maschine, so dass mein Content fast nicht gefunden wurde.

Mehrer lokale Instanzen bringen nix, ausser Instabilität und Aufwand. Nach einiger Zeit wird Dein Index mit Spam zugemüllt. Dann exportiere ich Die urls, baue eine neue Liste an Startulrs und fahre langsam eine 2. Instanz hoch, die dann die 1. Instanz ablöst.

Für Spezialsuchen, z.B. Zeitungsarchiv habe ich separate Instanzen (ohne P2P)

LG

Markus

Hab eben die Peerliste selbst angeschaut und ergänzt um den HostBrowser Link. Wenn man ein bischen schauen geht, gewinnt man tatsächlich den Eindruck, dass es einen starken Bias zu den im freeworld vorhandenen Top-Hosts gibt.Das liegt vermutlich an einem Selbstverstärkungs Effekt, da offensichtlich kaum einer sich redaktionell um frischen Content bemüht.

Das Wichtigste beim Crawlen ist die Auswahl der Starturls. Das Internet ist eben kein Netz, sondern ein wildes Nebeneinander von unzusammenhängenden Webseiten-pseudo Netzen. Daher macht der anfänglich ach-so-tolle Gugel Algorithmus schon lange keinen Sinn mehr und G träckt nur noch, was die Anwender so klicken bzw saugt die DNS nach Frischfleisch ab.
Das ist auch der Grund, wieso G und auch die Antiviren Fuzzies so scharf drauf sind, dass jeder deren DNS benutzt. Security ist nur ein Vorwand - und geradezu der blanke Hohn.

Hallo Markus,

ist bei mir aktuell down, gibt es ev. eine laufende Instanz?

Liebe Grüsse
Urs

The beauty of online slots is that you can easily choose the game you prefer. Or you can decide to play both, so you don’t have to choose at all! Even better is the fact that places like https://www.allcasinosite.com/delicious-slots/ let you use bonuses to get the spin reel for you. Some may call this cheating, but they are cry babies. I think the best bonuses are the ones that you get after you deposit.

Hey spamchick.
You took the wrong exit.