Gewünschte Urls ja ~ unerwünschte Urls nein

Hallo Orbiter,

unser Ziel ist es eine themenbasierte Suchmaschine aufzubauen.

Heute haben wir das erste mal die 1.000.000 Dokumente erreicht und wir haben uns zusammen gesetzt und das Ergebnis ausgewertet. Von den 1.000.000 Dokumente waren gerade mal 21% von uns gewünschten Urls und 79% von unerwünschten Urls.

Die 79% bestanden aus ca. 1.200 unterschiedlichsten Urls, sorry aber die und die vielen anderen Millionen von Webseiten können wir ja nicht alle in die Blacklist setzen. Das Gegenteil von einer Blacklist wäre eine Whitelist, wo wir die Urls eintragen könnten, die in unseren Index landen sollen.

Des weiteren teilen wir gerne die gesammelten Daten mit den anderen Suchmaschinen im Grid, aber gibt es eine Möglichkeit im Grid, das die anderen Suchmaschinen ihre gesammelten Daten mit uns nicht teilen? Wir haben Dokumente von Wikiseiten bekommen, in Sprachen wie “englisch, japanisch uva”, die für uns nicht relevant sind.

Wir teilen gerne, aber wir hätten gerne im Gegenzug nur Daten, die für uns auch sinnvoll sind, denn unendlich viel Speicherkapazitäten haben wir auch nicht zur Verfügung. Ich hoffe du kannst unser Problem verstehen und nachvollziehen.

LG Patrick

Hallo

Dank der Zollreport Suchmaschine hat sich diese Anfrage, erledigt.

LG Patrick