Mecanismos de pesquisa com seus próprios índices

Os três motores de busca dominantes em inglês com seus próprios índices, são Google, Bing e Yandex ( GBY ). Existem muitas alternativas ao GBY, mas quase nenhuma delas tem resultados próprios; em vez disso, eles apenas obtêm seus resultados do GBY.

Pensando nisso, decidi testar e catalogar todos os diferentes mecanismos de busca de indexação que pude encontrar. Priorizei a amplitude em vez da profundidade e encorajei os leitores a experimentarem os motores por conta própria se quiserem mais informações.

Esta página é um “documento vivo” que pretendo atualizar indefinidamente. Verifique se há atualizações de vez em quando se achar esta página interessante. Fique à vontade para me enviar sugestões, atualizações e correções; Eu apreciaria especialmente a ajuda daqueles que falam outros idiomas além do inglês e podem avaliar um mecanismo de pesquisa de indexação que não seja o inglês. As informações de contato estão no rodapé do artigo.

Pretendo atualizar os mecanismos nas duas categorias principais com mais informações comparando os dados estruturados/vinculados que os mecanismos utilizam (vocabulários RDFa, microdados, microformatos, JSON-LD, etc.) para ajudar os autores a determinar quais formatos usar.

Motores de busca de indexação geral

Grandes índices, bons resultados

São motores grandes que passam em todos os meus testes padrão e muito mais.

Google

O maior índice. Permite o envio de páginas e mapas de sites para rastreamento e ainda suporta WebSub para automatizar o processo. Alimenta alguns outros motores:

- Startpage , possivelmente o proxy mais popular do Google.
- GMX Search , administrado por um popular provedor de e-mail alemão.
- SAPO (interface em português, pode trabalhar com resultados em inglês)
- DPesquisa
- 13TABS

Google

Uma série de outros mecanismos que usam scripts do lado do cliente do Programmable Search Engine .

O vice-campeão. Permite o envio de páginas e mapas de sites para rastreamento sem login usando a API IndexNow , compartilhando envios de páginas IndexNow com Yandex e Seznam. Seu índice alimenta muitos outros mecanismos:

- Yahoo (e seu mecanismo irmão, OneSearch)
- DuckDuckGo 3
- AOL
- Qwant (parcial)
- Ecosia
- Ekoru

Yandex

Originalmente um mecanismo de busca russo, agora possui uma versão em inglês. Alguns resultados em russo aparecem em seu site em inglês. Ele permite o envio de páginas e mapas de sites para rastreamento usando a API IndexNow, compartilhando envios de páginas IndexNow com Bing e Seznam. Poderes:

- Epic Search (pago apenas em junho de 2021)
- Ocasionalmente, alimenta os resultados do link do DuckDuckGo em vez do Bing(atualização: DuckDuckGo “pausou” sua parceria com Yandex, confirmado em audiência sobre “Responsabilidade da Big Tech: Legislação para Proteger Usuários Online”
- Petal, apenas para usuários russos.

Mojeek

Parece orientado para a privacidade, com um grande índice contendo bilhões de páginas. A qualidade não está no nível do GBY, mas também não é ruim. Se eu tivesse que usar o Mojeek como meu mecanismo de pesquisa geral padrão, eu sobreviveria. Alimenta parcialmente eTools.ch . Neste momento, acho que o Mojeek é a melhor alternativa ao GBY para pesquisa geral.

Google, Bing e Yandex oferecem suporte a dados estruturados, como microformatos1, microdados, RDFa, marcação Open Graph e JSON-LD. O suporte do Yandex para microformatos1 é limitado; por exemplo, ele pode analisar h-cardmetadados de organizações, mas não de pessoas. Open Graph e Schema.org são os únicos vocabulários suportados que conheço. Mojeek está avaliando dados estruturados; está interessado nos vocabulários Open Graph e Schema.org.

Índices menores ou resultados menos relevantes

Esses motores passam na maioria dos testes listados na seção “metodologia”. Todos eles parecem relativamente amigos da privacidade. Eu não recomendaria usar esses mecanismos para encontrar respostas específicas; eles são melhores para aprender sobre um tópico, encontrando páginas interessantes relacionadas a um conjunto de palavras-chave.

trystract: Meu mecanismo generalista favorito nesta página. Stract oferece suporte à personalização de classificação avançada, permitindo que os usuários importem arquivos “ópticos”, como uma versão melhor do recurso “óculos” do Brave. Stract é totalmente de código aberto , com código lançado sob uma licença AGPL-3.0. O índice não é enorme, mas é grande o suficiente para ser um complemento útil para motores mais importantes. Stract começou com o índice Common Crawl, mas agora usa seu próprio rastreador. Planeja adicionar anúncios contextuais e uma opção de assinatura para pesquisa sem anúncios. Descoberto em meus logs de acesso.
rightdao: Muito rápido, bons resultados. Passa bastante bem nos testes. Ela planeja incluir anúncios baseados em consultas se/quando sua base de usuários crescer.
Alexandria: Um mecanismo bastante novo, “sem fins lucrativos e sem anúncios”, com código licenciado gratuitamente . Surpreendentemente bom em encontrar páginas recentes. Seu índice é construído a partir do Common Crawl; não é tão grande quanto Gigablast ou Right Dao, mas sua classificação é ótima.
yep: Um mecanismo ambicioso do Ahrefs, uma empresa de SEO/localizadora de backlinks, que “compartilha o lucro dos anúncios com os criadores e protege sua privacidade”. A maioria dos mecanismos mostra resultados que incluem palavras-chave ou relacionadas à consulta; Sim, também mostra resultados vinculados por páginas que contêm a consulta. Em outras palavras, nem todos os resultados contêm palavras-chave relevantes. Isso o torna excelente para pesquisas menos precisas e descoberta de “sites relacionados”, especialmente com seu índice de centenas de bilhões de páginas. Por enquanto, é muito pior encontrar informações muito específicas ou eventos recentes, mas provavelmente irá melhorar. Era conhecido como “FairSearch” antes de seu lançamento oficial.
Motor SeSe: Embora seja um mecanismo chinês, seu índice parece ter uma proporção grande o suficiente de conteúdo em inglês para caber aqui. O mecanismo é de código aberto; veja o código Python back-end do SeSe e o front-end baseado em Vue do SeSe-ui . Tem resultados surpreendentemente bons para um projeto de orçamento tão baixo. Cada resultado é anotado com metadados de classificação detalhados, como relevância da palavra-chave e peso do backlink. Descoberto em meus logs de acesso.

Sim, suporta Open Graph e alguns JSON-LD no momento. Uma olhada no código-fonte de Alexandria e Gigablast não pareceu revelar o uso de nenhum dado estruturado. A surpreendente qualidade dos resultados do SeSe e do Right Dao parece influenciada pelo local de partida de alta qualidade dos rastreadores: Wikipedia.

Índices menores, acertos e erros

Esses motores falham gravemente em alguns testes importantes. Caso contrário, eles parecem funcionar bem o suficiente para usuários que desejam um pouco mais de sorte em pesquisas menos específicas.

Infotiger: Meu motor favorito nesta seção. Ele oferece filtragem avançada de resultados e apresenta um índice um tanto grande. Ele permite o envio de páginas em inglês e alemão. O mecanismo de melhoria mais rápida nesta seção: eu o uso frequentemente para descobrir novos sites e estou ansioso pelo dia em que ele “passará” para a seção anterior. O Infotier possui um serviço oculto Tor .
seekport: A interface está em alemão, mas suporta pesquisas em inglês perfeitamente. O idioma padrão é selecionado pela sua localidade. É muito bom considerando seu índice pequeno; não ouviu falar de termos menos comuns. mas é capaz de encontrar resultados relevantes em outros testes. São os segundos motores de melhoria mais rápida nesta seção.
Exalad: Lento, a qualidade é imprevisível. Seu indexador afirma rastrear o diretório DMOZ, que foi encerrado e substituído pelo diretório Curlie . Nenhum resultado relevante para “Oppenheimer” e algumas outras consultas relacionadas ao histórico. Permite o envio de URLs individuais para indexação, mas requer a resolução de um Google reCAPTCHA e a inserção de um endereço de e-mail.
exactseek: Índice pequeno, dominado desproporcionalmente por grandes sites. Falha em vários testes. Permite o envio de URLs individuais para rastreamento, mas exige a inserção de um endereço de e-mail e o recebimento de um boletim informativo. As ferramentas para webmasters parecem pressionar fortemente por opções de SEO pagas . Ele também alimenta o SitesOnDisplay e o Blogsearch.com .
Burf.co: Índice muito pequeno, mas parece bom para classificar resultados mais relevantes em uma posição superior. Permite o envio do site sem nenhuma etapa extra.
Entfer: um recém-chegado que permite que usuários registrados votem positivamente / negativamente nos resultados da pesquisa para personalizar a classificação. Não oferece muitas informações sobre quem o fez. Seu índice é pequeno, mas parece retornar resultados relacionados à consulta.
Siik: Faltam informações de contato e os links dos ToS e da Política de Privacidade estão inativos. Parece haver erros de PHP no back-end de alguns de seus widgets de resposta instantânea. Se você passar por tudo isso, verá que há resultados da web alimentados pelo que parece ser seu próprio índice. Esses resultados tendem a ser um tanto relevantes, mas o índice parece pequeno demais para consultas mais específicas.
ChatNoir: Um mecanismo experimental de pesquisadores que usa o índice Common Crawl . O mecanismo é de código aberto . Veja o anúncio na lista de discussão do Common Crawl (Grupos do Google).
Laboratórios secretos de mecanismos de pesquisa: Índice muito pequeno com muito pouco spam de SEO; ele segue a linha entre um “mecanismo de pesquisa” e um “mecanismo de navegação”. É melhor ler sobre tópicos amplos que, de outra forma, seriam dominados por spam de SEO, graças ao algoritmo CashRank . Permite envio de sites.

Motores incipientes

Os resultados destes motores de busca não parecem particularmente relevantes; os índices nesta categoria tendem a ser pequenos.

yessle: Parece novo; permite o envio de páginas colando uma página na caixa de pesquisa. O índice é muito pequeno, mas rastreia novos sites rapidamente. Afirma ser privado.
aibull: Extremamente rápido para atualizar seu índice; os envios do site aparecem em segundos. Infelizmente, o seu índice contém apenas alguns milhares de documentos (menos de 100 mil no momento da redação deste artigo). Está crescendo rapidamente: se você pesquisar um termo, ele começará a rastrear páginas relacionadas e aumentará seu índice.
YaCy: Índice feito pela comunidade; lento. Os resultados são terríveis/irrelevantes, mas podem ser úteis para intranet ou pesquisa personalizada.
Scopia: só parece estar disponível através do mecanismo de metabusca MetaGer após desligar o Bing e os resultados de notícias. Índice minúsculo, qualidade muito baixa.
artadosearch: Principalmente turco, mas também parece apoiar resultados em inglês. Assim como o Plumb, ele usa JS do lado do cliente para buscar resultados de mecanismos existentes (Google, Bing, Yahoo, Petal e outros); assim como o MetaGer, tem a opção de usar seu próprio índice independente. Os resultados do seu índice estão quase sempre vazios. Consultas muito simples (“twitter”, “wikipedia”, “reddit”) dão algumas respostas. Suporta envio de sites e respostas instantâneas de crowdsourcing.
Resultados de pesquisa ativa: Muito pouca qualidade. Os resultados parecem altamente tendenciosos em relação a sites comerciais.
Crawlson: Jovem, lento. Nesta categoria porque seu índice tem um limite de 10 URLs por domínio. Inicialmente descobri Crawlson nos logs de acesso do seirdy.one. Isso geralmente está em baixa; se o tempo de inatividade atual persistir, irei adicioná-lo ao cemitério.
Anoox: Os resultados são poucos e irrelevantes; não consegue encontrar nenhum resultado para termos básicos. Permite envio de sites. É também uma rede social leve e afirma ser alimentada por seus usuários, permitindo que os membros votem nas listagens para alterar as classificações.
Eiop!: Um mecanismo de pesquisa FLOSS que possui um conjunto de recursos impressionante : pode analisar mapas de sites, feeds e uma variedade de formatos de marcação; pode importar dados pré-selecionados em formulários como logs de acesso, postagens da Usenet e arquivos WARC; ele também suporta pesquisa de notícias baseada em feed. Apesar do impressionante conjunto de recursos, os resultados do Yioop são poucos e irrelevantes devido ao seu pequeno índice. Permite enviar sites para rastreamento. Assim como o Meorca, o Yioop possui recursos sociais como blogs, wikis e uma API de bot de bate-papo.
spyda: Um pequeno motor feito por James Mills , descrito em Então, sou um Knucklehead, hein? . Está escrito em Go; confira o código-fonte do Spyda licenciado pelo MIT .
Slzii. com: Um novo portal web com um motor de busca. Possui um pequeno índice dominado por spam de SEO. Descoberto nos logs de acesso do seirdy.one.

Índices semi-independentes

Os motores nesta categoria voltam para GBY quando seus próprios índices não apresentam resultados suficientes. À medida que seus próprios índices crescem, alguns afirmam que isso deveria acontecer com menos frequência.

brave: Muitos testes (incluindo todos os testes listados na seção “Metodologia”) resultaram em resultados idênticos aos do Google, revelados por uma comparação lado a lado com o Google, Startpage e uma instância Searx apenas com o Google habilitado. Brave afirma que isso se deve ao modo como o Cliqz (o mecanismo descontinuado adquirido pela Brave) usou logs de consulta para construir seus modelos de página e foi otimizado para corresponder ao Google. O índice é independente, mas a otimização em relação ao Google resultou em muita similaridade para que o benefício real de um índice independente pudesse ser demonstrado. Além disso, muitas consultas têm resultados do Bing misturados; os usuários podem clicar no botão “informações” para ver a porcentagem de resultados provenientes de seu próprio índice. A porcentagem de independência normalmente é bastante alta (geralmente próxima de 100% de independência), mas pode cair em consultas avançadas. Atualização 15/08/2023: O contrato do Brave com o Bing parece ter expirado em abril de 2023.
Não posso, em sã consciência, recomendar o uso do Brave Search, já que a empresa administra criptomoeda, reteve pagamentos aos criadores sem revelar que os criadores não poderiam receber recompensas , fez alegações perigosamente enganosas sobre resistência à impressão digital, é dirigida por um CEO que gastou milhares de dólares se opondo ao casamento gay e reescreveu URLs digitadas com links afiliados .
Prumo: Quase todas as consultas não retornam resultados; quando isso acontece, tudo volta para o Google. O processo de fallback é bastante transparente, mas estou preocupado com a forma como ele faz isso: ele carrega os scripts de pesquisa personalizada do Google cse.google.comna página para fazer uma pesquisa no Google do lado do cliente. Isso pode ser atenuado usando um complemento do navegador para impedir cse.google.como carregamento de qualquer script. Plumb afirma que esta é uma medida temporária enquanto seu índice cresce, e eles estão planejando se livrar disso. Permite o envio de URLs, mas requer a resolução de um hCaptcha. Este motor é muito novo; esperançosamente, à medida que melhora, ele poderá sair desta seção. Seu Diretor de Produto fundou anteriormente o mecanismo de busca Gibiru que compartilha os mesmos afiliados e (por enquanto) o mesmo índice; os índices divergirão com o tempo.
qwant: Qwant afirma usar seu próprio índice, mas ainda depende do Bing para obter a maioria dos resultados. Parece estar em uma posição semelhante à de Neeva. Experimente uma comparação lado a lado para ver se ou como ele se compara ao Bing.
Pesquisa Kagi: A entrada mais interessante nesta categoria, IMO. Assim como o Neeva, requer uma conta e limita o uso sem pagamento. É alimentado por seu próprio índice Teclis (o Teclis pode ser usado de forma independente; veja a seção não comercial abaixo) e afirma também usar resultados do Google e do Bing. O resultado parece um tanto único: consigo reconhecer alguns resultados do índice Teclis misturados com os principais. Além do Teclis, os outros produtos da Kagi incluem o serviço de resposta inteligente Kagi.ai e o serviço de bookmarking social TinyGem , ambos desempenhando um papel no Kagi.com no presente ou no futuro.

Pesquisa não generalista

Web pequena ou não comercial

Pesquisa Marginália: Minha entrada favorita nesta página . Ele tem seu próprio rastreador, mas é fortemente voltado para sites não comerciais, pessoais e/ou mínimos. É uma ótima resposta aos SERPs de GBY cada vez mais cheios de spam de SEO. Alimenta parcialmente Teclis, que por sua vez alimenta parcialmente Kagi. Atualização 28/05/2022: Marginalia.nu agora é código aberto.
Ichido: Um mecanismo que acaba de lançar seu próprio índice independente, com muita reflexão cuidadosa em seu algoritmo de classificação. Assim como o Marginalia, ele é voltado para a Web não comercial: ele rebaixa anúncios, CAPTCHAs, rastreadores, SEO e ofuscação. Mais informações sobre Ichido estão em uma postagem do blog .
Teclis: Um projeto do criador da pesquisa Kagi. Usa seu próprio rastreador que mede o conteúdo bloqueado pelo uBlock Origin e extrai conteúdo com os raspadores de artigos de código aberto Trafilatura e Readability.js. Esta é uma abordagem bastante interessante: rastrear elementos bloqueados desencoraja o rastreamento e a publicidade; usar Trafilatura e Readability.js incentiva o uso de HTML semântico e padrões da Web Semântica, como microformatos , microdados e RDFa . Afirma também usar alguns resultados da Marginalia. A interface da Web foi desativada , mas sua API independente ainda está disponível para clientes Kagi.

Localizadores de sites

Esses mecanismos tentam encontrar um site, normalmente no nível do nome de domínio. Eles não se concentram na captura de páginas específicas em sites.

Kozmonavt: O melhor nesta categoria. Possui um índice pequeno, mas crescente, de mais de 8 milhões de sites. Se eu quiser encontrar o site de um determinado projeto, o Kozmonavt funciona bem (desde que seu índice tenha rastreado o site). Funciona mal para aprender coisas e encontrar informações gerais. Não posso recomendá-lo para nada sério, pois faltam informações de contato, uma política de privacidade ou qualquer outra informação sobre a organização/pessoas que o criaram. Descoberto nos logs de acesso do seirdy.one.
search.tl: Pesquisa generalista para um TLD por vez (o padrão é .com). Não sei por que você deseja limitar sempre suas pesquisas a um único TLD, mas agora você pode Não há nenhuma UI visível para alterar o TLD para resultados disponíveis; você precisa adicionar/alterar o tldparâmetro URL. Por exemplo, para pesquisar sites .org, anexe &tld=orgao URL. Parece estar ligado a Amidalla . Amidalla permite aos usuários adicionar URLs manualmente ao seu índice e diretório; Ainda estou para ver se isso afeta os resultados do search.tl.
thunderstone: Um catálogo de sites combinado e um mecanismo de pesquisa que se concentra na categorização. Trata -se de reivindicações de página : pesquisamos continuamente todos os servidores web primários COM, NET e ORG e destilamos seu conteúdo para produzir esse banco de dados. Este é um índice de sites , não de páginas. É muito bom para encontrar empresas e organizações por propósito, produto, assunto ou localização. Se você estiver tentando encontrar coisas como 'a página da lata de cerveja pessoal de BillyBob na AOL' , experimente o Yahoo ou o Dogpile. Este parece ser o pólo oposto dos motores na categoria “Web pequena ou não comercial” .
sengine.info: Mostra apenas domínios, não páginas individuais. Desenvolvido pela netEstate GmbH, especializada em extração de conteúdo para impressões e anúncios de emprego. Também tem uma versão somente em alemão disponível. Descoberto em meus logs de acesso.
Gnomo: Permite consultas com uma única palavra-chave e retorna sites que parecem cobrir um tópico relacionado. Na verdade, eu gosto de usá-lo; os resultados são antigos (normalmente de 2009) e um pouco aleatórios, mas são uma ótima maneira de descobrir algo novo. Por exemplo, pesquisar “IRC” me ajudou a descobrir novas redes de IRC das quais nunca tinha ouvido falar.

Outro

highbrow: Usa um algoritmo de classificação não tradicional que faz um excelente trabalho ao introduzir acasos não otimizados para SEO nos resultados de pesquisa. Um dos meus “motores de navegação” favoritos, em oposição aos “motores de busca” tradicionais.
keybot: Um must-have para quem faz trabalhos de tradução. Ele rastreia a web em busca de sites multilíngues. Os tradutores que não têm certeza sobre como traduzir uma determinada palavra ou frase podem ver seu uso em dois idiomas específicos, para aprender com outros tradutores humanos. Meus pais falam inglês fluentemente, mas às vezes têm dificuldade para expressar uma determinada expressão hindi em inglês; algo assim pode ser útil para eles, já que a tradução automática não tem nuances suficientes para todas as situações. Parte da Rede de Tradução TTN . Descoberto em meus logs de acesso.
Quor: Parece indexar principalmente grandes sites de notícias. O site está fora do ar em junho de 2021; originalmente disponível em www ponto quor ponto com.
Estudioso Semântico: Um mecanismo de busca do Allen Institute for AI focado em PDFs acadêmicos, com algumas centenas de milhões de artigos indexados. Descoberto em meus logs de acesso.
Bonzamato: Um mecanismo de busca específico para sites australianos. Boyter escreveu uma postagem interessante no blog sobre o Bonzamate .
searchcode: Um mecanismo de busca de código do desenvolvedor do Bonzamate. Pesquisa o código-fonte em uma lista escolhida a dedo de forjamentos de código, oferecendo suporte a muitos operadores de pesquisa.
Pesquisa do Laboratório Lixia: Um novo mecanismo que se concentra na indexação de sites e blogs técnicos, com um front-end mínimo livre de JavaScript. Descoberto em meus logs de acesso. Resultados surpreendentemente bons para consultas amplas de palavras-chave técnicas.

Outras línguas

Grandes índices

- Baidu: chinês. Índice muito grande; é um motor importante ao lado do GBY. Oferece ferramentas para webmasters para envio de sites.
- Qihoo 360: chinês. Não tenho certeza de quão independente este é.
- Toutião: chinês. Também não tenho certeza de quão independente este é.
- Sogou: chinês
- Yisou: chinês
- Naver : Coreano. Permite o envio de sitemaps e feeds. Descoberto por meio de algumas instâncias de metabusca Searx.
- Daum : Coreano. Também não tenho certeza sobre a independência deste.
- Seznam : Tcheco, parece relativamente favorável à privacidade. Descoberto nos logs de acesso do seirdy.one. Ele permite o envio de sites com ferramentas para webmasters.

- Seznam suporta IndexNow ; ele compartilha páginas enviadas pelo IndexNow com Bing e Yandex.

- Cốc Cốc : vietnamita

Índices menores

- ALibw.com : chinês, encontrado em meus logs de acesso.
- Vuhuv : Turco. domínio alternativo
- Parsijoo : Persa
- search.ch : mecanismo de busca regional para a Suíça; os usuários podem restringir as pesquisas às suas regiões locais.
- fastbot : alemão
- Moose.at : alemão (com sede na Áustria)
- SOLOFIELD : Japonês

- kaz.kz : cazaque e russo, com foco no “segmento da Internet do Cazaquistão”

Quase qualificado

wiby.me
wiby.org: Eu amo este. Ele se concentra em sites independentes menores que capturam o espírito da web “inicial”. Está mais focado em “descobrir” novas páginas interessantes que correspondam a um conjunto de palavras-chave do que em encontrar recursos específicos. Gosto de pensar no Wiby como um mecanismo para navegar, não para pesquisar. Runnaroo ocasionalmente apresentava um hit de Wiby (desde então, Runnaroo foi fechado). Se você tem um site ou blog pequeno que não é muito “comercial”, considere submetê-lo ao índice. Não se qualifica porque parece ser alimentado apenas por sites enviados por usuários; ele não tenta “rastrear a Web”.
Mwmbl: Assim como o YaCy, é um mecanismo de código aberto cujo rastreamento é conduzido pela comunidade. Os usuários podem instalar um complemento do Firefox para rastrear páginas em seu backlog. Infelizmente, ele não se qualifica porque rastreia apenas páginas vinculadas a sites escolhidos a dedo (por exemplo, Wikipedia, GitHub, domínios com boa classificação no Hacker News). A profundidade de rastreamento é “1”, portanto (ainda) não rastreia toda a Web.
searchmysite: Semelhante ao Marginalia e ao Teclis, mas indexa apenas sites pessoais e independentes enviados por usuários. Opcionalmente, suporta IndieAuth. Sua API alimenta os resultados de pesquisa deste site; experimente usando a barra de pesquisa na parte inferior desta página. Não se qualifica porque está limitado a sites enviados por usuários e/ou escolhidos a dedo.
Blog Surf: Um mecanismo de busca para blogs com feeds RSS/Atom. Não se qualifica porque todos os blogs submetidos ao índice exigem revisão manual, mas parece interessante. Seu algoritmo “MarketRank” parece dar uma tendência a sites populares em “Hacker” “News”.

Diversos

O site está de volta. Eles afirmam terceirizar os resultados da pesquisa. Os resultados parecem semelhantes aos do Google, Bing e Yandex; no entanto, não consigo identificar exatamente de onde vêm os resultados. Além disso, vários sites da “rede ask.com”, como directhit.com, info.com e kensaq.com, apresentam resultados de aparência única.
infinitysearch: Parcialmente avaliado. Índice jovem e pequeno. Recentemente, ele se dividiu em uma oferta paga com o índice principal e o Infinity Decentralized , o último dos quais permite aos usuários selecionar rastreadores hospedados pela comunidade. Consegui testá-lo antes de se tornar uma oferta paga e parecia decente; entretanto, não consegui executar os testes listados na seção “Metodologia”. Permite o envio de URLs e mapas de sites em uma caixa de texto, sem necessidade de outro trabalho.

Mecanismos de busca sem interface web

O mecanismo de busca da Apple pode ser usado na forma de “Sites sugeridos pela Siri”. Seu índice é construído a partir do rastreador da web Applebot. Se a Apple já tem um mecanismo de busca funcionando, não é exagero dizer que algum dia eles farão uma interface web para ele.

A Amazon comprou a Alexa Internet (uma empresa de análise de tráfego da web, na época não relacionada ao assistente virtual Amazon Alexa) e descontinuou seu produto de classificação de sites. A Amazon ainda executa rastreadores relevantes e também tem um bot chamado “Amazonbot” . Enquanto o Applebot capacita o assistente pessoal Siri, o Amazonbot capacita o assistente pessoal Alexa para responder ainda mais perguntas dos clientes . Rastrear a web para responder perguntas é a base de um mecanismo de busca.

Cemitério

petalsearch: Um mecanismo de busca da Huawei que recentemente mudou da busca de aplicativos Android para a busca geral, a fim de reduzir a dependência de provedores de busca ocidentais. Apesar dos resultados surpreendentemente bons, eu não o recomendaria devido a questões de privacidade: sua política de privacidade descreve métricas avançadas de impressão digital e não funciona sem JavaScript. Requer uma conta para enviar sites. Eu descobri isso através dos meus logs de acesso. Esteja ciente de que em algumas jurisdições não utiliza o seu próprio índice: na Rússia e em algumas regiões da UE utiliza Yandex e Qwant, respetivamente. Inacessível em junho de 2023.
Neeva: Anteriormente na seção "semi-independente" . Resultados combinados do Bing com resultados de seu próprio índice. O Bing normalmente não concorda com isso, mas Neeva foi uma das poucas exceções. Os resultados foram em sua maioria idênticos aos do Bing, mas links originais não encontrados pelo Bing apareciam com frequência. Consultas de cauda longa e esotéricas tinham menos probabilidade de apresentar resultados originais. É necessária a inscrição com um endereço de e-mail ou OAuth para uso e é oferecido um nível pago com benefícios adicionais. Adquirida pela Snowflake e anunciada seu encerramento em maio de 2023.
Gigablasto: Já existe há algum tempo e também possui um diretório da web clássico. As pesquisas são um pouco lentas e é cobrado o envio de sites para rastreamento. Ele alimenta Private.sh . Gigablast estava empatado com Right Dao em qualidade. Desligar em meados de 2023.
wbsrch: Além de sua busca generalista, também contava com muitos outros utilitários relacionados às estatísticas de nomes de domínio. Falha em vários testes. Seu índice estava um pouco desatualizado; ele tinha um antigo acúmulo de sites que não havia terminado de indexar. Ele também tinha vários índices dedicados por idioma.
Gowiki: Muito jovem, índice pequeno, mas mostrou-se promissor. Eu descobri isso nos logs de acesso do seirdy.one. Ele estava disponível apenas nos EUA. Parece baixo no início de 2022.
Meorca: Um mecanismo de busca com sede no Reino Unido que afirma não “indexar sites de pornografia ou conteúdo ilegal”. Também possui uma rede social opcional (“blog”). Descoberto nos logs de acesso do seirdy.one.
Ninfex: Um mecanismo de pesquisa “movido por pessoas” que combina aspectos de agregadores de links e pesquisa. Ele permite que os usuários votem nos envios e também exibe links para fóruns sobre envios.
Marlo: Outro mecanismo FLOSS: Marlo é escrito em Haskell. Possui um índice pequeno que é bom o suficiente para navegar em tópicos amplos, mas não o suficiente para pesquisas específicas. Originalmente disponível em marlo.sandymaguire.me.
websearchengine.org
tuxdex. com: Ambos eram administrados pelas mesmas pessoas, alimentados pelo índice inetdex.com. As pesquisas são rápidas, mas os rastreamentos são um pouco superficiais. Afirma ter um índice de 10 milhões de domínios e não usar cookies. As páginas estão atualmente fora do ar e os domínios redirecionam para sites pornográficos; Não tenho conhecimento de nenhum aviso oficial.