Articles of indexación

¿Cómo agregar la configuración del analizador en ElasticSearch?

Estoy usando ElasticSearch 1.5.2 y deseo tener las siguientes configuraciones: “settings”: { “analysis”: { “filter”: { “filter_shingle”: { “type”: “shingle”, “max_shingle_size”: 2, “min_shingle_size”: 2, “output_unigrams”: false }, “filter_stemmer”: { “type”: “porter_stem”, “language”: “English” } }, “tokenizer”: { “my_ngram_tokenizer”: { “type”: “nGram”, “min_gram”: 1, “max_gram”: 1 } }, “analyzer”: { “ShingleAnalyzer”: { “tokenizer”: “my_ngram_tokenizer”, “filter”: [ […]

La consulta N1QL caduca cuando se utiliza la cláusula IN parametrizada

Al usar el servidor Couchbase 4.1.0 (y 4.5), Java SDK 2.2.8 (también probado con 2.2.7, 2.3.1 y 2.3.3), tengo una consulta que aprovecha un índice secundario que funciona bien cuando ejecuto mi código localmente e incluso a través de CBQ (CBQ tarda aproximadamente 3 ms) en el servidor de AWS. Sin embargo, cuando TimeOutException mi […]

¿Cómo deshabilitar la puntuación / mejora predeterminada en Hibernate Search / Lucene?

Quiero servir a mis usuarios los mejores y mejores resultados. Por ejemplo, estoy recompensando los registros que tienen un título grande, una descripción, fotos adjuntas, etc. Para el contexto: los registros son rutas en bicicleta, tienen puntos de ruta (coordenadas) y metadatos como fotos, comentarios, etc. Ahora, he indexado estos registros usando Hibernate y luego […]

Lucene indexando y buscando al mismo tiempo.

Quiero buscar con Lucene en un índice. El índice se cambia con frecuencia. Así que necesito hacer algo para buscar e indexar al mismo tiempo. Es una aplicación web en Tomcat. Y quiero usar RAMDeirectory para boost la velocidad de búsqueda. ¡No sé cómo hacerlo!

¿Cómo realizar la agregación anidada en varios campos en Solr?

Estoy intentando realizar una agrupación de resultados de búsqueda (recuento y sum) agrupados por varios campos de forma anidada. Por ejemplo, con el esquema que se muestra al final de esta publicación, me gustaría poder obtener la sum de “tamaño” agrupada por “categoría” y subgrupar más por “subcategoría” y obtener algo como esto: …. He […]

La diferencia entre la indexación heredada / indexación automática y el nuevo enfoque de indexación en Neo4j

Me cuesta entender la diferencia entre el enfoque de indexación heredado y el nuevo enfoque de indexación, por lo que quizás alguien pueda aclararme estos puntos. Mi única preocupación es realmente cómo se relaciona con la API de Java y no con las consultas de Cypher. Sub-preguntas 1) ¿Es Legacy Indexing lo mismo que auto-indexing? […]

¿Es posible desacoplar las capacidades de indexación de código de Eclipse?

Estoy buscando escribir un analizador estático para una clase universitaria. Para proporcionar más poder a la herramienta, me gustaría poder buscar la jerarquía de llamadas (como hace Ctrl + Alt + H en Eclipse). Esto también tendría que ser una operación rápida, por lo que la búsqueda probablemente debería realizarse contra un índice en lugar […]

Solr carga todo el índice en la memoria

Estoy usando solr para datos similares a nombre: edad: sexo: balance: nextbalance: interés Tengo 30 registros M en total a 4G en el disco. Estoy recuperando por edad: 23, que es sólo 50 registros. He indexado = “verdadero” en el esquema xml. Solr parece cargar todo el índice en el disco en la memoria (4G). […]

Crear un índice con MongoDb

Soy principiante con MongoDB y estoy probando algunas cosas. Quiero almacenar la URL y para evitar la URL duplicada creo un índice único en la url. Como eso collection.createIndex(new BasicDBObject(“url”, type).append(“unique”, true)); Pero cada vez que lanzo mi progtwig, el índice se crea de nuevo, ¿no es así? Porque, ahora mi progtwig solo está insertando […]

Mejorar la indexación multi-hilo con lucene.

Estoy tratando de construir mis índices en Lucene con múltiples hilos. Entonces, comencé mi encoding y escribí el siguiente código. Primero encuentro los archivos y para cada archivo, creo un hilo para indexarlo. Después de eso me uno a los hilos y optimizo los índices. Funciona pero no estoy seguro … ¿puedo confiar en esto […]