[TYPO3-Solr] Highlight snippets, fragmentsize and merged snippets

Jigal van Hemert jigal at xs4all.nl
Sat Jun 16 11:29:01 CEST 2012


Hi,

On 14-6-2012 12:16, Ingo Renner wrote:
> I haven't looked into it yet, but if cropping is wrong it's most likely
> a bug in core.

I did some further investigation, in the solr admin interface I used 
this query:

http://<domain>:8080/solr/prod-<corename>-2-0-nl_NL/select?indent=on&version=2.2&q=content%3Aburgemeester&fq=type%3Apages&start=50&rows=10&fl=*%2Cscore&qt=&wt=&explainOther=&hl=on&hl.fl=title%2Ccontent&hl.fragsize=160

I added the fragsize to force solr to give me fragments of max. 160 
characters. One of the problematic documents gives me this highlighting 
snippet:

<lst name="ec7f216f3773ca256c40df47946c85b75a33a497/pages/1168/0/0/0">
   <arr name="content">
     <str>Leden Commissie voor bezwaarschriften      Als u het niet eens 
bent met een beslissing van de gemeente, kunt u een bezwaarschrift 
indienen. Een commissie met leden die niet in dienst zijn van de 
gemeente, adviseert het college van <em>burgemeester</em> en wethouders 
over de te nemen beslissing op het bezwaarschrift. In de Verordening 
commissie voor bezwaarschriften s de organisatie en werkwijze van deze 
commissie voor bezwaarschriften vastgelegd.</str>
   </arr>
</lst>

It obviously is much longer than 160 characters. Not counting the <em> 
tags it's 441 characters and the search word is at position 231.

It happens more than once:

Wethouder De Boer                  Partij:     PvdA      Portefeuille: 
    Onderwijsbeleid, woonbeleid, ruimtelijke ordening, regionale 
samenwerking. Loco-<em>burgemeester</em>.      Jan Willem de Boer 
persoonlijk     “Ik heb een vrouw en drie kinderen. Twee wonen op 
zichzelf en de derde woont nog thuis en volgt een opleiding aan de 
universiteit.”      Waarom Heerhugowaard?     “Ik kom uit de Zaanstreek 
en kwam hier destijds vanwege de woningnood. Inmiddels wil ik niet meer 
terug. En dat is dankzij

Size: 503, search word at: 160

Most of the returned snippets are correctly sized, but quite often (so 
often that it is easily noticed in the results) the snippet is way too 
large.
It seems an issue at the solr server side. I haven't been able to find a 
bug report about this.

Any ideas?

-- 
Kind regards / Met vriendelijke groet,

Jigal van Hemert.


More information about the TYPO3-project-solr mailing list