[TYPO3-Solr] Highlight snippets, fragmentsize and merged snippets
Jigal van Hemert
jigal at xs4all.nl
Sat Jun 16 11:29:01 CEST 2012
Hi,
On 14-6-2012 12:16, Ingo Renner wrote:
> I haven't looked into it yet, but if cropping is wrong it's most likely
> a bug in core.
I did some further investigation, in the solr admin interface I used
this query:
http://<domain>:8080/solr/prod-<corename>-2-0-nl_NL/select?indent=on&version=2.2&q=content%3Aburgemeester&fq=type%3Apages&start=50&rows=10&fl=*%2Cscore&qt=&wt=&explainOther=&hl=on&hl.fl=title%2Ccontent&hl.fragsize=160
I added the fragsize to force solr to give me fragments of max. 160
characters. One of the problematic documents gives me this highlighting
snippet:
<lst name="ec7f216f3773ca256c40df47946c85b75a33a497/pages/1168/0/0/0">
<arr name="content">
<str>Leden Commissie voor bezwaarschriften Als u het niet eens
bent met een beslissing van de gemeente, kunt u een bezwaarschrift
indienen. Een commissie met leden die niet in dienst zijn van de
gemeente, adviseert het college van <em>burgemeester</em> en wethouders
over de te nemen beslissing op het bezwaarschrift. In de Verordening
commissie voor bezwaarschriften s de organisatie en werkwijze van deze
commissie voor bezwaarschriften vastgelegd.</str>
</arr>
</lst>
It obviously is much longer than 160 characters. Not counting the <em>
tags it's 441 characters and the search word is at position 231.
It happens more than once:
Wethouder De Boer Partij: PvdA Portefeuille:
Onderwijsbeleid, woonbeleid, ruimtelijke ordening, regionale
samenwerking. Loco-<em>burgemeester</em>. Jan Willem de Boer
persoonlijk “Ik heb een vrouw en drie kinderen. Twee wonen op
zichzelf en de derde woont nog thuis en volgt een opleiding aan de
universiteit.” Waarom Heerhugowaard? “Ik kom uit de Zaanstreek
en kwam hier destijds vanwege de woningnood. Inmiddels wil ik niet meer
terug. En dat is dankzij
Size: 503, search word at: 160
Most of the returned snippets are correctly sized, but quite often (so
often that it is easily noticed in the results) the snippet is way too
large.
It seems an issue at the solr server side. I haven't been able to find a
bug report about this.
Any ideas?
--
Kind regards / Met vriendelijke groet,
Jigal van Hemert.
More information about the TYPO3-project-solr
mailing list