Encoding Issues - UnicodeDecodeError: 'utf8' codec can't decode byte #19

jimishjoban · 2014-02-12T05:27:13Z

Hey guys,

First of all thanks for python-boilerpipe

Trying to use Boilerpipe but can't extract properly some documents...

from boilerpipe.extract import Extractor
extractorType="DefaultExtractor"
sourceUrl = 'http://www.indiatimes.com/news/india/arvind-kejriwal-to-seek-political-sanyas-127620.html'
extractor = Extractor(extractor=extractorType, url=sourceUrl)
Traceback (most recent call last):
File "", line 1, in
File "/Library/Python/2.7/site-packages/boilerpipe/extract/init.py", line 41, in init
self.data = unicode(self.data, encoding)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x91 in position 53647: invalid start byte

The document seems to be having some non-utf8 characters... which do not seem to parse well... Any workaround for the problem?

Caimany · 2015-06-01T03:44:24Z

I solved UnicodeDecodeError ,you can see what I modified in init.py
https://github.com/Caimany/python-boilerpipe/blob/master/src/boilerpipe/extract/__init__.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Encoding Issues - UnicodeDecodeError: 'utf8' codec can't decode byte #19

Encoding Issues - UnicodeDecodeError: 'utf8' codec can't decode byte #19

jimishjoban commented Feb 12, 2014

Caimany commented Jun 1, 2015

Encoding Issues - UnicodeDecodeError: 'utf8' codec can't decode byte #19

Encoding Issues - UnicodeDecodeError: 'utf8' codec can't decode byte #19

Comments

jimishjoban commented Feb 12, 2014

Caimany commented Jun 1, 2015