放牧代码和思想
专注自然语言处理、机器学习算法
    博主不用扣扣,公事请博客留言,私事请微博私信。开源项目一律GitHub见,发错地方恕不回复,谢谢。

解决UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position

最近用Python写了些爬虫,在爬取一个gb2312的页面时,抛出异常:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 21-23: ordinal not in range(128)

解决方案如下:

首先设置系统的默认编码为utf-8:

import sys

reload(sys)
sys.setdefaultencoding('utf-8')

然后将网页以gbk解码后转为utf-8:

        result = urllib2.urlopen(req).read()
        result = unicode(result,'GBK').encode('UTF-8')

之后就正常了。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 解决UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position

分享到:更多 ()

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机