Stay Safe!!

python3.6でScrapyインストール時にエラー

crawl image

みなさまこんにちは。

最近huluの無料トライアルを体験中。2週間無料で使えるそうです。
と、視聴する中でこんなのあったらいいのになと思ったのが、既に契約済の「AmazonPrimeビデオとの差分表示ツール」。huluとAmazonPrimeビデオは、実は結構なコンテンツが被っているように見えて、オリジナルコンテンツくらいしか差がないのでは?とさえ思えます。

上記の要望はその後JustWatchというサービスの存在を知ることであっさり解決したのですが、せっかくなのでpythonでクローラー&スクレイパーを作成しようと思った今日この頃。

さて、本題です。


python3.6でScrapyインストール時にエラー


CentOS Linux release 7.6.1810を使ってpython環境を準備していますが、Scrapyというクロール&スクレイピング用のフレームワークをインストールしようとすると以下のメッセージが。

# pip install scrapy 
...
...
    src/twisted/test/raiser.c:4:20: 致命的エラー: Python.h: そのようなファイルやディレクトリはありません
     #include "Python.h"
                        ^
    コンパイルを停止しました。
    error: command 'gcc' failed with exit status 1
...
ERROR: Command "/usr/bin/python3.6 -u -c 'import setuptools, 
...

なんじゃこりゃとググってみると、どうやらライブラリ不足の模様。以下で解決しました。

#  yum install python36-devel

ちなみに、python3.6をご利用の方、本件は、python3-devel、python2-develのインストール(yum install python3-devel python2-devel)では解決しませんので、ご注意を。#まぁ当然なんですが

その後Scrapyは無事インストールできてめでたしめでたしです。

# pip install scrapy 
...
...
Installing collected packages: Twisted, scrapy
  Running setup.py install for Twisted ... done
Successfully installed Twisted-19.2.1 scrapy-1.6.0