早くも苦戦
まず企業のIRのpdfからPLとBSのみを取り出す段階を作ろうと思っているのですが、大変です。
まずデータセットを用意しなくてはならないです。
あとPDFと画像ファイルの取り扱い?使い分けが難しいですね。学習させるにはPNGとかにしなくてはならないですし、でも入力は企業のIRの決算短信などのURLを入れるだけにしたい。そこの処理をもっと勉強しなくては。pdfを読み込んで、それを全ページPNGとかに変換し、それをBS、PLのみ選別し、そこからCloudVisionAPIで文字を取得するところまでは頑張りたいですね。そこから表データにするところはまた方法を考えなくてはならないですが。
実働としてはDeelをセットアップするところまでやりました。DeelというのはChainerでできることをもっとお手軽にしようというソフトです。
今日はここまでです。明日はPDFとPNGについて知識を深めようと思います。
今日から日記を続けていきます。
主にプログラミングの習得過程を日記形式で書いていこうと思います。
そう言うからにはプログラミングを習得しなければなりません。がんばります。
使う言語は主にPython、後々JSにも手を出していければと思います。
Pdfに画像認識を使って分類をするということを初心者ながらやっていくつもりです。
それができたらJSも練習したいのでWeb上に上げてみるつもりです。
環境はUbuntu16.04LTS、Python2.7(早速Anacondaで3.5の仮想環境を入れるのに苦戦している)
メイン機にMacMiniを持っていてそちらではAnacondaに助けてもらっているのですが、
MacでAnacondaを入れる手順は
$ pip install conda
$ conda create -n py35 python=3.5
とかでできてたはずなのですが、Linuxになると
①Webサイトからインストーラーをダウンロードし
②$ bash Anaconda3-4.3.0-Linux-x86_64.sh
と入れられるようなので今日はそれを入れておしまいです。
さっき言っていたPdfからデータにするというのは主にPyPDF2とdeelを使っていこうと思っています。これからよろしくお願いいたします。