[Python] Seleniumを使ってみる (2)
以下の記事の続きです。 今回は、経済産業省のプレスリリースから、過去のアーカイブをまとめて取得して、csvファイルに保存します。 まずは、前回のコードをアーカイブのページのURLを対象にして実行し、問題なく動作することを確認します。 CSVへの保存...
Freedom is a responsible choice.
以下の記事の続きです。 今回は、経済産業省のプレスリリースから、過去のアーカイブをまとめて取得して、csvファイルに保存します。 まずは、前回のコードをアーカイブのページのURLを対象にして実行し、問題なく動作することを確認します。 CSVへの保存...
Selenium Seleniumは、webアプリケーションのテストのためのフレームワークですが、スクレイピングでも良く使われます。Seleniumを使うことで、webブラウザを操作することができます。 公式サイト 今回はPythonでSeleniumを使うこ...
robobrowser Pythonでwebスクレイピングを行うためのライブラリです。 セッション部分にはrequestが、HTML部分にはbeautifulsoupが内部で対応しています。 とてもコードは書きやすいですが、robobrowser==0...
Pythonで2分木を実装します。 2分木 二分木(binary tree; 二進木、バイナリツリー)は、データ構造の1つである。根付き木構造の中で、あるノード(節点 node)が持つ子の数が高々2であるものをいう。典型的には2つの子はそれぞれ「左」「右」と呼ばれ...
以下の続きです。 Stem/語幹 語幹(ごかん)とは語形変化の基礎になる部分のこと。日本語では用言の活用しない部分のことを言うが、形容詞や形容動詞では独立性が強い。また、語幹に対して、末尾の活用する部分のことを活用語尾ということがある。 出典: フリ...
以下の続きです。 WordNet nltk.corpusでは、WordNetという英語の辞書を利用することができます。 WordNet(ワードネット)は英語の概念辞書(意味辞書)である。WordNetでは英単語がsynsetと呼ばれる...
こちらのほぼ写経です。 Pythonのwordcloudというモジュールを使ってWordCloudを作ってみます。 word cloud / tag cloud タグ・クラウド(tag cloud) はタグの視覚的記述を指す。 出典: フリー百科事典『ウ...
以下の続きです。 nltkeのモジュールと不思議の国のアリスを読み込みます。 >>> import nltk >>> from nltk.text import Text >>> alice = Text(nltk.corpus.gutenberg....
こちらのほぼ写経です。 NTLK Natural Language Toolkit NTLK(Natural Language Toolkit)とは、英語の自然言語のためのPythonのライブラリです。 公式サイト NTLKのインストール 公式の...
Windows上で、Pythonからマイクロソフトのアクセスファイルを扱うために、pyodbcを使います。 pyodbc pyodbcは、PythonからODBCを通してデータベースを操作するライブラリです。SQL構文でデータベースとやりとりができます。 Py...