论坛徽章:: 2

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-06-27 07:05 |只看该作者 |倒序浏览

本帖最后由 OwnWaterloo 于 2013-06-27 07:26 编辑

一直抱有侥幸心理： google reader 关闭会不会是一个愚人节玩笑。。。马上就要7月了，看来是没希望了。。。
这年头google也不靠谱了。。。赶紧备份吧。。。

history

google reader相对于其他阅读器的牛x之处在于它有rss的历史。。。不知道有没有类似的替代方案。。。如果有的话，下面算是白折腾了。。。
url scheme

对没有公开url scheme的网站，自己去猜简直就是坑。。。 google了一下，搜到两个比较有用的信息：

i) authentication http://stackoverflow.com/questio ... der-of-a-given-feed

http://www.google.com/reader/atom/feed/URL 需要认证。。。那写http-client就会比较麻烦。。。
http://www.google.com/reader/public/atom/feed/URL 就不需要了。。。

ii) gr:continuation https://adityanag.com/journal/20 ... -archive-of-a-site/

从 http://www.google.com/reader/public/atom/feed/URL?n=COUNT 可以得到 COUNT 条 entry 。经测试 COUNT 默认为 20，最大为 1000 。
如果返回的xml里有 gr:continuation 节点，它的内容就可以用于继续下载。
2. # 最新 20 条
3. $ curl -sL 'http://www.google.com/reader/public/atom/feed/http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml' | egrep -o '<gr:continuation>([^<]*)</gr:continuation>'
4. <gr:continuation>CL2K65mn-bMC</gr:continuation>
6. # 使用 c=CL2K65mn-bMC 就可以从 20 条之后继续下载, n=30 选择后续 30条
7. $ curl -sL 'http://www.google.com/reader/public/atom/feed/http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml?c=CL2K65mn-bMC&n=30' | egrep -o '<gr:continuation>([^<]*)</gr:continuation>'
8. <gr:continuation>CLnN5sGQhK4C</gr:continuation>
10. # CLnN5sGQhK4C 又可用于 50 条之后的查询
复制代码
当返回的xml里没有 gr:continuation 节点时就到末尾了。
atom-continuation-download

于是写了个下载的脚本。。。依赖bash(需要--enable-cond-regexp (info "(bash) Optional Features" )), curl, tail, date（其实没什么必要）, mkdir.

使用方法：
2. # 下载 http://okmij.org/ftp/rss.xml 的所有历史
3. $ atom-continuation-download http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml
5. # 每次获取 326 条
6. $ atom-continuation-download http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml 326
8. # 传递一些参数给 curl
9. $ CURL_OPTIONS='--socks5 localhost:1080 --silent' atom-continuation-download http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml
复制代码
代码：
2. #!/bin/bash
4. count="${2:-1212}"
5. rss="${1:-http%3A%2F%2Fokmij.org%2Fftp%2Frss.xml}"
6. continuation="${rss}.continuation.txt"
7. prev="${3:-$(tail -n 1 "$continuation" 2>/dev/null)}"
9. if [ -z "$prev" ]; then
10. atom="${rss}-$(date +'%Y%m%d%H%M').xml"
11. url="http://www.google.com/reader/public/atom/feed/${rss}?n=${count}"
12. else
13. mkdir -p "$rss"
14. atom="${rss}/${prev}.xml"
15. url="http://www.google.com/reader/public/atom/feed/${rss}?n=${count}&c=${prev}"
16. fi
18. echo "$url"
19. if [[ "$(curl $CURL_OPTIONS -L "$url" | tee "$atom" )" =~ $(echo '<gr:continuation>([^<]*)</gr:continuation>') ]]
20. then
21. next="${BASH_REMATCH[1]}"
22. echo "$next" >> "$continuation"
23. exec "$0" "$rss" "$counts" "$next"
24. fi
复制代码
urlencode

atom-continuation-download 不负责 urlencode ，要求传递给它的 url 必须是 encoded 。（其实原始的 url 传递给 curl 也是可以的，只是创建文件名会比较麻烦）。
urlencode这工作说容易也容易， python, perl, php, ... 都可以做。难的地方是：使用环境上有python/perl... 吗？
是在代码里使用其中一种（比如python），然后在只有perl的机器上重写相关的部分？
还是在代码里将所知道的方法都写上，然后在目标机器上进行测试？怎么让我想起了万恶的 ./configure 。。。

于是没有将urlencode写在download的代码里。而是单独用 curl + nc + tail 写了一个。。。用法：
2. $ urlencode 'http://www.4clojure.com/problems/rss'
3. http%3A%2F%2Fwww.4clojure.com%2Fproblems%2Frss
5. $ atom-continuation-download $(urlencode 'http://www.4clojure.com/problems/rss')
复制代码
代码：
2. #!/bin/sh
3. nc -l "${URLENCODE_PORT:-1212}" | tail -n 1 &
4. curl --silent --max-time 1 --data-urlencode "${1:-http://okmij.org/ftp/rss.xml}" "localhost:${URLENCODE_PORT:-1212}"
复制代码
future

长久之计？

选择一个google reader的替代品？没仔细留意，不过得到的消息都是新选择的阅读器不支持历史。。。
自己从现在开始为rss在本地记录历史？  那这两天来不及发现的好站的历史可能就没了。。。看google reader是只关闭web界面还是连api一起给关了。。。
还是说不通过rss，对喜欢的网站直接web scraping。。。  不过弄好了自己没时间看也是个问题啊。。。

总之。。。  暂时先把数据抓到本地再说。。。  否则可能就来不及了。。。

文库|博客

starwing83

巨富豪门

论坛徽章:: 5

2楼 [报告]

发表于 2013-06-27 07:17 |只看该作者

沙发………………………………

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	3楼 [报告] 发表于 2013-06-27 08:10 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

_HellAngel_

丰衣足食

论坛徽章:: 1

4楼 [报告]

发表于 2013-06-27 10:38 |只看该作者

好久不见= =。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sqfasd

丰衣足食

论坛徽章:: 0

5楼 [报告]

发表于 2013-06-27 10:57 来自手机 |只看该作者

写http client如果遇到认证的问题可以在请求header里写入cookie，难点在哪里呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wulien88

白手起家

论坛徽章:: 3

6楼 [报告]

发表于 2013-06-27 16:50 |只看该作者

本帖最后由 wulien88 于 2013-06-27 16:51 编辑

替代产品多了去了，AOL，InoReader,Digg Reader,而且都可以用google账号直接导入的，方便的很

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fergon

白手起家

论坛徽章:: 6

7楼 [报告]

发表于 2013-06-27 16:57 |只看该作者

我选了鲜果,很显然没google reader哪么爽 , 不过还凑合.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

pprpg

丰衣足食

论坛徽章:: 1

8楼 [报告]

发表于 2013-06-28 14:58 |只看该作者

用下看看。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

OwnWaterloo

实习版主

论坛徽章:: 2

9楼 [报告]

发表于 2013-06-28 18:02 |只看该作者

wulien88 发表于 2013-06-27 16:50
替代产品多了去了，AOL，InoReader,Digg Reader,而且都可以用google账号直接导入的，方便的很

它们支持获取rss的历史吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

timespace

大富大贵

论坛徽章:: 11

10楼 [报告]

发表于 2013-06-28 18:16 |只看该作者

Google有个人数据倒出工具takeout，可能要翻GFW
https://www.google.com/takeout/#custom:reader

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › google reader 备份

pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	3楼 [报告] 发表于 2013-06-27 08:10 \|只看该作者提示: 作者被禁止或删除内容自动屏蔽
pmerofc pmerofc 当前离线禁止发言好友博客消息论坛徽章: 2	实战分享：从技术角度谈机器学习入门\| 【大话IT】RadonDB低门槛向MySQL集群下战书 \| ChinaUnix打赏功能已上线！ \| 新一代分布式关系型数据库RadonDB知多少？

[技术动态] google reader 备份 [复制链接]